আমরা আনুষ্ঠানিকভাবে AI বুম শুরুর দ্বিতীয় বার্ষিকী পার করেছি, এবং জিনিসগুলি কমেনি। ঠিক উল্টো। জেনারেটিভ এআই এমন একটি গতিতে এগিয়ে চলেছে যা প্রায় অপ্রতিরোধ্য মনে হয়, নতুন প্ল্যাটফর্ম, মাধ্যম এবং এমনকি ডিভাইসগুলিতে নিরলস গতিতে প্রসারিত হচ্ছে।
এখানে 10টি ঘোষণা রয়েছে যা 2024 কে এআই-এর বিশ্বে একটি স্মরণীয় বছর করেছে।
OpenAI GPT-4o প্রকাশ করে

যখন ChatGPT (চলমান GPT-3.5 ) প্রথম 2022 সালের নভেম্বরে আসে, তখন এটি মূলত ম্যাড লিবসের একটি অভিনব, কম্পিউটার-নিয়ন্ত্রিত গেম ছিল। আমাকে ভুল বুঝবেন না, এমনকি সেই ক্ষমতাটিও সেই সময়ে বিপ্লবী ছিল, কিন্তু 2024 সালের মে মাসে GPT-4o প্রকাশ না হওয়া পর্যন্ত জেনারেটিভ AI সিস্টেমগুলি সত্যিকার অর্থে নিজেদের মধ্যে আসেনি।
টেক্সট এবং ইমেজ উভয়ই বিশ্লেষণ এবং জেনারেট করার পূর্বসূরির ক্ষমতার উপর ভিত্তি করে, GPT-4o শুধুমাত্র GPT-4- এর তুলনায় আরও ব্যাপক প্রাসঙ্গিক বোঝাপড়া প্রদান করে। চিত্রের ক্যাপশন এবং ভিজ্যুয়াল বিশ্লেষণ থেকে শুরু করে গ্রাফ, চার্ট এবং চিত্রের মতো সৃজনশীল এবং বিশ্লেষণাত্মক উভয় বিষয়বস্তু তৈরি করা পর্যন্ত সবকিছুতে তার ভাল পারফরম্যান্সের অনুবাদ ।
উন্নত ভয়েস মোড কম্পিউটারকে মানুষের মতো কথা বলতে সাহায্য করে

সেপ্টেম্বরে, OpenAI আবারও দেখিয়েছে কেন এটি শীর্ষস্থানীয় কৃত্রিম বুদ্ধিমত্তা সংস্থা তার উন্নত ভয়েস মোড ChatGPT গ্রাহকদের কাছে প্রকাশ করে। এই বৈশিষ্ট্যটি ব্যবহারকারীদের একটি প্রম্পট উইন্ডোতে তাদের প্রশ্ন টাইপ করার প্রয়োজনীয়তা দূর করে, পরিবর্তে তারা অন্য ব্যক্তির মত AI এর সাথে কথোপকথন করতে সক্ষম করে।
GPT-4o-এর মানব-সমতুল্য প্রতিক্রিয়ার সময়কে কাজে লাগিয়ে, অ্যাডভান্সড ভয়েস মোড মৌলিকভাবে পরিবর্তন করেছে যে কীভাবে লোকেরা মেশিনের বুদ্ধিমত্তার সাথে ইন্টারঅ্যাক্ট করতে পারে এবং ব্যবহারকারীদের এআই-এর সম্পূর্ণ সৃজনশীল ক্ষমতা প্রকাশ করতে সাহায্য করেছে।
জেনারেটিভ AI প্রান্তে আসে

2022 সালে যখন ChatGPT আত্মপ্রকাশ করেছিল, তখন এটি ছিল শহরের একমাত্র AI এবং অবিকল এক জায়গায় উপলব্ধ ছিল: ChatGPT.com। ওহ, দুই বছরের পার্থক্য কি। আজকাল, আপনি স্মার্টফোন এবং স্মার্ট হোম ডিভাইস থেকে স্বায়ত্তশাসিত যানবাহন এবং স্বাস্থ্য-মনিটরিং গ্যাজেট সব কিছুতেই জেনারেটিভ এআই খুঁজে পেতে পারেন। ChatGPT, উদাহরণস্বরূপ, একটি ডেস্কটপ অ্যাপ, একটি API, একটি মোবাইল অ্যাপ এবং এমনকি একটি 800 নম্বরের মাধ্যমেও উপলব্ধ। মাইক্রোসফট, তার অংশের জন্য, AI সরাসরি তার কপিলট+ ল্যাপটপের লাইনে একীভূত করেছে।
সম্ভবত সবচেয়ে উল্লেখযোগ্য উদাহরণ, অবশ্যই, অ্যাপল ইন্টেলিজেন্স । এটি সবচেয়ে সফল লঞ্চ নাও হতে পারে (অনেক বৈশিষ্ট্য যার জন্য আমরা এখনও অপেক্ষা করছি), কিন্তু জেনারেটিভ এআই-এর ক্ষমতাকে যতটা সম্ভব অ্যাক্সেসযোগ্য করার ক্ষেত্রে, অ্যাপল ইন্টেলিজেন্সের মতো গুরুত্বপূর্ণ কিছুই ছিল না।
এখন, কপিলট+ পিসি বা অ্যাপল ইন্টেলিজেন্স কেউই ব্যাখ্যা করেনি যে কীভাবে জড়িত সংস্থাগুলি সম্ভবত চায় – বিশেষত মাইক্রোসফ্টের জন্য – তবে আমরা সবাই জানি, এটি কেবল শুরু।
পারমাণবিক শক্তি উৎপাদনের পুনরুত্থান

এই বছরের আগে, আমেরিকাতে পরমাণু শক্তিকে হারানো প্রস্তাব হিসাবে দেখা হয়েছিল। 1979 সালের থ্রি মাইল আইল্যান্ডের ঘটনার বৃহৎ অংশের কারণে, যেখানে উদ্ভিদের প্রাথমিক চুল্লিগুলির একটি আংশিকভাবে গলে গিয়েছিল এবং বিষাক্ত, তেজস্ক্রিয় পদার্থ বায়ুমণ্ডলে ছড়িয়ে পড়েছিল বলে অবিশ্বাস্য এবং অনিরাপদ বলে মনে করা হয়েছিল। যাইহোক, আধুনিক বৃহৎ ভাষার মডেলগুলির জন্য প্রয়োজনীয় বৈদ্যুতিক শক্তির দ্রুত ক্রমবর্ধমান পরিমাণে — এবং তারা আঞ্চলিক পাওয়ার গ্রিডগুলিতে যে ব্যাপক চাপ দেয় — অনেক নেতৃস্থানীয় AI সংস্থাগুলি পরমাণুর শক্তি ব্যবহার করে তাদের ডেটা সেন্টারগুলি চালানোর দিকে ঘনিষ্ঠভাবে নজর রাখছে।
আমাজন, উদাহরণস্বরূপ, মার্চ মাসে ট্যালেন থেকে একটি পারমাণবিক চালিত এআই ডেটা সেন্টার কিনেছিল , তারপর অক্টোবরে এনার্জি নর্থওয়েস্ট থেকে ক্ষুদ্রাকৃতির, স্বয়ংসম্পূর্ণ ছোট মডুলার রিঅ্যাক্টর (এসএমআর) অর্জনের জন্য একটি চুক্তি স্বাক্ষর করে। মাইক্রোসফ্ট, ছাড়িয়ে যাবে না, থ্রি মাইল আইল্যান্ডের উৎপাদন ক্ষমতা নিজেই কিনেছে এবং বর্তমানে রিঅ্যাক্টর ওয়ানকে আবার অনলাইনে পাওয়ার জন্য কাজ করছে এবং বিদ্যুৎ উৎপাদন করছে।
এজেন্টরা জেনারেটিভ AI এর পরবর্তী বড় জিনিস হতে প্রস্তুত

দেখা যাচ্ছে, আপনার বৃহৎ ভাষার মডেল বাড়ানোর কাজে আপনি যতক্ষণ না কম আয়ের সমস্যায় ঝাঁপিয়ে পড়েন ততক্ষণ পর্যন্ত আপনি প্রচুর প্রশিক্ষণের ডেটা, শক্তি এবং জল নিক্ষেপ করতে পারেন। এআই শিল্প 2024 সালে এটি প্রথমভাবে অনুভব করেছিল এবং প্রতিক্রিয়া হিসাবে, বিশাল LLMগুলি থেকে দূরে সরে যেতে শুরু করেছে যা মূলত এজেন্টদের পক্ষে জেনারেটিভ AI অভিজ্ঞতাকে সংজ্ঞায়িত করেছিল; ছোট, আরও প্রতিক্রিয়াশীল মডেলগুলি নির্দিষ্ট কাজগুলি সম্পাদন করার জন্য ডিজাইন করা হয়েছে, ব্যবহারকারী যা জিজ্ঞাসা করতে পারে তা করার চেষ্টা করার পরিবর্তে।
অ্যানথ্রোপিক তার এজেন্ট, কম্পিউটার ব্যবহার নামে পরিচিত, অক্টোবরে আত্মপ্রকাশ করে। মাইক্রোসফ্ট নভেম্বরে কপিলট অ্যাকশনগুলির সাথে স্যুট অনুসরণ করেছিল, যখন OpenAI জানুয়ারিতে তার এজেন্ট বৈশিষ্ট্য প্রকাশ করতে প্রস্তুত বলে জানা গেছে।
যুক্তি মডেলের উত্থান

আজকের বৃহৎ ভাষার মডেলগুলির মধ্যে অনেকগুলি যথাসম্ভব যথাসম্ভব দ্রুত প্রতিক্রিয়া তৈরির দিকে আরও প্রস্তুত, প্রায়শই নির্ভুলতা এবং নির্ভুলতার খরচে৷ OpenAI এর o1 রিজনিং মডেল, যা কোম্পানি সেপ্টেম্বরে একটি প্রিভিউ হিসাবে এবং ডিসেম্বরে সম্পূর্ণ কার্যকরী মডেল হিসাবে প্রকাশ করেছে, বিপরীত পন্থা গ্রহণ করে: এটি একটি প্রদত্ত উত্তরের জন্য এর যৌক্তিকতা যাচাই করার জন্য প্রতিক্রিয়ার গতি ত্যাগ করে, এটি নিশ্চিত করে যে এটি সঠিক এবং সম্পূর্ণ। যতটা সম্ভব
যদিও এই প্রযুক্তিটি এখনও জনসাধারণের দ্বারা সম্পূর্ণরূপে গ্রহণ করা হয়নি (o1 বর্তমানে শুধুমাত্র প্লাস এবং প্রো টিয়ার গ্রাহকদের জন্য উপলব্ধ), শীর্ষস্থানীয় AI কোম্পানিগুলি তাদের নিজস্ব সংস্করণ নিয়ে এগিয়ে যাচ্ছে। Google 19 ডিসেম্বরে জেমিনি 2.0 ফ্ল্যাশ থিঙ্কিং এক্সপেরিমেন্টাল নামে পরিচিত, o1-এর উত্তর ঘোষণা করেছে, যখন OpenAI প্রকাশ করেছে যে এটি ইতিমধ্যেই o1-এর উত্তরসূরি নিয়ে কাজ করছে, যাকে এটি o3 বলে , 20 ডিসেম্বর তার OpenAI লাইভ-স্ট্রিম ইভেন্টের 12 দিনের মধ্যে।
AI-শক্তিযুক্ত অনুসন্ধান ইন্টারনেট জুড়ে ছড়িয়ে পড়ে

জেনারেটিভ এআই আজকাল আপাতদৃষ্টিতে সর্বত্র রয়েছে, তাহলে কেন এটি ইন্টারনেটের অন্যতম মৌলিক বৈশিষ্ট্যগুলির মধ্যে একত্রিত হবে না? গুগল গত দুই বছর ধরে প্রযুক্তির সাথে খেলছে, এই গত মে মাসে তার AI ওভারভিউ বৈশিষ্ট্যটি চালু করার আগে 2023 সালের মে মাসে প্রথম অনুসন্ধান জেনারেটিভ এক্সপেরিয়েন্স প্রকাশ করে।AI ওভারভিউ তথ্যের একটি সারাংশ তৈরি করে যা একজন ব্যবহারকারী তার অনুসন্ধান ফলাফল পৃষ্ঠার শীর্ষে অনুরোধ করে।
Perplexity AI সেই কৌশলটিকে আরও এক ধাপ এগিয়ে নিয়ে যায়। এটির "উত্তর ইঞ্জিন" ব্যবহারকারীর অনুরোধ করা তথ্যের জন্য ইন্টারনেটকে স্কোর করে, তারপর সেই ডেটাকে একটি সুসংগত, কথোপকথনমূলক (এবং উদ্ধৃত) প্রতিক্রিয়াতে সংশ্লেষিত করে, কার্যকরভাবে লিঙ্কগুলির একটি তালিকার মাধ্যমে ক্লিক করার প্রয়োজনীয়তা দূর করে৷ ওপেনএআই, সর্বদা উদ্ভাবক, তার চ্যাটবটের জন্য একটি প্রায় অভিন্ন সিস্টেম তৈরি করেছে, যার নাম ChatGPT অনুসন্ধান , যা এটি অক্টোবরে আত্মপ্রকাশ করেছিল।
অ্যানথ্রপিকের আর্টিফ্যাক্ট একটি সহযোগী বিপ্লব শুরু করে

বড় ফাইলগুলি তৈরি, বিশ্লেষণ এবং সম্পাদনা করার চেষ্টা করা — সেগুলি দীর্ঘ-ফর্মের সৃজনশীল প্রবন্ধ বা কম্পিউটার কোড স্নিপেট হোক — সরাসরি চ্যাট স্ট্রীমের মধ্যে অপ্রতিরোধ্য হতে পারে, যাতে নথিটির সম্পূর্ণতা দেখতে আপনাকে অবিরামভাবে পিছনে পিছনে স্ক্রোল করতে হবে৷
অ্যানথ্রপিকের আর্টিফ্যাক্ট বৈশিষ্ট্য, যা জুনে আত্মপ্রকাশ করেছিল, ব্যবহারকারীদের একটি পৃথক পূর্বরূপ উইন্ডো প্রদান করে সেই সমস্যাটি প্রশমিত করতে সহায়তা করে যাতে মূল কথোপকথনের বাইরে এআই-নির্মিত পাঠ্য দেখতে পাওয়া যায়। বৈশিষ্ট্যটি এমন একটি হিট প্রমাণিত হয়েছে যে OpenAI দ্রুত তার নিজস্ব সংস্করণের সাথে স্যুট অনুসরণ করেছে ।
এর সর্বশেষ মডেল এবং বৈশিষ্ট্যগুলি এই বছর ওপেনএআই এবং গুগলের একটি শক্তিশালী প্রতিপক্ষ হিসাবে অ্যানথ্রোপিককে উন্নত করেছে, যা একাই তাৎপর্যপূর্ণ মনে করে।
ইমেজ এবং ভিডিও জেনারেটর অবশেষে আঙ্গুলগুলি বের করে
উদ্দেশ্য সহ প্রতিটি শট পরিচালনা করতে ক্যামেরা নিয়ন্ত্রণ ব্যবহার করুন।
আজকের রানওয়ে একাডেমিতে কীভাবে তা জানুন। pic.twitter.com/vCGMkkhKds
— রানওয়ে (@runwayml) নভেম্বর 2, 2024
একটি এআই জেনারেটেড ইমেজ বা ভিডিও দেখা যেত যতটা সহজ বিষয় দেখায় উপাঙ্গের সংখ্যা গণনা করার মতো – দুটি বাহু, দুটি পা এবং 10টি আঙুলের চেয়ে বেশি কিছু স্পষ্টতই তৈরি হয়েছিল, যেমন স্টেবল ডিফিউশন 3-এর ক্রোনেনবার্গ-এস্ক ইমেজ দেখানো হয়েছে জুন। তবুও, 2024 এর কাছাকাছি আসার সাথে সাথে, মানুষ এবং মেশিন দ্বারা তৈরি সামগ্রীর মধ্যে পার্থক্য করা উল্লেখযোগ্যভাবে আরও কঠিন হয়ে উঠেছে কারণ চিত্র এবং ভিডিও জেনারেটরগুলি তাদের আউটপুটগুলির গুণমান এবং শারীরবৃত্তীয় নির্ভুলতা উভয়ই দ্রুত উন্নত করেছে৷
ক্লিং , জেন 3 আলফা এবং মুভি জেন-এর মতো এআই ভিডিও সিস্টেমগুলি এখন ন্যূনতম বিকৃতি এবং সূক্ষ্ম-শস্য ক্যামেরা নিয়ন্ত্রণ সহ ফটোরিয়ালিস্টিক ক্লিপ তৈরি করতে সক্ষম, যখন মিডজার্নি , ডাল-ই 3 এবং ইমেজেন 3 এর মতো স্থির চিত্রগুলি তৈরি করতে পারে অগণিত শৈল্পিক শৈলীতে বাস্তববাদের চমকপ্রদ ডিগ্রি (এবং ন্যূনতম হ্যালুসিনেড আর্টিফ্যাক্ট)।
ওহ হ্যাঁ, এবং OpenAI এর Sora অবশেষে তার ডিসেম্বরের ঘোষণার অংশ হিসেবে আত্মপ্রকাশ করেছে। এআই-জেনারেটেড ভিডিও মডেলগুলির জন্য যুদ্ধ উত্তপ্ত হচ্ছে এবং তারা 2024 সালে চমকপ্রদভাবে চিত্তাকর্ষক হয়ে উঠেছে।
বিশ্বের বৃহত্তম এআই প্রশিক্ষণ ক্লাস্টার তৈরির জন্য এলন মাস্কের $10 বিলিয়ন প্রচেষ্টা

xAI এই বছর Grok 2.0 লঞ্চ করেছে, একেবারে X-তে তৈরি সর্বশেষ মডেল। কিন্তু এলন মাস্কের AI উদ্যোগের চারপাশে বড় খবর হল এটি ভবিষ্যতে কোথায় যাবে। 2024 সালে, ইলন মাস্ক মেমফিস, টেনেসির ঠিক বাইরে " বিশ্বের বৃহত্তম সুপার কম্পিউটার " নির্মাণের কাজ শুরু করেছিলেন, যা 22 জুলাই ভোর 4:20 এ অনলাইনে এসেছিল। 100,000 Nvidia H100 GPU দ্বারা চালিত, সুপারক্লাস্টারকে xAI-এর নতুন সংস্করণ প্রশিক্ষণের দায়িত্ব দেওয়া হয়েছে। গ্রোক জেনারেটিভ এআই মডেল , যা মাস্কের দাবি "বিশ্বের সবচেয়ে শক্তিশালী AI।"
মাস্ক শুধুমাত্র 2024 সালে প্রায় 10 বিলিয়ন ডলার মূলধন এবং অনুমান খরচে ব্যয় করবে বলে আশা করা হচ্ছে তবে নতুন বছরে সুপার কম্পিউটারকে শক্তি প্রদানকারী জিপিইউ-এর সংখ্যা দ্বিগুণ করার জন্য কাজ করছে বলে জানা গেছে।