
একের পর এক AI গুঞ্জন উঠে আসার সাথে সাথে, সবাই উত্তেজনা দেখার জন্য এতটাই ব্যস্ত যে আসল খেলা পরিবর্তনকারীদের সহজেই মিস করা যায়।
আজ সকালে, গুগল ডিপমাইন্ড তাদের দীর্ঘ প্রতীক্ষিত নতুন প্রকল্প: প্রজেক্ট জিনি চালু করেছে। এটি কেবল একটি মজাদার এআই টুল নয়, বরং কৃত্রিম সাধারণ বুদ্ধিমত্তা (এজিআই) এর দিকে গুগলের জন্য একটি গুরুত্বপূর্ণ পদক্ষেপ।
"বিশ্ব মডেল" পরীক্ষার একটি প্রকৃত নমুনা।

প্রজেক্ট জিনি বর্তমানে মার্কিন যুক্তরাষ্ট্রে ১৮ বছর বা তার বেশি বয়সী গুগল এআই আল্ট্রা গ্রাহকদের জন্য উপলব্ধ।
প্রথমে আমাদের একটি ধারণা বুঝতে হবে: প্রজেক্ট জিনি মূলত একটি রিয়েল-টাইম রেন্ডার করা ইন্টারেক্টিভ পরিবেশ তৈরি করে। এর প্রযুক্তিগত ভিত্তি তিনটি অংশ নিয়ে গঠিত: ন্যানো ব্যানানা প্রো, যা চিত্র নিয়ন্ত্রণের জন্য দায়ী; জেমিনি মডেল, যা ভাষা নির্দেশ বোঝার জন্য দায়ী; এবং জেনি 3, যা শারীরিক প্রতিক্রিয়ার জন্য দায়ী।
আমরা প্রথম দুটির সাথে বেশ পরিচিত, তাই বিস্তারিত বলার দরকার নেই। কিন্তু জিনি ৩ কে আমরা কীভাবে বুঝব?
সহজ কথায়, এর প্রক্রিয়াটি মানুষের স্বপ্ন দেখার নীতির সাথে খুব মিল।
যখন আমরা স্বপ্ন দেখি, তখন আমাদের মস্তিষ্ক একটি ভার্চুয়াল জগৎ তৈরি করে যার মধ্যে রয়েছে দৃশ্য, শ্রবণ এবং স্পর্শকাতর সংবেদন। যদিও স্বপ্নের যুক্তি কখনও কখনও বিচ্ছিন্ন হতে পারে, তবুও নিমজ্জন খুবই শক্তিশালী। জিনি মূলত কম্পিউটারকে "স্বপ্ন দেখতে" শেখায় এবং ব্যবহারকারীদের এই স্বপ্নের জগতে প্রবেশ করতে এবং তার সাথে যোগাযোগ করতে দেয়।
তদুপরি, ChatGPT-এর মতো মডেলগুলির বিপরীতে, যা পাঠ্য পরিসংখ্যানগত নিদর্শনগুলির উপর ভিত্তি করে তৈরি, Genie 3 মূলত একটি "ভৌত বিশ্ব মডেল"। যদিও এটি পদার্থবিদ্যার সূত্রগুলি শেখেনি, তবুও এটি লক্ষ লক্ষ বস্তুর চলমান ভিডিও দেখে মাধ্যাকর্ষণ এবং জড়তার মতো ভৌত নিয়মগুলি "শিখেছে"।
প্রজেক্ট জিনির অভিজ্ঞতা অর্জন করাও খুব সহজ।

গুগলের এআই প্রোডাক্ট অ্যাম্বাসেডর জশ উডওয়ার্ড পুরো প্রক্রিয়াটি দেখিয়েছেন: তিনি প্রথমে তার ছবিটিকে একটি রেট্রো গেম-স্টাইলের চরিত্রে রূপান্তরিত করেছেন, তারপর এটি জিনিতে আপলোড করেছেন, "মরুভূমির দৃশ্য" এবং একটি চরিত্রের বর্ণনা দিয়ে।
"জেনারেট" ক্লিক করার পর, সে একজন কাউবয় হিসেবে অবাধে মরুভূমি অন্বেষণ করতে পারবে।

আরও সুনির্দিষ্ট নিয়ন্ত্রণ প্রদানের জন্য, ব্যবহারকারীরা পরিবেশের পূর্বরূপ দেখতে পারেন এবং প্রবেশের আগে দৃষ্টিকোণ সামঞ্জস্য করতে পারেন। "স্টার্ট" ক্লিক করার পরে, WASD তীর কীগুলি টিপলে সিস্টেমটি রিয়েল টাইমে সামনের পথ এবং দৃশ্যের পূর্বাভাস এবং জেনারেট করতে সক্ষম হবে।

পুরো প্রক্রিয়াটি একটা খেলা খেলার মতো, তবে আপনি কেবল দর্শক নন, এই পৃথিবীর পরিচালকও।
তবে, একটি পরীক্ষামূলক মডেল হিসেবে এখনও উন্নয়নাধীন, প্রজেক্ট জিনিরও স্পষ্ট ত্রুটি রয়েছে, যেমন একবারে মাত্র ৬০ সেকেন্ডের জন্য খেলতে পারা। একটি সাক্ষাৎকারের পডকাস্টে, গুগল ডেভেলপমেন্ট টিম ব্যাখ্যা করেছে যে খুব বেশি সময় ধরে খেলার ফলে ভিজ্যুয়াল লজিক ভেঙে যাবে, হ্যালুসিনেশন তৈরি হবে এবং রিয়েল-টাইম জেনারেশন অত্যন্ত গণনামূলকভাবে ব্যয়বহুল হবে।

▲
https://www.youtube.com/watch?v=Ow0W3WlJxRY&t=1s
অতএব, অভিজ্ঞতা এবং খরচের ভারসাম্য বজায় রাখার জন্য, বর্তমানে একটি একক অনুসন্ধান ১ মিনিটের মধ্যে সীমাবদ্ধ।
অবশ্যই, যদি আপনি মরুভূমিতে ক্লান্ত হয়ে পড়েন, তাহলে আপনি যেকোনো সময় কমান্ড পরিবর্তন করে দৃশ্যটিকে তাৎক্ষণিকভাবে একটি সাইবারপাঙ্ক শহরে রূপান্তরিত করতে পারেন, যখন চরিত্রের অ্যাকশন লজিক এখনও সংরক্ষিত থাকবে। ইলন মাস্ক সম্প্রতি সোশ্যাল মিডিয়ায় দাবি করেছেন যে AI সম্ভাব্যভাবে সাধারণ মানুষকে কয়েক মিনিটের মধ্যে একটি GTA 6 গেম তৈরি করতে সাহায্য করতে পারে।
বিনিয়োগ সংস্থা ভেঞ্চারটুইনসও বিশ্বাস করে যে ২০২৬ সাল বিশ্ব মডেলগুলির জন্য বিস্ফোরক প্রবৃদ্ধির বছর হবে। প্রজেক্ট জিনির "রিয়েল-টাইম ভিডিও জেনারেশন" প্রযুক্তি ভবিষ্যতে ঐতিহ্যবাহী কোড-ভিত্তিক গেম ইঞ্জিনগুলিকে প্রতিদ্বন্দ্বিতা করতে পারে।
প্রজেক্ট জিনির সাথে, এই রায়গুলি আর এত দূরবর্তী বলে মনে হয় না।

▲ ছবি @AngryTomtweets থেকে নেওয়া।
https://x.com/AngryTomtweets/status/2016986111927865430
হেলিকপ্টার চালানোর সময়, নীচের বাম কোণে থাকা মানচিত্রটি রিয়েল টাইমে আপডেট হবে।

▲ ছবি @fofrAI থেকে নেওয়া।
https://x.com/fofrAI/status/2016936855607136506
@yrzhe_top ব্যবহারকারী গেমটি চেষ্টা করার পর জানিয়েছেন যে যখন তিনি একটি ভিনগ্রহের গ্রহে গাড়ি চালিয়েছিলেন, তখন প্রচারমূলক ভিডিওগুলির মতো এটি মসৃণ ছিল না। কিছু ল্যাগ ছিল, এবং কাস্টম প্রম্পটগুলি কাজ করছিল না; তিনি কেবল অফিসিয়াল প্রিসেটগুলি ব্যবহার করতে পারতেন।

▲ ছবি @yrzhe_top থেকে নেওয়া।
গুগলের ডেভেলপমেন্ট টিমও স্বীকার করেছে যে জিনি ৩ বর্তমানে তার প্রাথমিক পর্যায়ে রয়েছে, এবং পদার্থবিদ্যার সিমুলেশন এখনও যথেষ্ট নির্ভুল নয়, ক্লিপিং এবং অদ্ভুত ট্র্যাজেক্টোরি প্রায়শই ঘটছে। যাইহোক, @yrzhe_top আরও জানিয়েছে যে যদিও এটি তার প্রতিশ্রুতির মাত্র ৭০% অর্জন করতে পারে, তবুও ৭০% ইতিমধ্যেই যথেষ্ট চিত্তাকর্ষক।

▲ ছবি @jen_w1n থেকে নেওয়া।
https://x.com/jen_w1n/status/2016929094517088416
অবশ্যই, যদি এটি কেবল মাইনক্রাফ্টের একটি উচ্চ-স্পেসিফিকেশন সংস্করণ তৈরির বিষয়ে হত, তাহলে স্পষ্টতই গুগলকে এত সংস্থান ব্যবহার করতে হত না। প্রজেক্ট জিনির আসল উচ্চাকাঙ্ক্ষা হল AI থেকে AGI-তে যাওয়ার পথে সবচেয়ে বড় বাধাগুলি সমাধান করা: ডেটা হ্রাস এবং মূর্ত বুদ্ধিমত্তার বাধা।
হ্যাঁ, ইন্টারনেটে উচ্চমানের টেক্সট ডেটা ফুরিয়ে আসছে, এবং রোবটরা বিশ্বকোষ পড়ে থালা-বাসন ধোয়া শিখতে পারে না; তাদের পেশী স্মৃতি এবং শারীরিক প্রতিক্রিয়া প্রয়োজন।
তবে, বাস্তবে রোবটের ব্যর্থতার তথ্য সংগ্রহ করা অত্যন্ত ব্যয়বহুল। অন্যদিকে, জিনি একটি অসীম সিন্থেটিক ডেটা জেনারেটর হিসেবে কাজ করতে পারে, কোটি কোটি বিভিন্ন রান্নাঘর, গুদাম বা ভিনগ্রহের পৃষ্ঠের অনুকরণ করে, রোবটদের তাদের মধ্যে "পেশী স্মৃতি" জমা করতে এবং তারপর বাস্তবে প্রয়োগ করতে দেয়।
একইভাবে, LingBot-VA, যা আজ Antminer ওপেন-সোর্স করেছে, ছবি তৈরির সময় অ্যাকশন সিকোয়েন্স অনুমান করতে পারে, যা রোবটদের মানুষের মতো "চিন্তা করতে এবং কাজ করতে" সাহায্য করে। ব্রেকফাস্ট তৈরি, স্ক্রু তোলা, প্যাকেজ খোলা, কাপড় ভাঁজ করা এবং প্যান্ট ভাঁজ করার ক্ষমতা উন্নত হয়েছে।
এছাড়াও, গুগল ডেভেলপমেন্ট টিম সাক্ষাৎকারে আরও মানব-কেন্দ্রিক অ্যাপ্লিকেশন পরিস্থিতির কল্পনা করেছিল, যেমন সাইকোথেরাপি এবং শিক্ষা।
বাবা-মায়েরা জিনি ব্যবহার করে "মাকড়সা ভর্তি ঘর" তৈরি করতে পারেন যাতে তাদের সন্তানরা সম্পূর্ণ নিরাপদ এবং নিয়ন্ত্রিত ভার্চুয়াল পরিবেশে সংবেদনশীলতা হ্রাস করতে পারে। অথবা, ইতিহাসের ক্লাসে, তারা শিক্ষার্থীদের সরাসরি অভিজ্ঞতা অর্জনের জন্য ১৮ শতকের প্যারিসের একটি রাস্তা তৈরি করতে পারেন।
যদিও প্রজেক্ট জিনিতে এখনও রুক্ষ গ্রাফিক্স, স্বল্প খেলার সময়, উচ্চ লেটেন্সি এবং মাল্টিপ্লেয়ার সংযোগের অভাবের মতো সমস্যা রয়েছে, তবুও এটি প্রকৃতপক্ষে ভৌত বাস্তবতা সিমুলেশনের দরজা খুলে দিয়েছে।
২০২৪ সালের "পৃথিবী বিলুপ্ত হয়ে যাবে" এই উক্তিটির দিকে ফিরে তাকালে, সম্ভবত সোরা এটিকে সত্যে পরিণত করেননি, বরং জিনি।
#iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট অনুসরণ করতে আপনাকে স্বাগতম: iFanr (WeChat ID: ifanr), যেখানে যত তাড়াতাড়ি সম্ভব আরও উত্তেজনাপূর্ণ কন্টেন্ট আপনার কাছে উপস্থাপন করা হবে।
