
অ্যানথ্রোপিকের সদ্য উন্মোচিত ওপাস ৪.৭ ছাড়াও, এই সপ্তাহে বড় মডেল প্রকাশের ক্ষেত্রে বিশ্ব মডেলগুলো আরেকটি যুদ্ধক্ষেত্রে পরিণত হয়েছে।
মাত্র কয়েক দিনের মধ্যেই এআই কমিউনিটি দ্রুত একের পর এক যুগান্তকারী বিশ্ব মডেল প্রকাশ করেছে।
প্রথমে ফেই-ফেই লি-র ওয়ার্ল্ড ল্যাবস স্পার্ক ২.০-কে ওপেন-সোর্স করে, এবং তারপর গতকাল টেনসেন্ট আনুষ্ঠানিকভাবে এইচওয়াই-ওয়ার্ল্ড ২.০ প্রকাশ ও ওপেন-সোর্স করেছে।

▲টেনসেন্ট হুনুয়ান ৩ডি ওয়ার্ল্ড মডেল ২.০ অভিজ্ঞতার ঠিকানা: https://3d.hunyuan.tencent.com/sceneTo3D
আলিবাবাও অক্লান্তভাবে কাজ করে যাচ্ছে। নবপ্রতিষ্ঠিত ATH ইনোভেশন বিজনেস ইউনিট টিম এইমাত্র আনুষ্ঠানিকভাবে হ্যাপিহর্স-এর ঘোষণা দিয়েছে এবং এর পরপরই হ্যাপিঅয়েস্টার নামে একটি বিশ্ব মডেল বাজারে এনেছে।

▲আলিবাবার হ্যাপিঅয়েস্টার অফিসিয়াল ওয়েবসাইটের স্ক্রিনশট: https://www.happyoyster.cn/
সবচেয়ে সহজে উপেক্ষিত হয় এনভিডিয়া লাইরা ২.০। এ নিয়ে কোনো সংবাদ সম্মেলন বা প্রকাশনা হয়নি, কিন্তু এর স্পেস ইন্টেলিজেন্স ল্যাব সরাসরি "এক্সপ্লোরেবল জেনারেটিভ ৩ডি ওয়ার্ল্ডস" শিরোনামে একটি গবেষণাপত্র প্রকাশ করেছে।

▲এনভিডিয়া রিসার্চ ব্লগ: https://research.nvidia.com/labs/sil/projects/lyra2/
এই ঘনত্বের স্তরটি এমন একটি বিভ্রম তৈরি করে যে, সেই কাঁচা চিত্র এবং ভিডিও মডেলগুলো একেবারেই অপর্যাপ্ত। আধুনিক এআই 'একটি চিত্র বা ভিডিও তৈরি করার' দ্বিমাত্রিক পর্যায় থেকে 'একটি জগৎ নির্মাণের' ত্রিমাত্রিক স্থানিক যুগে উল্লম্ফন করেছে।
শুধু প্রযুক্তি খাতেরই যে ব্যাপক উন্নতি হচ্ছে তা নয়, পুঁজিবাজারও জোরালো সাড়া দিয়েছে।
আজ গ্রুপকোর টেকনোলজি হংকং স্টক এক্সচেঞ্জে আনুষ্ঠানিকভাবে তালিকাভুক্ত হয়েছে। এই স্পেশিয়াল ইন্টেলিজেন্স কোম্পানিটি বাস্তব জগতে কৃত্রিম বুদ্ধিমত্তা (AI) নিয়ে আসার জন্য নিবেদিত। এর সফল তালিকাভুক্তি "ওয়ার্ল্ড মডেল ইন্ডাস্ট্রির প্রথম স্টক"-এর আনুষ্ঠানিক জন্মকে চিহ্নিত করে এবং বহির্বিশ্বকে একটি স্পষ্ট সংকেত পাঠায়: ওয়ার্ল্ড মডেলগুলো সত্যিই জনপ্রিয় হতে শুরু করেছে।
এই উত্তেজনার মাঝে আমরা এটাও আবিষ্কার করলাম যে, যদিও এই কোম্পানিগুলো সবাই নিজেদেরকে বিশ্ব মডেল বলে দাবি করে, তাদের কর্মপন্থা সম্পূর্ণ ভিন্ন। যেটি শুধু ভিডিও তৈরি করতে পারে, সেটিকে একটি ডেমো প্রোডাক্ট বলে মনে হয়; আরেকটি যেটি থ্রিডি অ্যাসেট তৈরি করতে পারে, সেটিকে ডেভেলপমেন্ট এবং ডিজাইন ওয়ার্কফ্লোতে অন্তর্ভুক্ত করা যেতে পারে বলে মনে হয়; এবং আরও একটি, যেটি একটি গবেষণা পত্রে ভবিষ্যতের কাজের পরিকল্পনা করছে এবং রোবট প্রশিক্ষণের জন্য এটি ব্যবহারের আশা করছে।
বর্তমানে, টেনসেন্টের হুনুয়ান ৩ডি ওয়ার্ল্ড মডেল ২.০-এর জন্য আবেদন গ্রহণ শুরু হয়েছে। আমরা একটি উত্তর খোঁজার আশায় সাথে সাথেই এটি পরীক্ষা করে দেখেছি: কৃত্রিম বুদ্ধিমত্তার পরবর্তী পর্যায় হিসেবে বিবেচিত এই বিশ্ব মডেলগুলো আসলে বাস্তব জগতের কোন সমস্যাগুলো সমাধান করতে পারে?
সিনেমা দেখা থেকে শুরু করে খেলা শুরু করা পর্যন্ত
আগে, যখন আমরা ওয়ার্ল্ড মডেল নিয়ে আলোচনা করতাম, তখন ব্যাপারটা অনেকটা এমন ছিল যেন এটি "একটি দীর্ঘ ভিডিও যা ভৌত নিয়মগুলো আরও ভালোভাবে বোঝে এবং অধিকতর সামঞ্জস্য বজায় রাখে।" কিন্তু এবার হুনুয়ান ২.০ ব্যবহারের সবচেয়ে সরাসরি প্রভাব হলো, এটি আর MP4 ফাইল তৈরি করে না, বরং সত্যিকারের ৩ডি অ্যাসেট ফাইল তৈরি করে।
অভিজ্ঞতা চলাকালীন, আমি "ঘিবলি-শৈলীর পাহাড়ি শহর, গোধূলি" এই সহজ নির্দেশটি প্রবেশ করালাম। কয়েক মিনিটের গণনার পর, পর্দায় যে দৃশ্যটি ভেসে উঠল তা একটি বিশাল গেম জগতের মতো লাগছিল।

ডাউনলোড করতে ক্লিক করুন। হুনুয়ান 3D চারটি 3D অ্যাসেট ফাইল ফরম্যাট প্রদান করে: প্যানোরামিক ইমেজ, স্প্ল্যাটসের জন্য .spz এবং .ply ফাইল, এবং কোলাইডার মেশ।
এই চার ধরনের ফাইলের মধ্যে বিভিন্ন ৩ডি অ্যাসেট ফাইল অন্তর্ভুক্ত, যেমন মেশ (ত্রিভুজাকার মেশ), ৩ডিজিএস (৩ডি গাউসিয়ান স্প্ল্যাশ), এবং পয়েন্ট ক্লাউড। এই ফাইলগুলো সরাসরি ইউনিটি এবং আনরিয়েল ইঞ্জিনে ইম্পোর্ট করা যায় এবং এরপর গেম ডেভেলপাররা এগুলো সম্পাদনা, সমন্বয় এবং লেভেল তৈরি করতে পারেন।

▲তৈরি হওয়া জগৎটিকে একটি প্যানোরামিক ছবি হিসেবেও সংরক্ষণ করা যায়, যার মূল ছবিটির আকার প্রায় ২০ মেগাবাইট।
ওয়ার্ল্ড জেনারেশনের ক্ষেত্রে, প্রচলিত টেক্সট-ভিত্তিক ওয়ার্ল্ডের পাশাপাশি হুনুয়ান ৩ডি ইমেজ-ভিত্তিক ওয়ার্ল্ডও সাপোর্ট করে। আমরা "দ্য রেসকিউ প্ল্যান" সিনেমা থেকে একটি স্ক্রিনশট পেয়েছি, যেখানে রকি অবশেষে এরিডানাস জনগোষ্ঠীর তৈরি করা জগতে হাঁটে এবং হুনুয়ান পুরো এরিডানাস নক্ষত্রপুঞ্জটিকে পুনরায় তৈরি করে।

▲যেহেতু সিনেমার স্ক্রিনশটগুলোতে রকির বাসস্থানের সৈকতটিকে ঘিরে একটি বাইরের আবরণ দেখা যায়, তাই হাইব্রিডটির দ্বারা সৃষ্ট জগতে একটি 'ছায়া'ও রয়েছে।
আনস্প্ল্যাশ থেকে ডাউনলোড করা উচ্চ-রেজোলিউশনের তুষার পর্বতের ছবি ব্যবহার করলে, হুনুয়ান ৩ডি ওয়ার্ল্ড মডেল ২.০ দ্বারা তৈরি তুষার দৃশ্যগুলিতে ছবির গুণমান এবং বাস্তবতা আরও জোরালো হয়।


▲ ডিরেক্টর মোডে প্যানোরামিক ভিউ এবং চরিত্রের বিচরণ
ছবি আপলোড করা হোক বা টেক্সট প্রম্পট দেওয়া হোক, অ্যাপটি প্রাসঙ্গিক নির্দেশিকা প্রদান করে। উদাহরণস্বরূপ, আপলোড করা ছবির রেজোলিউশন অবশ্যই 512*512-এর কম হবে না, ছবিতে মানুষ দেখানো যাবে না, পশু/মানুষের ক্লোজ-আপ ছবি পরিহার করতে হবে এবং একরঙা বা একরঙা টেক্সচারের ছবি ব্যবহার করা যাবে না; যে ছবিগুলোর একটি বড় অংশ জুড়ে আকাশ বা তারাময় আকাশ থাকে, সেগুলোও অনুপযুক্ত।
আদর্শগতভাবে টেক্সট প্রম্পটগুলোতে একটি দৃশ্যের বিভাগ (মরুভূমি, সমুদ্র, ঘর, ইত্যাদি) + দৃশ্যের বৈশিষ্ট্য (বস্তু, আকাশ ইত্যাদির চাক্ষুষ বর্ণনা) + শৈলী (ঐচ্ছিক, কার্টুন/বাস্তবসম্মত/তেলরঙের শৈলী, ইত্যাদি) থাকা উচিত।
হুনুয়ান ৩ডি ওয়ার্ল্ড মডেল ২.০-এর স্টাইলাইজেশন নিয়ন্ত্রণও খুব ভালো। অফিসিয়াল ওয়েবসাইটে থাকা ওয়ার্ল্ডের উদাহরণগুলো থেকে যেমনটা দেখা যায়, তা উষ্ণ ছবির বইয়ের মতো শৈলী হোক বা বাস্তবসম্মত গেমের শৈলী, এর ভাবার্থগত উপস্থাপনা খুবই নির্ভুল; দেয়ালের টেক্সচার, অন্ধকূপের ছায়া ও আলো সবই অত্যন্ত বাস্তবসম্মত।

ব্যবহারযোগ্য ৩ডি অ্যাসেট তৈরি করার পাশাপাশি, যা হুনুয়ান ২.০-কে সত্যিকারের একটি 'জগৎ' করে তুলেছিল তা হলো এর ক্যারেক্টার মোড।
এখন আমরা একটি বড় মাপের গেম খেলার মতোই, নতুন তৈরি হওয়া দৃশ্যে একটি চরিত্রকে সরাসরি নিয়ন্ত্রণ করে হাঁটাতে, গতি বাড়াতে, লাফাতে, ঘুরতে এবং চারপাশ অন্বেষণ করতে পারব। এতে বিল্ট-ইন ফিজিক্স-ভিত্তিক সংঘর্ষ শনাক্তকরণ ব্যবস্থাও রয়েছে, ফলে চরিত্রটি দেয়াল ভেদ করে যাবে না বা ম্যাপের কিনারা থেকে নিচে পড়ে যাবে না।
এই তাৎক্ষণিকভাবে তৈরি ও খেলার যোগ্য অভিজ্ঞতাটি কৃত্রিম বুদ্ধিমত্তা (AI) তৈরি এবং গেম ইঞ্জিনের মধ্যকার সীমারেখাকে সত্যিই অস্পষ্ট করে দেয়। যেহেতু তৈরি করা যায় এমন জগতের পরিধি ক্রমাগত প্রসারিত হচ্ছে, চরিত্রের অন্বেষণ আরও বেশি আকর্ষণীয় হয়ে উঠতে পারে।
রিয়েল-টাইম ওয়ার্ল্ড জেনারেশনে, আমরা সরাসরি চরিত্রের কার্যকলাপ নিয়ন্ত্রণ করতে পারি। হুনুয়ান ৩ডি মডেলটি স্বয়ংক্রিয়ভাবে সংশ্লিষ্ট জগৎটি তৈরি করবে, এবং প্রতিটি জেনারেশনে এক মিনিট সময় লাগবে।

পূর্ববর্তী হুনুয়ান ৩ডি মডেলের তুলনায়, এই ২.০ সংস্করণটি কেবল ৩ডি অ্যাসেট ফাইল ডাউনলোড সমর্থন করে এবং "এক বাক্য/এক চিত্রে বিশ্ব সৃষ্টি" কাজের জন্য একটি সম্পূর্ণ নতুন ক্যারেক্টার মোড চালু করেছে তাই নয়, বরং ছবির বিস্তারিত বিবরণ এবং বাস্তবতার দিক থেকে এর অন্তর্নিহিত মডেল স্থাপত্যকেও নতুনভাবে ডিজাইন করেছে।
▲হুনুয়ান ওয়ার্ল্ড মডেল ২.০ মাল্টিমোডাল ওয়ার্ল্ড আর্কিটেকচার|https://3d-models.hunyuan.tencent.com/world/
নতুন মডেল স্থাপত্যটি 'বোঝা, তৈরি করা এবং পুনর্গঠন'-এর একটি বদ্ধ চক্র প্রতিষ্ঠা করে।
- HY-Pano-2.0: কোনো পেশাদার ক্যামেরা সেটিংসের প্রয়োজন নেই; সাধারণ ছবি ম্যাপ করে ৩৬০° প্যানোরামা তৈরি করা যায়।
- স্পেশাল এজেন্ট টেকনোলজি: এআই-কে নেভিগেশন সরঞ্জাম দেওয়ার মতোই, এটি যত্ন ও দৃষ্টিশক্তির নির্বিঘ্ন সমন্বয় নিশ্চিত করতে বুদ্ধিমত্তার সাথে পরিভ্রমণের গতিপথ পরিকল্পনা করতে পারে।
- HY-WorldMirror 2.0: দেখার কোণের উল্লেখযোগ্য পরিবর্তনেও কোনো বস্তুর পাশ এবং পেছনের অংশের অখণ্ডতা অক্ষুণ্ণ থাকে তা নিশ্চিত করে।
বিশ্ব পুনর্গঠনের কাজে, হুনুয়ান ওয়ার্ল্ড মডেল ২.০ একাধিক ছবি বা ভিডিও স্ট্রিম ইনপুট করে বাস্তবসম্মত দৃশ্য পুনর্নির্মাণ করতে পারে।

অতীতে, একটি ইন্টারেক্টিভ থ্রিডি জগৎ তৈরি বা পুনর্নির্মাণ করতে একটি সুসংগঠিত দল এবং মাসব্যাপী পরিমার্জনের প্রয়োজন হতো; এখন, হুনুয়ান ২.০-এর মতো টুলের সাহায্যে শুধু একটি ধারণাই যথেষ্ট।
তাছাড়া, এই ধারণাটি, তা টেক্সট, ছবি বা ভিডিও যে আকারেই উপস্থাপন করা হোক না কেন, একটি প্রোটোটাইপ তৈরি করতে পারে যা ইউনিটিতে ড্র্যাগ করে আনা যায়। যদিও এর কোয়ালিটি এখনও ঠিক করার প্রয়োজন হয় এবং অনেক খুঁটিনাটি বিষয় হাতে করে বদলাতে হয়, তবুও পুরো ডিজাইন ওয়ার্কফ্লোতে এআই একটি ভূমিকা পালন করতে শুরু করেছে।
ক্রেজি ওয়ার্ল্ড মডেল উইক, ক্রেজি এআই
যখন আমরা হুনুয়ান ৩ডি ওয়ার্ল্ড মডেল ২.০-এর অ্যাসেট জেনারেশন, ক্যারেক্টার মডেল এবং ওয়ার্ল্ড রিকনস্ট্রাকশন থেকে আমাদের মনোযোগ সরিয়ে এই সপ্তাহে প্রকাশিত অন্যান্য ওয়ার্ল্ড মডেলগুলোর দিকে তাকাব, তখন আমরা দেখতে পাব যে এই ভিন্ন ভিন্ন ওয়ার্ল্ড মডেলগুলো, বিভিন্ন মাত্রায় যুগান্তকারী অগ্রগতির মাধ্যমে, সম্মিলিতভাবে একটি আরও সুস্পষ্ট ওয়ার্ল্ড মডেল তৈরি করছে।
হ্যাপিঅয়েস্টার বর্তমানে রোমিং এবং ডিরেক্টর মোডের উপর মনোযোগ দিচ্ছে, যা আমাদেরকে স্বাভাবিক ভাষা ব্যবহার করে যেকোনো সময় বিশ্বের বিবর্তনে হস্তক্ষেপ করার এবং কাহিনি ও চরিত্রের কার্যকলাপ পুনর্লিখন করার সুযোগ দেয়।
এনভিডিয়া লাইরা ২.০ একটিমাত্র ছবি থেকে ৯০ মিটার পর্যন্ত দীর্ঘ একটি অবিচ্ছিন্ন ত্রিমাত্রিক পরিবেশ তৈরি করতে পারে। এর তৈরি করা দৃশ্যগুলো রোবটের পদার্থবিদ্যা প্রশিক্ষণের জন্য সরাসরি আইজ্যাক সিম-এ ইনপুট হিসেবেও দেওয়া যায়।
ফেই-ফেই লি-র স্পার্ক ২.০ ডেলিভারির "শেষ ধাপ"টি পূরণ করে। পূর্ববর্তী মডেলগুলো যেখানে একটি জগৎ কীভাবে তৈরি করা যায় তার উপর মনোযোগ দিয়েছিল, সেখানে স্পার্ক ২.০ এখন ব্যবহারকারীদের কাছে তা কীভাবে উপস্থাপন করা যায়, সেই বিষয়টি নিয়ে কাজ শুরু করেছে। এর অনন্য স্ট্রিমিং লোডিং এবং ভার্চুয়াল মেমোরি প্রযুক্তির মাধ্যমে, এটি একটি সাধারণ মোবাইল ফোনের ওয়েব ব্রাউজারে শত শত মিলিয়ন ৩ডিজিএস কণার এক বিশাল জগৎকে সংকুচিত করতে সক্ষম হয়েছে।

▲ওয়ার্ল্ড ল্যাব ইন্টারফেস, প্রম্পট: জিবলি-শৈলীর পাহাড়ি শহর, গোধূলি
বিশ্বের এই মডেল ইন্টারফেসগুলো, যেগুলোর প্রত্যেকটিই নিজস্ব স্বতন্ত্র ক্ষমতা প্রদর্শন করে, সেগুলোর দিকে তাকালে একটি বাস্তবসম্মত উপসংহার হলো: এটা স্পষ্ট যে, বিশ্ব মডেল এখনো তার ChatGPT মুহূর্তটি নিয়ে আসেনি।
এই সপ্তাহে এই চারটি কোম্পানির একের পর এক প্রকাশনা দেখে মনে হচ্ছে, তা এই মুহূর্তটির জন্যই প্রস্তুতি। এর প্রতিটি দিক—ছবির মান, ইন্টারঅ্যাকটিভিটি, অ্যাসেট ফরম্যাট, ডেলিভারি পদ্ধতি এবং সিমুলেশনের নির্ভুলতা—নিজ নিজ ধারায় অপ্টিমাইজ করা হচ্ছে। তবে, এখন পর্যন্ত কোনো মডেলই এই উপাদানগুলোকে একত্রিত করে এমন একটি পণ্য তৈরি করতে পারেনি, যা "সাধারণ মানুষ প্রতিদিন খুলতে চাইবে।"
গত দুই বছরে, এআই কোডিং কোড ডেভেলপমেন্টকে নতুন রূপ দেওয়ায় এবং ন্যানো ব্যানানার মতো মডেল গ্রাফিক ডিজাইনে বৈপ্লবিক পরিবর্তন আনায়, ফ্রন্ট-এন্ড ইঞ্জিনিয়ার ও গ্রাফিক ডিজাইনাররা ইতিমধ্যেই ‘অমুকের দিন শেষ’—এই পরিস্থিতির সম্মুখীন হয়েছেন। এখন, এই তুষারকণাটি সম্ভবত থ্রিডি ডিজাইনের পরিখার উপর এসে পড়বে।
বাজারে আরও মডেল নির্মাতা আসার সাথে সাথে, 3D ডিজাইনের কর্মপ্রক্রিয়া ধীরে ধীরে এআই-সহায়তা থেকে এআই-চালিত হয়ে উঠবে। সেই সময়ে, একটি 3D ইন্টারেক্টিভ জগৎ তৈরি করা এবং তার অভিজ্ঞতা লাভ করা ঠিক ততটাই মসৃণ, স্বল্প-ব্যয়ী এবং স্বাভাবিক হবে, যতটা আজ আমাদের ফোনে ছোট ভিডিও স্ক্রল করা।
সর্বোপরি, সব কল্পবিজ্ঞান কাহিনিতেই কেউই 'স্রষ্টা' হতে এবং একটি নতুন জগৎকে সংজ্ঞায়িত করতে প্রতিরোধ করবে না।
iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট iFanr (WeChat ID: ifanr) ফলো করুন, যেখানে যত তাড়াতাড়ি সম্ভব আপনার জন্য আরও আকর্ষণীয় কন্টেন্ট উপস্থাপন করা হবে।



