AI-তে OpenAI এর সর্বশেষ উদ্যোগ হতে পারে এটি এখন পর্যন্ত সবচেয়ে চিত্তাকর্ষক। "সোরা" ডাব করা এই নতুন টেক্সট-টু-ভিডিও এআই মডেলটি সীমিত সংখ্যক ব্যবহারকারীর জন্য তার দরজা খুলে দিয়েছে যারা এটি পরীক্ষা করতে পারবে। কোম্পানিটি সম্পূর্ণরূপে AI দ্বারা তৈরি বেশ কয়েকটি ভিডিও দেখিয়ে এটি চালু করেছে এবং শেষ ফলাফলগুলি চমকপ্রদভাবে বাস্তবসম্মত।
ওপেনএআই সোরাকে এই বলে পরিচয় করিয়ে দেয় যে এটি পাঠ্য প্রম্পটের উপর ভিত্তি করে বাস্তবসম্মত দৃশ্য তৈরি করতে পারে, এবং এর ওয়েবসাইটে শেয়ার করা ভিডিওগুলি এটি প্রমাণ করে। প্রম্পট বর্ণনামূলক, কিন্তু সংক্ষিপ্ত; আমি ব্যক্তিগতভাবে ChatGPT এর সাথে ইন্টারঅ্যাক্ট করার জন্য দীর্ঘ প্রম্পট ব্যবহার করেছি। উদাহরণস্বরূপ, উপরে চিত্রিত উলি ম্যামথের ভিডিও তৈরি করতে, সোরাকে একটি 67-শব্দের প্রম্পট প্রয়োজন যেটি প্রাণী, পারিপার্শ্বিকতা এবং ক্যামেরা স্থাপনের বর্ণনা দিয়েছে।
আমাদের টেক্সট-টু-ভিডিও মডেল সোরাকে উপস্থাপন করা হচ্ছে।
সোরা 60 সেকেন্ড পর্যন্ত ভিডিও তৈরি করতে পারে যাতে অত্যন্ত বিশদ দৃশ্য, জটিল ক্যামেরা মোশন এবং প্রাণবন্ত আবেগ সহ একাধিক অক্ষর রয়েছে। https://t.co/7j2JN27M3W
প্রম্পট: "সুন্দর, তুষারময়… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) 15 ফেব্রুয়ারি, 2024
"সোরা ভিজ্যুয়াল গুণমান বজায় রেখে এবং ব্যবহারকারীর প্রম্পট মেনে চলার সময় এক মিনিট পর্যন্ত ভিডিও তৈরি করতে পারে," OpenAI তার ঘোষণায় বলেছে৷ এআই অনেক অক্ষর, দৃশ্যাবলী এবং সঠিক গতিতে ভরা জটিল দৃশ্য তৈরি করতে পারে। সেই লক্ষ্যে, OpenAI বলে যে Sora ভবিষ্যদ্বাণী করে এবং প্রয়োজন অনুসারে লাইনের মধ্যে পড়ে।
ওপেনএআই বলেছে, "মডেলটি কেবল ব্যবহারকারীর প্রম্পটে যা চেয়েছে তা নয়, বরং সেই জিনিসগুলি কীভাবে ভৌত জগতে বিদ্যমান তাও বোঝে।" মডেলটি শুধু চরিত্র, পোশাক বা ব্যাকগ্রাউন্ডকে মোকাবেলা করে না, বরং "আবশ্যক চরিত্র যা প্রাণবন্ত আবেগ প্রকাশ করে" তৈরি করে।
সোরা একটি বিদ্যমান ভিডিওতে শূন্যস্থান পূরণ করতে পারে বা এটি দীর্ঘ করতে পারে, পাশাপাশি একটি চিত্রের উপর ভিত্তি করে একটি ভিডিও তৈরি করতে পারে, তাই এটি কেবল পাঠ্য প্রম্পট নয়।
যদিও ভিডিওগুলি স্ক্রিনশট করা স্টিল হিসাবে ভাল দেখায়, সেগুলি গতিতে সীমারেখা মন-ফুঁক করছে৷ ওপেনএআই গোল্ড রাশ চলাকালীন সাইবারপাঙ্ক-এসক টোকিওর রাস্তা এবং ক্যালিফোর্নিয়ার "ঐতিহাসিক ফুটেজ" সহ নতুন প্রযুক্তি দেখানোর জন্য বিস্তৃত ভিডিও পরিবেশন করেছে। মানুষের চোখের চরম ক্লোজ-আপ সহ আরও অনেক কিছু আছে। প্রম্পট কার্টুন থেকে বন্যপ্রাণী ফটোগ্রাফি যা কিছু কভার করে।
সোরা এখনও কিছু ভুল করেছে। ঘনিষ্ঠভাবে তাকালে দেখা যায় যে, উদাহরণস্বরূপ, ভিড়ের মধ্যে কিছু পরিসংখ্যানের মাথা নেই বা অদ্ভুতভাবে নড়াচড়া করে না। বিশ্রী গতি কিছু নমুনায় প্রথম নজরে দাঁড়িয়েছিল, কিন্তু সাধারণ অদ্ভুততা স্পট করতে একাধিক দর্শন নিয়েছিল।
ওপেনএআই সোরাকে সাধারণ জনগণের জন্য উন্মুক্ত করার কিছুক্ষণ আগে হতে পারে। এই মুহূর্তে, মডেলটি লাল টিমের দ্বারা পরীক্ষা করা হবে যারা সম্ভাব্য ঝুঁকিগুলি মূল্যায়ন করবে। কিছু নির্মাতারাও এখন এটি পরীক্ষা করা শুরু করবেন, যদিও এটি এখনও বিকাশের প্রাথমিক পর্যায়ে রয়েছে।
AI এখনও অসম্পূর্ণ, তাই আমি বেশ অগোছালো কিছু আশা করছিলাম। কম প্রত্যাশা হোক বা সোরার ক্ষমতা, আমি মুগ্ধ হয়ে চলে যাচ্ছি, কিন্তু হালকা চিন্তিতও। আমরা ইতিমধ্যেই এমন একটি বিশ্বে বাস করছি যেখানে আসল কিছু থেকে নকল বলা কঠিন, এবং এখন, এটি শুধু ছবিই নয় যা ঝুঁকির মধ্যে রয়েছে – ভিডিওগুলিও। যাইহোক, সোরা খুব কমই প্রথম টেক্সট-টু-ভিডিও মডেল যা আমরা দেখেছি, যেমন পিকা ।
অন্যরাও পতাকাটি উত্থাপন করছে, যেমন জনপ্রিয় টেক ইউটিউবার, মার্কেস ব্রাউনলি , যিনি টুইট করেছেন যে "যদি এটি আপনাকে কিছুটা উদ্বেগ না করে তবে সোরা ভিডিওগুলির প্রতিক্রিয়ায় কিছুই হবে না"৷
এই ভিডিওগুলির প্রত্যেকটিই এআই-উত্পাদিত, এবং যদি এটি আপনাকে অন্তত একটু উদ্বেগ না করে, তবে কিছুই হবে না
নতুন মডেল: https://t.co/zkDWU8Be9S
(মনে রাখবেন স্মিথ কি স্প্যাগেটি খাচ্ছেন? আমার অনেক প্রশ্ন আছে) pic.twitter.com/TQ44wvNlQw
— মার্কেস ব্রাউনলি (@MKBHD) 15 ফেব্রুয়ারি, 2024
ওপেনএআই-এর সোরা এখন এত ভালো হলে, কয়েক বছরের আরও বিকাশ এবং পরীক্ষার পরে এটি কী করতে সক্ষম হবে তা কল্পনা করা কঠিন। এটি এমন একটি প্রযুক্তি যা অনেক চাকরি স্থানচ্যুত করার সম্ভাবনা রাখে — কিন্তু, আশা করি, ChatGPT-এর মতো, এটি মানব পেশাদারদের পাশাপাশি সহাবস্থান করবে।