আজ সকালে, OpenAI তার "গোলাবারুদ অস্ত্রাগার" থেকে AI ভিডিও জেনারেশন টুল সোরা বের করেছে, তাৎক্ষণিকভাবে প্রধান খবরের শিরোনাম দখল করেছে।
এমনকি মাস্ক, যিনি ওপেনএআই-এর সাথে সর্বদা বিরোধিতা করেছেন, তিনি সোরার শক্তি স্বীকার করতে এবং এর প্রশংসা করতে ইচ্ছুক, "আগামী কয়েক বছরে, মানুষ এআই-এর শক্তির সাহায্যে অসামান্য কাজ তৈরি করবে।"
সোরার শক্তি টেক্সট বর্ণনার উপর ভিত্তি করে 60 সেকেন্ড পর্যন্ত সুসঙ্গত এবং মসৃণ ভিডিও তৈরি করার ক্ষমতার মধ্যে নিহিত, যাতে সূক্ষ্ম এবং জটিল দৃশ্য, প্রাণবন্ত চরিত্রের অভিব্যক্তি এবং জটিল ক্যামেরার গতিবিধি রয়েছে।
অন্যান্য ভিডিওগুলির সাথে তুলনা করে যা শুধুমাত্র একক সংখ্যার মতো ছোট ভিডিও তৈরি করতে পারে, সোরার এক মিনিটের সময়কাল নিঃসন্দেহে টেবিলটি ঘুরিয়ে দেওয়ার প্রভাব ফেলে।
আরও গুরুত্বপূর্ণ, সোরা ভিডিওর সত্যতা, দৈর্ঘ্য, স্থিতিশীলতা, ধারাবাহিকতা, রেজোলিউশন বা পাঠ্য বোঝার ক্ষেত্রে সেরা স্তর দেখিয়েছে। আসুন প্রথমে আনুষ্ঠানিকভাবে প্রকাশিত প্রদর্শনী ভিডিও ক্লিপগুলি উপভোগ করি।
প্রম্পট: সুন্দর, তুষারময় টোকিও শহর তোলপাড় করছে। ক্যামেরাটি শহরের রাস্তার মধ্যে দিয়ে ঘুরছে, অনেক লোককে অনুসরণ করছে সুন্দর তুষারময় আবহাওয়া উপভোগ করছে এবং কাছাকাছি স্টলে কেনাকাটা করছে। সুন্দর সাকুরা পাপড়িগুলো তুষারপাতের সাথে বাতাসে উড়ছে।
এই ভিডিওতে, একটি দম্পতিকে ড্রোনের দৃষ্টিকোণ থেকে একটি ব্যস্ত শহরের রাস্তায় হাঁটতে দেখা যাচ্ছে, সুন্দর চেরি ফুলের পাপড়িগুলি তুষারফলকের সাথে বাতাসে নাচছে৷
যদিও অন্যান্য সরঞ্জামগুলি এখনও একটি একক লেন্সকে স্থিতিশীল রাখতে লড়াই করছে, সোরা মসৃণভাবে একাধিক লেন্সের বিরামবিহীন সুইচিং অর্জন করেছে এবং লেন্স স্যুইচিংয়ের সুসংগততা এবং বস্তুর সামঞ্জস্য অনেক এগিয়ে রয়েছে, যা একটি সত্যিকারের মাত্রা হ্রাস করার ধাক্কা।
▲ @গবর থেকে
অতীতে, এই ধরনের একটি ভিডিও শ্যুট করার জন্য স্ক্রিপ্ট তৈরি এবং শট ডিজাইনের মতো ক্লান্তিকর কাজগুলির সিরিজে অনেক সময় এবং শক্তির প্রয়োজন হতে পারে। এখন, শুধুমাত্র একটি সাধারণ পাঠ্য বিবরণ দিয়ে, সোরা সম্পূর্ণরূপে এত বড় দৃশ্য তৈরি করতে পারে এবং প্রাসঙ্গিক অনুশীলনকারীরা কাঁপতে শুরু করেছে।
নেটিজেন @debarghya_das OpenAI Sora এডিটিং, ইলেভেন ল্যাবসে ডেভিড অ্যাটেনবরোর ভয়েস এবং iMovie-তে Youtube থেকে কিছু প্রাকৃতিক সঙ্গীতের নমুনা ব্যবহার করে 15 মিনিটের মধ্যে এই 20+ সেকেন্ডের ট্রেলার তৈরি করেছে।
কিভাবে সোরা তার শক্তিশালী প্রভাব অর্জন করে?
ওপেনএআই সোরা সম্পর্কে একটি বিশদ প্রযুক্তিগত প্রতিবেদনও প্রকাশ করেছে, এটির পিছনে প্রযুক্তিগত নীতি এবং প্রয়োগগুলি উপস্থাপন করেছে।
তাহলে, কীভাবে সোরা এই সাফল্য অর্জন করলেন? LLM-এর সফল বাস্তব অভিজ্ঞতার দ্বারা অনুপ্রাণিত হয়ে, OpenAI ভিজ্যুয়াল প্যাচ এম্বেডিং কোড (প্যাচ) প্রবর্তন করেছে, একটি অত্যন্ত পরিমাপযোগ্য এবং কার্যকর ভিজ্যুয়াল ডেটা উপস্থাপনা যা বিভিন্ন ভিডিও এবং চিত্র ডেটা পরিচালনা করার জন্য জেনারেটিভ মডেলগুলির ক্ষমতাকে ব্যাপকভাবে উন্নত করতে পারে।
একটি হাই-ডাইমেনশনাল স্পেসে, ওপেনএআই প্রথমে ভিডিও ডেটাকে কম-ডাইমেনশনাল ল্যাটেন্ট স্পেসে সংকুচিত করে এবং তারপরে এটিকে স্প্যাটিওটেম্পোরাল এম্বেডিং-এ পচিয়ে দেয়, যার ফলে ভিডিওটিকে এনকোডিং ব্লকের একটি সিরিজে রূপান্তরিত করে।
এরপরে, OpenAI একটি নেটওয়ার্ককে প্রশিক্ষিত করেছে যা বিশেষভাবে ভিজ্যুয়াল ডেটার মাত্রা কমানোর জন্য ডিজাইন করা হয়েছে। নেটওয়ার্ক ইনপুট হিসাবে একটি কাঁচা ভিডিও নেয় এবং একটি সুপ্ত উপস্থাপনা আউটপুট করে যা সময় এবং স্থান উভয় ক্ষেত্রেই সংকুচিত হয়। এই সংকুচিত সুপ্ত স্থানের মধ্যেই সোরা প্রশিক্ষিত এবং এই স্থানের মধ্যে ভিডিও তৈরি করে।
অতিরিক্তভাবে, OpenAI একটি ডিকোডার মডেলকে প্রশিক্ষিত করেছে যা এই সুপ্ত উপস্থাপনাগুলিকে পিক্সেল-স্তরের ভিডিও চিত্রগুলিতে পুনরুদ্ধার করতে পারে।
সংকুচিত ভিডিও ইনপুট প্রক্রিয়াকরণের মাধ্যমে, গবেষকরা স্প্যাটিওটেম্পোরাল প্যাচগুলির একটি সিরিজ বের করতে সক্ষম হয়েছেন, যা মডেলটিতে ট্রান্সফরমার টোকেনের মতো একটি ভূমিকা পালন করে।
একটি প্যাচ-ভিত্তিক উপস্থাপনা ব্যবহার করে, Sora বিভিন্ন রেজোলিউশন, সময়কাল এবং আকৃতির অনুপাতের ভিডিও এবং চিত্রগুলির সাথে খাপ খাইয়ে নিতে পারে৷ নতুন ভিডিও সামগ্রী তৈরি করার সময়, এই এলোমেলোভাবে শুরু করা প্যাচগুলি প্রয়োজনীয় আকার অনুসারে একটি গ্রিডে সাজানো যেতে পারে৷ আকার নিয়ন্ত্রণ করুন এবং আপনার চূড়ান্ত ভিডিওর ফর্ম।
যদিও উপরের নীতিটি বেশ জটিল শোনায়, আসলে, OpenAI দ্বারা ব্যবহৃত নতুন প্রযুক্তি – ভিজ্যুয়াল ব্লক এমবেডিং কোড (যাকে ভিজ্যুয়াল ব্লক হিসাবে উল্লেখ করা হয়) – একটি ছোট বাক্সে অসংগঠিত বিল্ডিং ব্লকের গুচ্ছ সংগঠিত করার মতো। এইভাবে, অনেকগুলি বিল্ডিং ব্লক থাকলেও, আপনি যতক্ষণ এই ছোট বাক্সটি খুঁজে পাবেন ততক্ষণ আপনি সহজেই আপনার প্রয়োজনীয় বিল্ডিং ব্লকগুলি খুঁজে পেতে পারেন।
যেহেতু ভিডিও ডেটা ছোট স্কোয়ারে রূপান্তরিত হয়, যখন ওপেনএআই সোরাকে একটি নতুন ভিডিও টাস্ক প্রদান করে, তারা প্রথমে ভিডিও থেকে অস্থায়ী এবং স্থানিক তথ্য সম্বলিত কিছু ছোট স্কোয়ার বের করবে। এই তথ্যের উপর ভিত্তি করে নতুন ভিডিও তৈরি করতে এই ছোট স্কোয়ারগুলি সোরাকে দেওয়া হয়।
এইভাবে, ভিডিওটি একটি ধাঁধার মত একসাথে করা যেতে পারে। এর সুবিধা হল কম্পিউটার বিভিন্ন ধরণের ছবি এবং ভিডিও আরও দ্রুত শিখতে এবং প্রক্রিয়া করতে পারে।
যেহেতু সোরাকে আরও গভীরভাবে প্রশিক্ষণ দেওয়া হয়েছিল, ওপেনএআই গবেষকরাও দেখেছেন যে প্রশিক্ষণ গণনার পরিমাণ বৃদ্ধির সাথে সাথে নমুনার গুণমান উল্লেখযোগ্যভাবে উন্নত হয়েছে। ওপেনএআই আবিষ্কার করেছে যে সরাসরি ডেটার মূল আকারের প্রশিক্ষণের বেশ কয়েকটি সুবিধা রয়েছে:
- সোরা প্রশিক্ষণের সময় উপাদান ক্রপ করে না, সোরাকে বিভিন্ন ডিভাইসের নেটিভ অ্যাসপেক্ট রেশিও অনুযায়ী সরাসরি কন্টেন্ট তৈরি করতে দেয়।
- ভিডিওর নেটিভ অ্যাসপেক্ট রেশিওর উপর প্রশিক্ষণ ভিডিওটির কম্পোজিশন এবং লেআউটের গুণমানকে উল্লেখযোগ্যভাবে উন্নত করতে পারে।
উপরন্তু, Sora নিম্নলিখিত বৈশিষ্ট্য আছে:
একটি টেক্সট-টু-ভিডিও জেনারেশন সিস্টেম প্রশিক্ষণের জন্য পাঠ্য ক্যাপশন সহ প্রচুর সংখ্যক ভিডিও প্রয়োজন। OpenAI ভিডিওতে DALL·E 3-এ প্রবর্তিত রি-নোটেশন প্রযুক্তি প্রয়োগ করে।
DALL·E 3-এর মতো, OpenAI ব্যবহারকারীর সংক্ষিপ্ত প্রম্পটগুলিকে দীর্ঘ বিশদ নির্দেশনায় রূপান্তর করতে GPT ব্যবহার করে এবং তারপর সেগুলিকে ভিডিও মডেলে পাঠায়, যাতে Sora উচ্চ-মানের ভিডিও তৈরি করতে পারে।
পাঠ্য থেকে রূপান্তর করার পাশাপাশি, সোরা ছবি বা বিদ্যমান ভিডিও থেকেও ইনপুট গ্রহণ করতে পারে। এই বৈশিষ্ট্যটি সোরাকে বিভিন্ন ধরনের ইমেজ এবং ভিডিও এডিটিং কাজ সম্পূর্ণ করতে দেয়, যেমন সিমলেস লুপ ভিডিও তৈরি করা, স্ট্যাটিক ছবিতে অ্যানিমেশন ইফেক্ট যোগ করা, ভিডিওর প্লেব্যাকের সময় বাড়ানো ইত্যাদি।
"SORA" শব্দ গঠন করে মেঘের একটি বাস্তবসম্মত চিত্র।
একটি সমৃদ্ধ ঐতিহাসিক হলে একটি বিশাল ঢেউ আঘাত করতে চলেছে৷ দুই সার্ফার সুযোগের সদ্ব্যবহার করে এবং নিপুণভাবে তরঙ্গে চড়ে।
Sora কোনো পূর্ব উদাহরণ ছাড়াই একটি ভিডিওতে শৈলী এবং পরিবেশ পরিবর্তন করতে পারে। এমনকি সম্পূর্ণ ভিন্ন স্টাইল সহ দুটি ভিডিও মসৃণভাবে সংযুক্ত করা যেতে পারে।
সোরা ছবিও তৈরি করতে পারে। গবেষণা দল শুধুমাত্র একটি ফ্রেমের সময়সীমার সাথে একটি স্থানিক গ্রিডে গাউসিয়ান নয়েজ ব্লক সাজিয়ে বিভিন্ন আকারের ছবি তৈরি করে। সর্বোচ্চ রেজোলিউশন 2048×2048 এ পৌঁছায়।
আসল OpenAI এছাড়াও সোরার বর্তমান সীমাবদ্ধতাগুলি অকপটে স্বীকার করেছে, যেমন জটিল দৃশ্যের শারীরিক প্রভাব অনুকরণ করতে এবং কিছু নির্দিষ্ট কার্যকারণ সম্পর্ক বুঝতে তার অক্ষমতা। উদাহরণস্বরূপ, এটি কাচ ভাঙার মতো মৌলিক শারীরিক মিথস্ক্রিয়াকে সঠিকভাবে অনুকরণ করতে পারে না।
▲উল্টো দিকে দৌড়ানো
কিন্তু ওপেনএআই দৃঢ়ভাবে বিশ্বাস করে যে সোরার বর্তমান ক্ষমতা দেখায় যে ভিডিও মডেলগুলির ক্রমাগত সম্প্রসারণ সক্ষম সিমুলেটর বিকাশের জন্য একটি প্রতিশ্রুতিশীল পথ যা ভৌত এবং ডিজিটাল বিশ্ব এবং তাদের মধ্যে থাকা বস্তু, প্রাণী এবং মানুষের অনুকরণ করতে পারে।
বিশ্ব মডেল, এআই এর পরবর্তী দিক?
OpenAI দেখেছে যে যখন স্কেলে প্রশিক্ষিত হয়, Sora একটি আকর্ষক সক্ষমতা প্রদর্শন করে যা বাস্তব-বিশ্বের মানুষ, প্রাণী এবং পরিবেশকে একটি নির্দিষ্ট পরিমাণে অনুকরণ করতে পারে।
এই ক্ষমতাগুলি ত্রিমাত্রিক স্থান বা বস্তুর নির্দিষ্ট প্রিসেটের উপর ভিত্তি করে নয়, তবে বড় আকারের ডেটা দ্বারা চালিত হয়।
- ত্রিমাত্রিক স্থানের মধ্যে সমন্বয়
সোরা গতিশীল দৃষ্টিকোণ পরিবর্তনের সাথে ভিডিও তৈরি করতে পারে। যখন ক্যামেরার অবস্থান এবং কোণ পরিবর্তিত হয়, ভিডিওর অক্ষর এবং দৃশ্যের উপাদানগুলি ত্রিমাত্রিক স্থানে সুসঙ্গতভাবে চলতে পারে। - দূর-দূরত্বের ধারাবাহিকতা এবং বস্তুর অধ্যবসায় সোরা দীর্ঘ সময় ধরে ভিডিও ধারাবাহিকতা বজায় রাখে, এমনকি যখন মানুষ, প্রাণী বা বস্তুকে অস্পষ্ট করা হয় বা ফ্রেমের বাইরে সরানো হয়। একইভাবে, এটি একই ভিডিও নমুনায় একই চরিত্র একাধিকবার দেখাতে পারে এবং একটি সামঞ্জস্যপূর্ণ চেহারা নিশ্চিত করতে পারে।
- ডিজিটাল বিশ্বের সিমুলেশন
সোরা তার সম্পর্কিত ক্ষমতা সক্রিয় করতে কেবলমাত্র "মাইনক্রাফ্ট" শব্দগুলি উল্লেখ করে ভিডিও গেমগুলির মতো ডিজিটাল প্রক্রিয়াগুলি অনুকরণ করতে পারে।
ওপেনএআই সোরাকে "এমন মডেলের ভিত্তি হিসাবে বিবেচনা করে যা বাস্তব বিশ্বকে বুঝতে এবং অনুকরণ করতে পারে" এবং বিশ্বাস করে যে এর ক্ষমতাগুলি "এজিআই-এর উপলব্ধিতে একটি গুরুত্বপূর্ণ মাইলফলক হবে।"
সোরার আগমন সম্পর্কে, NVIDIA এর সিনিয়র বিজ্ঞানী জিম ফ্যান বলেছেন:
আপনি যদি মনে করেন OpenAI-এর Sora হল সৃজনশীল পরীক্ষা-নিরীক্ষার একটি হাতিয়ার, যেমন DALL·E, আপনি হয়তো পুনর্বিবেচনা করতে চাইতে পারেন।
সোরা আসলে একটি ডেটা-ভিত্তিক পদার্থবিদ্যা সিমুলেশন ইঞ্জিন যা বাস্তব বা কাল্পনিক জগতের অনুকরণ করতে পারে। এই সিমুলেটরটি ডিনোইসিং এবং গ্রেডিয়েন্ট গণনার মাধ্যমে জটিল চিত্র রেন্ডারিং, "স্বজ্ঞাত" শারীরিক আচরণ, দীর্ঘমেয়াদী পরিকল্পনার ক্ষমতা এবং শব্দার্থিক স্তরের বোঝাপড়া শেখে।
এই মডেলের ক্ষমতার ভিত্তি হল বিশ্ব সার্বজনীন মডেল, যা একটি কৃত্রিম বুদ্ধিমত্তা সিস্টেম। এর লক্ষ্য হল একটি নিউরাল নেটওয়ার্ক মডিউল তৈরি করা যা পরিবেশকে মুখস্থ করতে এবং মডেল করার জন্য রাষ্ট্রকে আপডেট করতে পারে।
এই মডেল বর্তমান পর্যবেক্ষণ (যেমন চিত্র, অবস্থা, ইত্যাদি) এবং আসন্ন কর্মের উপর ভিত্তি করে পরবর্তী সম্ভাব্য পর্যবেক্ষণের পূর্বাভাস দিতে সক্ষম। এটি বিশ্বের আইন এবং সাধারণ জ্ঞান শেখার মাধ্যমে পরিবেশে সম্ভাব্য ভবিষ্যতের ঘটনাগুলিকে অনুকরণ করে।
প্রকৃতপক্ষে, বিশ্ব মডেল একটি নতুন ধারণা নয়। গত বছরের ডিসেম্বরের প্রথম দিকে, রানওয়ে, এআই ভিডিও জেনারেশনের নেতা, আনুষ্ঠানিকভাবে ঘোষণা করেছিলেন যে এটি একটি সর্বজনীন বিশ্ব মডেল তৈরি করবে যার উদ্দেশ্য একটি ভিন্ন ধরনের এলএলএম তৈরি করা। বিদ্যমান এলএলএম থেকে এবং আরও বাস্তবসম্মত হতে পারে। কৃত্রিম বুদ্ধিমত্তা সিস্টেম যা বাস্তব জগতের অনুকরণ করে।
বিশেষত, বিশ্ব মডেলের মূল ধারণা হল ঐতিহাসিক অভিজ্ঞতা মুখস্থ করে বিশ্ব কীভাবে কাজ করে তা শিখতে হবে এবং তারপর ভবিষ্যতে ঘটতে পারে এমন ঘটনাগুলির ভবিষ্যদ্বাণী করা। উদাহরণস্বরূপ, একটি পতনশীল বস্তুর একটি ভিডিও থেকে, মডেলটি বর্তমান ছবির উপর ভিত্তি করে পরবর্তী ফ্রেমের ভবিষ্যদ্বাণী করতে পারে, যার ফলে বস্তুর নড়াচড়ার ভৌত আইন শিখতে পারে।
টুরিং পুরস্কার বিজয়ী ইয়ান লেকুনও একই ধরনের ধারণার প্রস্তাব করেছেন এবং GPT-এর মতো সম্ভাব্য জেনারেটিভ অটোরিগ্রেশনের উপর ভিত্তি করে বড় মডেলের সমালোচনা করেছেন, বিশ্বাস করেন যে এই ধরনের মডেলগুলি হ্যালুসিনেশন সমস্যার সমাধান করতে পারে না। LeCun এবং তার দল এমনকি ভবিষ্যদ্বাণী করে যে GPT এর মতো মডেলগুলি আগামী পাঁচ বছরের মধ্যে অপ্রচলিত হতে পারে।
বিশ্ব মডেলগুলিকে কৃত্রিম বুদ্ধিমত্তার ক্ষেত্রে একটি গবেষণা দিক হিসাবে দেখা যেতে পারে যা মানুষের বুদ্ধিমত্তার স্তরের কাছাকাছি AI তৈরি করার চেষ্টা করে। বাস্তব-বিশ্বের পরিবেশ এবং ইভেন্টগুলি থেকে অনুকরণ এবং শেখার মাধ্যমে, বিশ্ব মডেলগুলিতে এআইকে উচ্চ স্তরের সিমুলেশন এবং ভবিষ্যদ্বাণী করার ক্ষমতার দিকে চালিত করার সম্ভাবনা রয়েছে।
ফেব্রুয়ারী মাসে, জাস্টিন মুর, সুপরিচিত ভেঞ্চার ক্যাপিটাল ফার্ম a16z-এর একজন অংশীদার, এআই ভিডিও জেনারেশনের ক্ষেত্রে বর্তমান পরিস্থিতির একটি গভীর বিশ্লেষণ পরিচালনা করেন। জেনারেটিভ এআই ধীরে ধীরে জনসাধারণের চোখে প্রবেশ করার পর থেকে দুই বছরে, এআই ভিডিও জেনারেশনের ক্ষেত্রটি একটি সমৃদ্ধ দৃশ্যের সূচনা করেছে যেখানে একশটি ফুল ফুটছে এবং একশোটি চিন্তাধারা বিতর্ক করছে।
ওপেনএআই সোরা যুক্ত হওয়ার সাথে, এআই ভিডিও জেনারেশনের ক্ষেত্রটি বিশাল তরঙ্গ তৈরি করবে এবং বিদ্যমান মূলধারার প্ল্যাটফর্ম যেমন রানওয়ে, পিকা এবং স্থিতিশীল ভিডিও ডিফিউশন প্রভাবিত হতে পারে।
একই সময়ে, স্বাধীন নির্মাতাদের জন্য গেমের নিয়মগুলি সম্পূর্ণরূপে পরিবর্তিত হবে৷ সৃজনশীলতা এবং ধারণা সহ যে কেউ তাদের নিজস্ব ভিডিও সামগ্রী তৈরি করতে Sora ব্যবহার করতে পারেন৷ সৃষ্টির সীমানা কমানোর অর্থ এই যে স্বাধীন নির্মাতারা একটি স্বর্ণযুগের সূচনা করবেন।
"দ্য থ্রি-বডি প্রবলেম" তে যেমন বলা হয়েছে, "এটা কোন ব্যাপার না।" বর্তমান প্রতিযোগিতামূলক পরিস্থিতি নির্বিশেষে, এআই ভিডিও জেনারেশনের ক্ষেত্রটি নতুন প্রযুক্তি এবং উদ্ভাবনের দ্বারা বিপর্যস্ত হতে পারে। আর সোরার প্রবেশ মাত্র শুরু, শেষ থেকে অনেক দূরে।
# aifaner: aifaner (WeChat ID: ifanr) এর অফিসিয়াল WeChat পাবলিক অ্যাকাউন্ট অনুসরণ করতে স্বাগতম। যত তাড়াতাড়ি সম্ভব আপনাকে আরও উত্তেজনাপূর্ণ সামগ্রী সরবরাহ করা হবে।