গুগলের নতুন ভিডিও-টু-অডিও জেনারেটর সাউন্ডট্র্যাক তৈরি করতে পিক্সেল দেখে

একটি AI উত্পন্ন নেকড়ে চিৎকার
গুগল ডিপ মাইন্ড

ডিপ মাইন্ড মঙ্গলবার তার জেনারেটিভ এআই ভিডিও-টু-অডিও গবেষণার সর্বশেষ ফলাফল দেখিয়েছে। এটি একটি অভিনব সিস্টেম যা একটি প্রদত্ত ভিডিও ক্লিপের জন্য সিঙ্ক করা অডিও সাউন্ডস্কেপ তৈরি করতে ব্যবহারকারীর লিখিত প্রম্পটের সাথে অন-স্ক্রীনে যা দেখে তা একত্রিত করে।

V2A AI-কে ভিও-এর মতো ভিডিও-প্রজন্মের মডেলগুলির সাথে যুক্ত করা যেতে পারে, ডিপ মাইন্ডের জেনারেটিভ অডিও টিম একটি ব্লগ পোস্টে লিখেছেন , এবং অন-স্ক্রিন অ্যাকশনের জন্য সাউন্ডট্র্যাক, সাউন্ড ইফেক্ট এবং এমনকি সংলাপ তৈরি করতে পারে। আরও কি, ডিপ মাইন্ড দাবি করে যে এর নতুন সিস্টেমটি যথাক্রমে একটি নির্দিষ্ট শব্দের ব্যবহারকে উত্সাহিত বা নিরুৎসাহিত করে এমন ইতিবাচক এবং নেতিবাচক প্রম্পট সহ মডেলটিকে টিউন করে "যেকোন ভিডিও ইনপুটের জন্য সীমাহীন সংখ্যক সাউন্ডট্র্যাক" তৈরি করতে পারে।

V2A গাড়ি

সিস্টেমটি প্রথমে ভিডিও ইনপুটকে এনকোডিং এবং সংকুচিত করে কাজ করে, যা ডিফিউশন মডেলটি ব্যবহারকারীর ঐচ্ছিক পাঠ্য প্রম্পটের উপর ভিত্তি করে এবং ভিজ্যুয়াল ইনপুট থেকে ব্যাকগ্রাউন্ড নয়েজ থেকে কাঙ্খিত অডিও প্রভাবগুলিকে পুনরাবৃত্তিমূলকভাবে পরিমার্জন করে। এই অডিও আউটপুটটি অবশেষে ডিকোড করা হয় এবং একটি তরঙ্গরূপ হিসাবে রপ্তানি করা হয় যা ভিডিও ইনপুটের সাথে পুনরায় সংযুক্ত করা যেতে পারে।

সবচেয়ে ভালো দিক হল যে ব্যবহারকারীকে ভিতরে যেতে হবে না এবং ম্যানুয়ালি (পড়ুন: ক্লান্তিকরভাবে) অডিও এবং ভিডিও ট্র্যাকগুলি সিঙ্ক করতে হবে, কারণ V2A সিস্টেম এটি স্বয়ংক্রিয়ভাবে করে। "ভিডিও, অডিও এবং অতিরিক্ত টীকাগুলির উপর প্রশিক্ষণের মাধ্যমে, আমাদের প্রযুক্তি বিভিন্ন ভিজ্যুয়াল দৃশ্যের সাথে নির্দিষ্ট অডিও ইভেন্টগুলিকে সংযুক্ত করতে শেখে, যখন টীকা বা প্রতিলিপিতে দেওয়া তথ্যের প্রতিক্রিয়া জানায়," ডিপ মাইন্ড টিম লিখেছেন৷

V2A নেকড়ে

যদিও সিস্টেমটি এখনও নিখুঁত হয়নি। একের জন্য, আউটপুট অডিও গুণমান ভিডিও ইনপুটের বিশ্বস্ততার উপর নির্ভর করে এবং ইনপুটে ভিডিও শিল্পকর্ম বা অন্যান্য বিকৃতি উপস্থিত হলে সিস্টেমটি ট্রিপ হয়ে যায়। ডিপ মাইন্ড টিমের মতে, অডিও ট্র্যাকের সাথে সংলাপ সিঙ্ক করা একটি চলমান চ্যালেঞ্জ।

V2A Claymation পরিবার

"V2A ইনপুট ট্রান্সক্রিপ্ট থেকে বক্তৃতা তৈরি করার চেষ্টা করে এবং এটি অক্ষরের ঠোঁটের নড়াচড়ার সাথে সিঙ্ক্রোনাইজ করে," দলটি ব্যাখ্যা করেছে। “কিন্তু জুটিবদ্ধ ভিডিও প্রজন্মের মডেল ট্রান্সক্রিপ্টের উপর শর্তযুক্ত নাও হতে পারে। এটি একটি অমিল তৈরি করে, প্রায়শই অস্বাভাবিক ঠোঁট-সিঙ্কিং হয়, কারণ ভিডিও মডেল ট্রান্সক্রিপ্টের সাথে মেলে এমন মুখের নড়াচড়া তৈরি করে না।"

দলটি জনসাধারণের কাছে এটি প্রকাশ করার বিষয়ে বিবেচনা করার আগে সিস্টেমটিকে এখনও "কঠোর নিরাপত্তা মূল্যায়ন এবং পরীক্ষার" মধ্য দিয়ে যেতে হবে। এই সিস্টেম দ্বারা উত্পন্ন প্রতিটি ভিডিও এবং সাউন্ডট্র্যাক ডিপ মাইন্ডের সিন্থআইডি ওয়াটারমার্কের সাথে সংযুক্ত করা হবে৷ এই সিস্টেমটি বর্তমানে বাজারে থাকা একমাত্র অডিও-উৎপাদনকারী AI থেকে অনেক দূরে। স্টেবিলিটি এআই গত সপ্তাহে একই ধরনের পণ্য ফেলেছে যখন ইলেভেনল্যাব গত মাসে তাদের সাউন্ড ইফেক্ট টুল প্রকাশ করেছে