নেটফ্লিক্সের VOID AI বাস্তব জগতের গতি অক্ষুণ্ণ রেখে বস্তু অপসারণ করে।

নেটফ্লিক্স এমন একটি এআই ভিডিও টুলের বিস্তারিত বিবরণ দিচ্ছে যা কেবল সাধারণ পরিমার্জনের চেয়েও বেশি কিছু করতে পারে। VOID নামের এই সিস্টেমটি ফুটেজ থেকে বিভিন্ন উপাদান ছেঁটে ফেলে, কিন্তু বাকি সবকিছুকে এমনভাবে অপরিবর্তিত রাখে যা বাস্তবসম্মত মনে হয়।

এটি এআই ভিডিও এডিটিং-এর ক্ষেত্রে একটি নতুন দিগন্ত উন্মোচন করে। প্রচলিত টুলগুলো অবাঞ্ছিত উপাদান মুছে ফেলতে পারলেও, প্রায়শই এমন নড়াচড়া রেখে যায় যা বেমানান মনে হয়; যেমন—বস্তু ভেসে থাকা বা কোনো কারণ ছাড়াই ক্রিয়া থেমে যাওয়া। VOID সম্পাদনার পরবর্তী অবস্থার উপর মনোযোগ দেয় এবং সিকোয়েন্সটিকে এমনভাবে পুনর্গঠন করে, যাতে ফলাফলটি বিশ্বাসযোগ্য কার্যকারণ সম্পর্ক অনুসরণ করে।

গবেষণায় দেখা গেছে , মডেলটি পরিবর্তনের প্রতিক্রিয়ায় মিথস্ক্রিয়া সামঞ্জস্য করতে পারে। ফলে, যদি কোনো সহায়ক বস্তু সরিয়ে ফেলা হয়, তবে বাকি উপাদানগুলো থেমে যাওয়া বা ত্রুটিপূর্ণ হওয়ার পরিবর্তে স্বাভাবিকভাবে প্রতিক্রিয়া দেখায়। এটি কার্যকরভাবে একটি শটের ভৌত যুক্তিকে নতুন বিন্যাসের সাথে মেলানোর জন্য পুনর্লিখন করে।

সম্পাদক এবং স্টুডিওগুলোর জন্য, এর অর্থ হলো দৃশ্যপটের নিমগ্নতা নষ্ট না করেই পোস্ট-প্রোডাকশনে আরও পরিচ্ছন্ন সমাধান করা, বিশেষ করে সেইসব শটে যেখানে একাধিক উপাদান একে অপরের সাথে মিথস্ক্রিয়া করে।

VOID কীভাবে একটি শটকে নতুন করে লেখে

VOID সম্পাদনাগুলোকে শৃঙ্খল প্রতিক্রিয়া হিসেবে বিবেচনা করে। কোনো কিছু সরিয়ে ফেলার পর কী কী প্রভাবিত হতে পারে, তা এটি চিহ্নিত করে এবং তারপর ক্রিয়াকলাপটি যৌক্তিকভাবে এগিয়ে যায় এমনভাবে ক্রমটি পুনর্গঠন করে।

মডেলটি প্রথমে প্রভাবিত অঞ্চলগুলো শনাক্ত করে, যার মধ্যে ছায়া, সংঘর্ষ বা অবলম্বনের সম্ভাব্য পরিবর্তনগুলো অন্তর্ভুক্ত থাকে। এরপর এটি সেই পরিবর্তনগুলোর একটি কাঠামোগত মানচিত্র তৈরি করে এবং ফুটেজটির একটি নতুন সংস্করণ তৈরি করে যা সেগুলোকে প্রতিফলিত করে। দ্বিতীয় একটি পরিমার্জন পর্যায় গতিকে মসৃণ করে এবং বস্তুগুলোকে পরিবর্তিত পথ অনুসরণ করার সময় বেঁকে যাওয়া থেকে রক্ষা করে।

কেন পদার্থবিদ্যা-সচেতন সম্পাদনা গুরুত্বপূর্ণ

যে বিষয়টি বিশেষভাবে লক্ষণীয় তা হলো VOID যেভাবে কার্যকারণ সম্পর্ক বিবেচনা করে। মডেলটিকে হাজার হাজার সিমুলেটেড সিকোয়েন্সের উপর প্রশিক্ষণ দেওয়া হয়েছে, যা পরিস্থিতি পরিবর্তনের সাথে সাথে বস্তুগুলো কীভাবে প্রতিক্রিয়া দেখায় তা বুঝতে সাহায্য করে।

একটি উদাহরণে, ডমিনো শৃঙ্খলের একটি অংশ সরিয়ে ফেললে শুধু টাইলস মুছে যায় না, বরং প্রতিক্রিয়াটি সম্পূর্ণরূপে থেমে যায়, কারণ গতিকে এগিয়ে নিয়ে যাওয়ার মতো আর কিছুই অবশিষ্ট থাকে না। অন্য একটি ক্ষেত্রে, বস্তুগুলোর সাথে মিথস্ক্রিয়ারত কোনো ব্যক্তিকে সরিয়ে ফেললেও শটটি স্থির হয়ে যায় না, বরং বাকি আচরণ প্রত্যাশিতভাবেই চলতে থাকে।

VOID অতীতের ফুটেজ থেকে প্যাটার্ন নকল করার পরিবর্তে কার্যকারণ সম্পর্ক বিষয়ে অর্জিত নিয়ম প্রয়োগ করে।

এরপর কী দেখবেন

VOID এখনও একটি গবেষণা ব্যবস্থা, যার বিশদ বিবরণ কোনো পণ্য হিসেবে বাজারে না এসে একটি arXiv গবেষণাপত্রে প্রকাশ করা হয়েছে। এই ধরনের সম্পাদনা কবে সাধারণ ব্যবহারকারী বা পেশাদার সফটওয়্যারে আসবে, তার কোনো নির্দিষ্ট সময়সীমা এখনও ঠিক হয়নি।

তথাপি, দিকনির্দেশনা স্পষ্ট। এআই ভিডিও ওয়ার্কফ্লো প্রসারিত হওয়ার সাথে সাথে, উচ্চ-মানের সম্পাদনার জন্য ভৌত মিথস্ক্রিয়া বুঝতে পারে এমন সরঞ্জামগুলি আরও গুরুত্বপূর্ণ হয়ে উঠবে, বিশেষ করে চলচ্চিত্র এবং টিভিতে, যেখানে ছোটখাটো অসঙ্গতি দ্রুত দর্শকের মনোযোগ নষ্ট করে দেয়।

পরবর্তী ধাপ হলো আরও জটিল পরিস্থিতিতে এর প্রয়োগ বাড়ানো। এর মধ্যে রয়েছে আরও ঘন বিন্যাস, আরও বেশি বস্তু এবং দীর্ঘতর সিকোয়েন্স যেখানে একাধিক মিথস্ক্রিয়া একে অপরের উপর এসে পড়ে। এই অগ্রগতি যদি বজায় থাকে, তাহলে পদার্থবিদ্যা-সচেতন সম্পাদনা ভিডিও টুলগুলোকে এমন একটি পূর্ণাঙ্গ সিকোয়েন্স পুনর্গঠনের দিকে চালিত করতে পারে যা নিবিড় পর্যবেক্ষণেও টিকে থাকবে।