
সাম্প্রতিক সময়ে AI ভিডিও ব্যবহারের অনেক নতুন উপায় তৈরি হয়েছে, অনেকটা বছরের প্রথমার্ধে জনপ্রিয় হয়ে ওঠা AI-উত্পাদিত কাঁচা ছবিগুলির মতো।
▲ ভিডিও সূত্র: https://x.com/pabloprompt/status/2000706593579573301/
মডেলটির ক্ষমতা উন্নত হওয়ার সাথে সাথে, কৃত্রিম বুদ্ধিমত্তা (এআই) দ্বারা তৈরি নেপথ্যের ভিডিওগুলি, যা আগে জনপ্রিয় ছিল, এখন আবার সোশ্যাল মিডিয়ায় একটি জনপ্রিয় ট্রেন্ড হয়ে উঠছে।
তবে, এটি পূর্ববর্তী জটিল কর্মপ্রবাহকে সম্পূর্ণরূপে পরিত্যাগ করে, আরও ব্যবহারকারী-বান্ধব মডেল রয়েছে এবং এমনকি কয়েকটি সহজ প্রম্পটের মাধ্যমেও প্রতিলিপি তৈরি করতে পারে, ভিডিওতে দেখানো বাস্তবতার একই স্তর অর্জন করে।
ভিডিও জেনারেশন মডেলগুলির অপ্টিমাইজেশন আমাদের মানবিক প্রম্পটের উপর নির্ভরতা ক্রমাগত হ্রাস করছে, একই সাথে আরও স্থিতিশীল ধারাবাহিকতাও আনছে।

ডুবাও সম্প্রতি তার অডিও এবং ভিডিও জেনারেশন মডেলটিকে একটি নতুন প্রজন্ম, ডুবাও সিড্যান্স ১.৫ প্রো-তে আপডেট করেছে, যা অডিও এবং ভিডিও জেনারেশনকে উল্লেখযোগ্যভাবে উন্নত করেছে। এটি যে ভিডিওগুলি তৈরি করে তা এখন চীনা, ইংরেজি, জাপানি, কোরিয়ান এবং স্প্যানিশ ভাষার মতো বিভিন্ন শব্দ এবং ছন্দ সমর্থন করে। তদুপরি, চীনা দৃশ্যপটের জন্য, এটি সিচুয়ান এবং ক্যান্টোনিজের মতো উপভাষাও তৈরি করতে পারে।
এটি কেবল কথা বলতে পারে না, বিভিন্ন ভাষার উচ্চারণও অনুকরণ করতে পারে। অডিও-ভিজ্যুয়াল ভিডিওগুলি সিড্যান্স ১.৫ প্রো-এর জন্য একটি বড় সাফল্য। ভিডিও তৈরির ক্ষেত্রে, এটি অডিও-ভিজ্যুয়াল সিঙ্ক্রোনাইজেশনকে সিনেমাটিক ক্যামেরা মুভমেন্টের সাথে একত্রিত করে AI ভিডিওগুলিকে আরও বাস্তবসম্মত এবং বিস্তারিত দেখায়।
মডেলটি এখন ডুবাও অ্যাপে পাওয়া যাচ্ছে। ডুবাও খুলুন, "অ্যানিমেট ফটো" এ ক্লিক করুন, 1.5 প্রো মডেলটি নির্বাচন করুন, এবং আপনি AI-জেনারেটেড ভিডিওগুলির আনন্দ উপভোগ করতে পারবেন। এটি ভলকানো ইঞ্জিন এক্সপেরিয়েন্স সেন্টার এবং জিমেং এআই-তেও অভিজ্ঞতা লাভ করা যেতে পারে।
আমরা আগেও কিছু পরীক্ষা-নিরীক্ষা করেছি, এবং Seedance 1.5 Pro অবশ্যই আমাদের হাতে থাকা সেরা ভিডিও জেনারেশন মডেল যা সরাসরি ব্যবহার করা যেতে পারে এবং একই সাথে শব্দ সংহত করতে পারে।
"আমি এটা করতে পারছি না, মহারাজ" এর আসল গানটি শুনুন।
*Zootopia 2* মুক্তির আগে, কণ্ঠশিল্পীদের পছন্দ নিয়ে নেটিজেনদের মধ্যে যথেষ্ট বিতর্ক ছিল। Seedance 1.5 Pro-এর ভয়েস জেনারেশন কতটা চিত্তাকর্ষক তা দেখতে, আমরা দুটি জনপ্রিয় অনলাইন ভিডিওর ভয়েস-ওভার কাজের দিকে নজর দিতে পারি: *Empresses in the Palace* এবং *Let the Bullets Fly*।
আমরা অনলাইনে একটি সিনেমা বা টিভি অনুষ্ঠানের একটি স্ক্রিনশট খুঁজে পেয়েছি এবং এটি ডুবাওতে পাঠিয়েছি। আমাদের কোনও প্রম্পট ইনপুট করারও প্রয়োজন হয়নি, এবং এটি স্বয়ংক্রিয়ভাবে ভিডিও ফুটেজটি সনাক্ত করতে এবং আবেগের সাথে একটি সংলাপ দৃশ্য তৈরি করতে সক্ষম হয়েছিল।
▲ডুবাও অ্যাপের মধ্যে, প্রথম ফ্রেম আপলোড করতে এবং একটি ভিডিও তৈরি করতে "অ্যানিমেট ফটো" বৈশিষ্ট্যটি ব্যবহার করুন।
সম্রাজ্ঞী এবং ঝাং মাজিকে এতটাই বিশ্বাসযোগ্যভাবে চিত্রিত করা হয়েছে; কয়েক মাস আগের ভিডিও জেনারেশন মডেলের তুলনায় এটি সম্পূর্ণ ভিন্ন স্তরে। পূর্ববর্তী এআই ভিডিওগুলিতে অমিল ঠোঁটের নড়াচড়া বা যান্ত্রিক কণ্ঠস্বরের মতো সমস্যাগুলি এখন সমাধান করা হয়েছে।
কিন্তু ম্যান্ডারিন ভাষা এর জন্য মৌলিক; উপভাষায় সিড্যান্স ১.৫ প্রো-এর উচ্চতর পারফরম্যান্সের আসল রহস্য হলো বিদেশী মডেলগুলিকে ছাড়িয়ে যাওয়ার ক্ষমতা। সোরা ২ এবং গুগল ভিও ৩.১-এর মতো, যদিও চিত্র তৈরিতে শিল্পের শীর্ষস্থানীয় হিসেবে বিবেচিত, যদি আপনি তাদের উপরের দুটি প্রথম-ফ্রেম ছবি দেখান, তাহলে সোরা বা ভিও ৩ "এমপ্রেসেস ইন দ্য প্যালেস"-এর ক্লাসিক লাইনগুলি বা ঝাং মাজির সাবলীল সিচুয়ান উপভাষা বুঝতে পারবে না।
জাতীয় গেমস সবেমাত্র শেষ হয়েছে। আপনি যদি গুয়াংজুতে থাকতেন, তাহলে আপনার অবশ্যই "ভাইব্র্যান্ট গ্রেটার বে এরিয়া, মনোমুগ্ধকর নতুন গুয়াংজু" এই আকর্ষণীয় স্লোগানটি মনে থাকবে। আমরা ক্যান্টন টাওয়ারের সামনে দাঁড়িয়ে থাকা একজনের একটি ছবি তৈরি করেছি এবং তারপর ডুবাও-তে "অ্যানিমেট ফটোস" বৈশিষ্ট্যে একটি প্রম্পট প্রবেশ করিয়েছি।
ভিডিওতে থাকা যুবকটি ক্যামেরার দিকে মুখ করে তার পিছনের ক্যান্টন টাওয়ারের সাথে পরিচয় করিয়ে দিচ্ছে। সে ক্যান্টনিজ ভাষায় বলছে, "প্রাণবন্ত গ্রেটার বে এরিয়া, মনোমুগ্ধকর নতুন গুয়াংজু, এটাই আমার পিছনের ক্যান্টন টাওয়ার!"
এই ক্যান্টোনিজ লেভেলটা কেমন? ডুওলিঙ্গোর চার-পিসের ডিম সাম সেটের তুলনায়—চিংড়ির ডাম্পলিং, রাইস নুডল রোল, সিউ মাই, এবং কালো বিন সস সহ অতিরিক্ত পাঁজর—এটা কি একটু বেশি মনোরম শোনাচ্ছে না?
তাছাড়া, সিড্যান্স ১.৫ প্রো-এর "অডিওভিজ্যুয়াল ধারাবাহিকতা" সুবিধা রয়েছে, যার অর্থ হল এটি ছবির বিষয়বস্তুর উপর ভিত্তি করে ভিডিওটি যে গল্পটি বলতে চায় তা বুঝতে পারে এবং স্বয়ংক্রিয়ভাবে সংশ্লিষ্ট ভয়েস-ওভার তৈরি করে।
উদাহরণস্বরূপ, যখন আমরা কোনও বিদেশীর ছবি আপলোড করি, তখন কোনও প্রম্পট না দিয়েই, এটি স্বয়ংক্রিয়ভাবে ইংরেজি ব্যবহার করে ভয়েসওভার প্রদান করবে এবং ছবির চরিত্রটিকে উপযুক্ত লাইনগুলি বলতে বাধ্য করবে।
এমনকি যখন উইল স্মিথ একটি চাইনিজ রেস্তোরাঁয় নুডুলস খাচ্ছিলেন, তখনও সিড্যান্স ১.৫ প্রো তাকে স্বয়ংক্রিয়ভাবে ইংরেজিতে কথা বলতে বাধ্য করেছিল এবং তার নুডুলস খাওয়ার ভঙ্গি সম্পূর্ণ সঠিক ছিল।
একইভাবে, আমরা এটি ব্যবহার করে একটি AI-উত্পাদিত পর্দার পিছনের ভিডিও পুনরায় তৈরি করেছি। আমরা কোনও প্রম্পট প্রবেশ না করেই কেবল ডুবাওতে একটি ছবি আপলোড করেছি এবং এটি স্বয়ংক্রিয়ভাবে চীনা ভাষায় একটি ভিডিও তৈরি করেছে, যার মধ্যে "বাহ, আমি একটি অবতারের সাথে একটি ছবি পেয়েছি!" এর মতো সংলাপ রয়েছে।
যখন আমরা ভিডিওটি পুনরায় তৈরি করি, তখন Seedance 1.5 Pro ছবির লোকটিকে কোরিয়ান হিসেবে শনাক্ত করে এবং তাকে কোরিয়ান ভাষায় কথা বলতে দেখা যায় এমন একটি ভিডিও তৈরি করে। সত্যি বলতে, তার মধ্যে কিছুটা কোরিয়ান ওপ্পা ভাইব আছে।
Doubao ভিডিও জেনারেটরের একটি বিশেষ ভালো দিক হল আমরা সরাসরি জেনারেট করা ভিডিওটি একটি অ্যানিমেটেড GIF হিসেবে ডাউনলোড করতে পারি এবং আমাদের ফোনে সংরক্ষণ করতে পারি । বর্তমান মডেলগুলির আরও শক্তিশালী মাল্টিমোডাল বোঝার ক্ষমতা এবং আরও বাস্তবসম্মত ছবি তৈরি করার ক্ষমতার সাথে মিলিত হয়ে, আমাদের ফোনে থাকা স্থির ছবিগুলিকে "বাস্তবসম্মতভাবে" স্থানান্তরিত করা যেতে পারে এবং তারপর WeChat Moments-এ পোস্ট করা যেতে পারে, কিছু লোক সত্যিই পার্থক্য বুঝতে সক্ষম নাও হতে পারে।

ড্রোন ক্যামেরার চলাচলের সাথে কৃত্রিম বুদ্ধিমত্তা (এআই) দ্বারা তৈরি বিশাল ছবিগুলো একত্রিত করা – এটা সত্যিই অসাধারণ!
Seedance 1.5 Pro আপডেটে ন্যারেটিভ একটি গুরুত্বপূর্ণ শব্দ। এর অর্থ হল এই AI ভিডিওগুলি কেবল তৈরি করা হয় না, বরং গল্পের একটি নির্দিষ্ট ধারণাও থাকে এবং প্রকাশ করা বিষয়বস্তু বুঝতে পারে, যা AI-উত্পাদিত ভিডিওগুলিকে আরও রক্তমাংসের কাজের মতো করে তোলে।
একটি ভালো ভিডিও নির্মাণের জন্য চমৎকার আলো, রঙ এবং শব্দ প্রভাব প্রয়োজন। প্রযুক্তিগত কাজও অপরিহার্য; অডিও এবং ভিজ্যুয়াল উপাদানগুলির পাশাপাশি ক্যামেরার চলাচল দৃশ্যমান ভাষার একটি অপরিহার্য অংশ।
এই আপডেটে, সিড্যান্স ১.৫ প্রো লং-শট ট্র্যাকিং এবং হিচকক জুমের মতো সিনেমাটিক ক্যামেরা কৌশলগুলিতে উল্লেখযোগ্য উন্নতি দেখেছে।
আমরা আগে যে বুলেট টাইম ইফেক্ট তৈরি করেছিলাম, তার মতো এখন আপনি ডুবাওতে একটি ছবি আপলোড করতে পারবেন, প্রম্পটগুলি সামঞ্জস্য করতে পারবেন এবং বুলেট টাইম ইফেক্টটিও অবাধে কাস্টমাইজযোগ্য।

▲সূত্র: বুলেট টাইম এফেক্ট। সময় সম্পূর্ণরূপে স্থগিত। নৃত্যশিল্পী মাধ্যাকর্ষণকে উপেক্ষা করে মাঝ আকাশে ঝুলে আছেন। [ফ্রিজ ফ্রেম]: নৃত্যশিল্পী, তার চুল এবং তার নীল পোশাক একেবারে স্থির, যেন সময়ের সাথে স্থগিত একটি 3D মূর্তি। ক্যামেরা ঝুলন্ত নৃত্যশিল্পীর চারপাশে একটি অনুভূমিক ট্র্যাকে ঘুরছে। পটভূমির ভবনগুলি দৃষ্টিকোণ (প্যারালাক্স) পরিবর্তন করে, যখন নর্তকী কেন্দ্রে আবদ্ধ থাকে। চুল শক্ত থাকে এবং উপরের দিকে নির্দেশ করে, কোনও নড়াচড়া ছাড়াই। পোশাকের কাপড়টি শক্ত এবং জায়গায় স্থির। সিনেমাটিক আলো, উচ্চ মানের।
যখন আমরা একই ছবি Veo 3.1 দিয়ে প্রসেস করি, তখন চরিত্রটিকে বুলেট টাইম মোডে সম্পূর্ণ স্থির রাখতে সমস্যা হয়। কারণ বেশিরভাগ ভিডিও জেনারেশন মডেলের নড়াচড়া বোঝাতে চুল চিনতে হয় এবং দুলতে থাকা বোঝাতে স্কার্টের হেম প্রয়োজন হয়। অতএব, ক্যামেরার গতিবিধি নিয়ন্ত্রণ এবং সময়সূচী নির্ধারণ করা বিভিন্ন মডেলকে আলাদা করার জন্য গুরুত্বপূর্ণ ক্ষমতা।
আর তারপর এই AI জায়ান্ট ছবিটা কিছুক্ষণ আগে ভাইরাল হয়েছিল। এখন আমরা ভিডিওতে জায়ান্টটিকে হাইলাইট করার জন্য সুপার কুল ড্রোন সুইপিং এবং ক্যামেরা মুভমেন্ট ব্যবহার করতে পারি।

▲কীওয়ার্ড: সিনেমাটিক FPV ড্রোন ফুটেজ, অতি-গতিশীল ক্যামেরার গতিবিধি: উঁচুতে পাখির চোখের দৃশ্য দিয়ে শুরু করে, ড্রোনটি দ্রুত শহরের রাস্তার মাঝখানে বসে থাকা একটি দৈত্যের দিকে ছুটে যায়, লাল ইটের ভবন দ্বারা বেষ্টিত। দৈত্যটি সম্পূর্ণরূপে স্থির থাকে, তার শরীর, মাথা এবং অঙ্গ-প্রত্যঙ্গগুলি গতিহীন, ভাস্কর্যের মতো হিমায়িত। ড্রোনটি দৈত্যের স্থির শরীরের চারপাশে অ্যাক্রোবেটিক উড্ডয়ন কৌশল সম্পাদন করে—তার পায়ের চারপাশে ঘুরছে, তার বাহুর নীচে দিয়ে যাচ্ছে, তার ধড় বরাবর সর্পিলভাবে উপরে উঠছে, তারপর জুম আউট করে দৈত্য এবং ক্ষুদ্র যানবাহন (একটি লাল ডাবল-ডেকার বাস, একটি কালো ট্যাক্সি) এবং পথচারীদের মধ্যে আকারের বৈসাদৃশ্য দেখাচ্ছে। অতি-বাস্তবসম্মত কম্পোজিটিং। ১৬:৯ আকৃতির অনুপাত, ৫ সেকেন্ড দীর্ঘ, মডেল ১.৫ প্রো।
রেফারেন্স ছবিগুলিকে ভিডিওতে রূপান্তর করলে আউটপুট মানের উপর আরও ভালো নিয়ন্ত্রণ পাওয়া যায়। তবে, Seedance 1.5 Pro-এর ইমেজ-টু-ভিডিও রূপান্তর ক্ষমতাও সমানভাবে চিত্তাকর্ষক।

বাইটড্যান্সের প্রকাশ্যে প্রকাশিত সিড্যান্স ১.৫ প্রো মডেলের পারফরম্যান্সের ফলাফল অনুসারে, অভ্যন্তরীণ বেঞ্চমার্ক পরীক্ষা SeedVideoBench-1.5-এ, এটি দেখায় যে এটি T2V টেক্সট-টু-ভিডিও হোক বা I2V ফার্স্ট-ফ্রেম থেকে ভিডিও রূপান্তর, কেলিং ২.৬ এবং গুগল ভিও ৩.১-এর মতো মডেলের তুলনায় সিড্যান্স ১.৫ প্রো-এর কিছু সুবিধা রয়েছে।
বিশেষ করে অডিও জেনারেশন এবং অডিও-ভিজ্যুয়াল সিঙ্ক্রোনাইজেশনের ক্ষেত্রে, সিড্যান্স ১.৫ প্রো প্রায় অপ্রতিরোধ্যভাবে উন্নত।
আমরা জুটোপিয়ার জুডি এবং নেজাকে একসাথে ১০ সেকেন্ডের একটি নাটক পরিবেশন করার চেষ্টা করেছি, একজন ম্যান্ডারিনে এবং অন্যজন সিচুয়ান উপভাষায় কথা বলে।
▲ তাৎক্ষণিক শব্দ: [০-৪ সেকেন্ড] জুডি নেজার দিকে আঙুল তুলে বলে (ম্যান্ডারিন, দ্রুতগতির, গম্ভীর): "আরে বাছা! থামো! মাথার পিছনে হাত রাখো! জুটোপিয়া ট্রাফিক আইন অনুসারে, তুমি তোমার উইন্ড ফায়ার হুইলগুলিতে দ্রুত গতিতে গাড়ি চালাচ্ছিলে!" • [৫-১০ সেকেন্ড] নেজার (সিচুয়ান উপভাষা, চোখ ঘুরিয়ে, ধীর গতিতে, টানা): "আরে, আমাকে স্পর্শ করো না! আমি আমার উইন্ড ফায়ার হুইলগুলিতে চড়ছিলাম, আমি তোমার জ্বালানি পোড়াইনি। তুমি ছোট বাছা, তোমার নিজের কাজে মন দাও!"
এই ভিডিওর স্টাইল এবং বিষয়বস্তু আমরা সাধারণত যে কার্টুনগুলো দেখি তার সাথে অনেকটাই মিলে যায়। যখন ধার্মিক এবং কঠোর অফিসার জুডি হপস নেজাকে ধরে ফেলেন, তখন তার গম্ভীর অভিব্যক্তি এবং সুর, এমনকি সিচুয়ান উপভাষায় নেজার লাইনগুলিও ঠোঁটের নড়াচড়ার সাথে পুরোপুরি মিলে যায়।
APPSO এই বছর দশটিরও বেশি AI ভিডিও জেনারেশন মডেল পরীক্ষা করেছে। সেগুলি ব্যবহারের প্রক্রিয়ায়, আমরা দেখতে পেয়েছি যে পূর্ববর্তী অনেক পরীক্ষার কেস এখন পুরানো।
প্রথমে, লু শুন আসলেও, আমাদের তাকে ইংরেজিতে কয়েকটি শব্দ বলতে বাধ্য করতে হত; আমরা যদি ৫ সেকেন্ডের একটি মসৃণ ভিডিও তৈরি করতে পারি তবে আমরা কৃতজ্ঞ থাকব। এখন, মডেলটি কেবল চীনা, ইংরেজি, জাপানি এবং কোরিয়ান ভাষা সমর্থন করে না, একই সাথে ক্যান্টোনিজ এবং সিচুয়ানির মতো স্বতন্ত্র উপভাষাও তৈরি করতে পারে।
হঠাৎ করেই, AI ভিডিওর বিবর্তন বছরে পরিমাপ করা থেকে মাসে পরিমাপ করা হয়েছে। গতকালের সাফল্য আজকের পাসিং গ্রেড।

▲ সিড্যান্স ১.৫ প্রো কেস স্টাডির স্ক্রিনশট | সূত্র: বাইটড্যান্স সিডের অফিসিয়াল ওয়েবসাইট
এই Seedance 1.5 Pro আপডেটটি নতুন পাসিং গ্রেড হতে পারে। কিন্তু অন্তত এখন আমরা এমন ভিডিও দেখতে পাচ্ছি যা সিঙ্ক্রোনাইজড অডিও এবং ভিডিওর সাথে আরও আকর্ষণীয়; একাধিক ভাষা এবং উপভাষার জন্য সমর্থন AI ভিডিওগুলিকে আরও "প্রাকৃতিক" করে তোলে; এবং পেশাদার সিনেমাটিক ক্যামেরাওয়ার্ক এবং বুদ্ধিমান বোধগম্যতা AI কে এমনকি কিছু অত্যন্ত জটিল দৃশ্য তৈরি করতে দেয়।
যখন প্রযুক্তি একটি ছবির পেছনের গল্প বুঝতে পারবে এবং স্বয়ংক্রিয়ভাবে উপযুক্ত ভাষা এবং আবেগের সাথে মিলিত হতে পারবে, তখন আমরা কল্পনা এবং সৃজনশীল স্বাধীনতার যুগের আরও এক ধাপ এগিয়ে যাব।
এই সব সম্ভব করার জন্য কী প্রয়োজন? একটা ছবি নাকি একটা প্রম্পট?
Doubao অ্যাপটি খুলুন, আপলোড/ইনপুট করুন, তৈরি করুন—এটা খুবই সহজ। প্রতিটি ছবি বলার অপেক্ষায় থাকা একটি গল্প বলে, এবং প্রতিটি আপলোড সৃষ্টির সূচনা করে।
ধাপ যত কম হবে, প্রবেশের বাধা তত কম হবে এবং নির্মাতাদের সংখ্যা তত বেশি হবে—সৃজনশীল ধারণা বাস্তবায়নের জন্য এআই-চালিত ভিডিও এভাবেই ব্যবহার করা উচিত।
প্রবন্ধের ভিডিওটি এই লিঙ্কে ক্লিক করে দেখা যাবে: https://mp.weixin.qq.com/s/em_E90Q7AdydHsNwVkAMTQ
#iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট অনুসরণ করতে আপনাকে স্বাগতম: iFanr (WeChat ID: ifanr), যেখানে যত তাড়াতাড়ি সম্ভব আরও উত্তেজনাপূর্ণ কন্টেন্ট আপনার কাছে উপস্থাপন করা হবে।








