
APPSO জেনেছে যে iSpeed Technology সম্প্রতি $300 মিলিয়ন সিরিজ C ফাইন্যান্সিং রাউন্ড সম্পন্ন করেছে, যা দেশীয় AI ভিডিও জেনারেশন সেক্টরে বৃহত্তম একক ফাইন্যান্সিং রাউন্ডের জন্য একটি নতুন রেকর্ড স্থাপন করেছে।
প্রধান বিনিয়োগকারী, সিডিএইচ হংকং ফান্ড, সিডিএইচ ভিজিসি এবং সিডিএইচ বাইফুর সাথে, উল্লেখযোগ্য বিনিয়োগ করেছে; চায়না রুই এবং ৩৭ ইন্টারেক্টিভ এন্টারটেইনমেন্টের মতো শিল্প মূলধন সংস্থাগুলি এর পরেই ছিল; দেশীয় সরকার-নির্দেশিত তহবিল, বীমা তহবিল, পারিবারিক অফিস, পাশাপাশি ইউওবি ভেঞ্চার ম্যানেজমেন্ট এবং লায়ন এক্স ফান্ডও এতে অংশগ্রহণ করেছিল। বিনিয়োগকারীদের তালিকা দুটি গোলার্ধ জুড়ে বিস্তৃত, যেখানে বিভিন্ন খাতের মূলধন নীরবে একই দিকে একত্রিত হচ্ছে।
বর্তমান AI শিল্পে $300 মিলিয়ন তহবিল সংগ্রহ অবাক করার মতো মনে নাও হতে পারে, এবং এটি OpenAI-এর তহবিলের একটি ভগ্নাংশ। তবে, আপনাকে এই সংখ্যাটি AI ভিডিও সেক্টরের প্রেক্ষাপটে রাখতে হবে: 2018 সালে প্রতিষ্ঠিত রানওয়ে, গত মাসে তার $315 মিলিয়ন সিরিজ E তহবিল সংগ্রহ সম্পন্ন করতে সাত বছর সময় নিয়েছে। ইতিমধ্যে, Aishi Technology তিন বছরেরও কম সময়ের মধ্যে তার সিড রাউন্ড থেকে একইভাবে বৃহৎ সিরিজ C রাউন্ডে চলে গেছে।
সিরিজ এ রাউন্ডে, শেনজেন ক্যাপিটাল গ্রুপ বিনিয়োগের নেতৃত্ব দেয়, যেখানে অ্যান্ট গ্রুপ অংশগ্রহণ করে। সিরিজ বি রাউন্ডে, আলিবাবা ৬০ মিলিয়ন ডলারেরও বেশি বিনিয়োগের নেতৃত্ব দেয়, যা সেই সময়ে দেশীয় ভিডিও জেনারেশন সেক্টরে এককভাবে সবচেয়ে বড় বিনিয়োগ ছিল। সিরিজ সি রাউন্ডে, এটি ৩০০ মিলিয়ন ডলার সংগ্রহ করে, আবারও নিজস্ব রেকর্ড পুনর্লিখন করে।
প্রতিটি রাউন্ডে নতুন শীর্ষ-স্তরের প্রতিষ্ঠান প্রথমবারের মতো বাজারে প্রবেশ করে এবং প্রতিটি রাউন্ডে বিনিয়োগের পরিমাণ দ্বিগুণ হয়। গতি ত্বরান্বিত হচ্ছে, এবং ঝুঁকি ক্রমশ বাড়ছে ।
প্রকৃতপক্ষে, এই অর্থায়নের দ্বারা প্রতিফলিত সংকেত সংখ্যার চেয়েও বেশি: বৃহৎ আকারের বর্ণনায় AI ভিডিও আর সহায়ক ভূমিকা পালন করে না; মূলধন এটিকে একটি স্বাধীন ট্র্যাক হিসাবে বিবেচনা করতে শুরু করেছে যা ব্যাপকভাবে বিনিয়োগ করার যোগ্য ।
আইস্পিচ টেকনোলজির প্রতিষ্ঠাতা ওয়াং চাংহু ২০২৪ সালে বলেছিলেন যে ভিডিও জেনারেশনকে অবশ্যই অবমূল্যায়ন করা হয়েছিল। আইস্পিচ টেকনোলজি তিন বছরেরও কম সময়ের মধ্যে বিনিয়োগকারীদের মধ্যে এই অসম্মতিকে ঐক্যমতে রূপান্তরিত করেছে।
ঐক্যমত্যহীনতার সূচনা: ২০২৩, ভিডিও কেন?
"আমি জানি না কিভাবে ব্যবসা শুরু করতে হয়, কিন্তু এটা ঠিক আছে। ব্যবসা শুরু করা মানে শেখা।" ২০২৩ সালের এপ্রিলে, যখন আইশি টেকনোলজির প্রতিষ্ঠাতা ওয়াং চাংহু নিজের ব্যবসা শুরু করার সিদ্ধান্ত নেন, তখন তিনি এই বাক্যটি মাথায় রেখেই বাড়ি ছেড়ে চলে যান।
২০২৩ সালের এপ্রিলে, আইস্পিচ টেকনোলজির প্রতিষ্ঠাতা ওয়াং চাংহু এমন একটি রায় দিয়েছিলেন যা সেই সময়ে বেশ "অপ্রচলিত" বলে মনে হয়েছিল: যখন সবাই বৃহৎ ভাষার মডেলের পিছনে ছুটছিল, তখন তিনি ভিডিও জেনারেশনের উপর বাজি ধরতে চেয়েছিলেন।
মনে রাখবেন যে OpenAI-এর Sora এক বছর পরেও আনুষ্ঠানিকভাবে আত্মপ্রকাশ করেনি, তাই আপনি কল্পনা করতে পারেন যে সেই সময়ে ওয়াং চাংহুর পছন্দ কতটা বিপরীতমুখী ছিল।
মাইক্রোসফট রিসার্চ এশিয়ায় আট বছর এবং বাইটড্যান্সের এআই ল্যাবের পরিচালক হিসেবে চার বছর কাজ করার পর, ওয়াং চাংহু ভিডিও এআই-এর প্রযুক্তিগত গতি অন্যদের চেয়ে ভালো বোঝেন। "২০২৩ সালের গোড়ার দিকে, অনেকেই ভিডিও তৈরির সাথে একমত ছিলেন না; সবাই বৃহৎ ভাষার মডেলের দিকে তাকিয়ে ছিল," তিনি পরে স্মরণ করেন। "কিন্তু এর ফলে ঐকমত্যের অভাব তৈরি হয়েছিল: আমরা অনুভব করেছি যে ভিডিও তৈরি একটি বড় বিষয়, এবং অতীতে আমাদের ভিডিও এবং এআই-তে অভিজ্ঞতা ছিল, যা আমাদের বিশ্বব্যাপী জয়লাভ করতে সাহায্য করবে।"
সেই সময় এই রায়টি যথেষ্ট চাপের মধ্যে ছিল। ভাষা মডেলের তুলনায়, ভিডিও তৈরিতে কম্পিউটিং শক্তি বেশি লাগে, মানের দিক থেকে নিয়ন্ত্রণ করা আরও কঠিন এবং উৎপাদনের পথ আরও অস্পষ্ট। প্রাথমিক বিনিয়োগকারীদের যা বিশ্বাস করার দরকার ছিল তা ছিল এখন তারা যা দেখতে পাচ্ছিল তা নয়, বরং তিন বছর পরেও বিকাশমান নীলনকশা।
২০২৪ সালের মার্চ মাসে, শেনজেন ক্যাপিটাল গ্রুপ সিরিজ A1 রাউন্ডে নেতৃত্ব দেয়, তাদের প্রথম বিনিয়োগ সম্পন্ন করে। পরের মাসে, অ্যান্ট গ্রুপ ১০০ মিলিয়ন আরএমবি-রও বেশি বিনিয়োগ করে, যা সেই সময়ে দেশীয় এআই ভিডিও সেক্টরে বৃহত্তম একক প্রাতিষ্ঠানিক বিনিয়োগ। এর মাধ্যমে, আইশি টেকনোলজি মূলত "প্রযুক্তি-ভিত্তিক" থেকে "পুঁজি-ভিত্তিক" পদ্ধতিতে রূপান্তর সম্পন্ন করে।
ওয়াং চাংহু তার উদ্যোক্তা যাত্রার শুরু থেকেই তার দৃষ্টিভঙ্গি স্পষ্টভাবে সংজ্ঞায়িত করেছিলেন: " প্রত্যেককে তাদের নিজস্ব জীবনের পরিচালক হতে সাহায্য করা ।" বিদেশী পণ্য PixVerse এবং দেশীয় পণ্য Paiwo AI উভয়ই এই দিকের বাস্তবায়ন – প্রথমটি 2024 সালের জানুয়ারিতে চালু হয়েছিল এবং দ্বিতীয়টি 2025 সালের জুনে চালু হয়েছিল। দুটি পণ্য বিভিন্ন বাজারের জন্য স্বাধীনভাবে কাজ করে।

ডিআইটি স্থাপত্য: যে পছন্দটি সম্পর্কে কেউ আশাবাদী ছিল না।
এই $300 মিলিয়ন সিরিজ সি তহবিল রাউন্ডটি বুঝতে, আপনাকে প্রথমে আইশিকের প্রযুক্তি রোডম্যাপটি বুঝতে হবে।
আপনি যদি শুরু থেকেই আইস্পিড টেকনোলজির টেকনিক্যাল রোডম্যাপটি দেখেন, তাহলে আপনি দেখতে পাবেন যে ডিআইটি (ডিফিউশন ট্রান্সফরমার) আর্কিটেকচারের পছন্দই পুরো গল্পের উৎপত্তি এবং অনেক ফলাফলের ভিত্তি।
২০২৩ সালে, চীনের মূলধারার ভিডিও জেনারেশন সমাধানগুলি সাধারণত U-Net স্থাপত্য গ্রহণ করে। এটি পুরোপুরি ঠিক ছিল; U-Net বহু বছর ধরে ইমেজ জেনারেশন ক্ষেত্রে ব্যাপক ব্যবহারিক বৈধতার মধ্য দিয়ে গেছে, যা এর স্থিতিশীলতা এবং পরিপক্কতা প্রমাণ করেছে। এর প্যারামিটার টিউনিং অভিজ্ঞতা তুলনামূলকভাবে পরিপক্ক ছিল, যা দ্রুত এবং কার্যকর ফলাফলের সুযোগ করে দেয়। বেশিরভাগ দলের জন্য যারা পণ্যটি প্রথমে কাজ করতে চেয়েছিল, এটি ছিল স্পষ্ট পছন্দ।
আইশি টেকনোলজি ডিআইটি-কে বেছে নেয়, যা চীনের প্রথম স্টার্টআপ যারা ভিডিও তৈরির জন্য এই আর্কিটেকচার ব্যবহার করে ।
ডিআইটি হলো ডিফিউশন এবং ট্রান্সফরমারের একটি সমন্বয় স্থাপত্য। ট্রান্সফরমারের মূল সুবিধা হলো এর মনোযোগ প্রক্রিয়া – যা মডেলটিকে ডেটা প্রক্রিয়াকরণের সময় ক্রমের যেকোনো অবস্থানে তথ্য "উপলব্ধি" করতে দেয়, কেবল স্থানীয় অঞ্চল যেমন কনভ্যুলেশনাল নেটওয়ার্ক প্রক্রিয়াকরণের পরিবর্তে।
ভিডিও তৈরির জন্য, এই ক্ষমতাটি অত্যন্ত গুরুত্বপূর্ণ: ভিডিও মূলত একটি টাইমলাইনে ধারাবাহিক ফ্রেমের একটি সিরিজ, প্রতিটি ফ্রেমের পূর্ববর্তী এবং পরবর্তী ফ্রেমের উপর জটিল স্থানিক-অস্থায়ী নির্ভরতা থাকে । চরিত্রের গতিবিধি অবশ্যই তরল হতে হবে, বস্তুর গতিপথ অবশ্যই ভৌত আইন মেনে চলতে হবে এবং আলোর পরিবর্তনগুলি ফ্রেম জুড়ে সামঞ্জস্যপূর্ণ থাকতে হবে – এই প্রয়োজনীয়তাগুলির জন্য একটি মডেল প্রয়োজন যা "ফ্রেম জুড়ে দীর্ঘ-পরিসরের স্থানিক-অস্থায়ী সম্পর্ক" ধারণ করতে সক্ষম, যা ট্রান্সফরমারের দক্ষতার সাথে তুলনা করে।

তবে, ২০২৩ সালে এই পছন্দটি একটি উল্লেখযোগ্য মূল্য দিতে হবে: প্রশিক্ষণের প্রাথমিক পর্যায়ে ডিআইটির আরও বেশি কম্পিউটিং শক্তি এবং ডেটা ভলিউম প্রয়োজন, এবং প্রাথমিক পর্যায়ে এটি প্রায় অনিবার্যভাবে "পরিপক্ক ইউ-নেটের তুলনায় নিম্নমানের কর্মক্ষমতা" এর একটি বেদনাদায়ক সময় অনুভব করবে। একটি স্টার্টআপের জন্য, এটি একটি যথেষ্ট ঝুঁকি, এবং ফলাফল উন্নত হওয়ার আগেই অর্থ পুড়িয়ে ফেলা হতে পারে।
এই রায় সঠিক প্রমাণিত হয়েছিল। ২০২৪ সালে যখন সোরা প্রকাশিত হয়েছিল, তখন ওপেনএআই-এর প্রকাশ্যে ঘোষিত প্রযুক্তিগত রোডম্যাপটি আসলে ডিআইটি ছিল। ভিডিও জেনারেশনের ক্ষেত্রে, ডিআইটি আর্কিটেকচারটি আসলে সঠিক উত্তরের কাছাকাছি পথ ছিল।
যখন সোরা মুক্তি পায়, তখন AiShi ইতিমধ্যেই DiT আর্কিটেকচারে এক বছরেরও বেশি সময় ধরে প্রশিক্ষণের অভিজ্ঞতা, ডেটা প্রক্রিয়াকরণ কর্মপ্রবাহ এবং ইঞ্জিনিয়ারিং অপ্টিমাইজেশন সমাধান সংগ্রহ করে ফেলেছিল। AI-এর দ্রুত বিকশিত ক্ষেত্রে এই সময়ের ব্যবধান অত্যন্ত গুরুত্বপূর্ণ।
মডেল পণ্য এবং পণ্য উন্নয়ন উভয়ের উপরই মনোযোগ দেওয়া একটি অবমূল্যায়িত মূল যুক্তি।
এআই ভিডিওর ক্ষেত্রে, বেশিরভাগ কোম্পানি পণ্য উন্নয়নের কথা বিবেচনা করার আগে তাদের মডেলগুলিকে প্রশিক্ষণ দেওয়ার উপর জোর দেয়। এটি একটি নিরাপদ পদ্ধতি বলে মনে হচ্ছে; একবার মডেলটি পরিপক্ক হয়ে গেলে, পণ্যায়নের ঝুঁকি অনেক কম থাকে।
তবে, এই পদ্ধতির একটি মারাত্মক ত্রুটি রয়েছে: মডেলটি "প্রশিক্ষিত" হওয়ার সময়, আপনি ইতিমধ্যেই সবচেয়ে গুরুত্বপূর্ণ প্রতিক্রিয়া উইন্ডোটি মিস করেছেন। ব্যবহারকারীদের আসলে কী ধরণের জেনারেটেড প্রভাবের প্রয়োজন? কোন পরিস্থিতিতে চাহিদা সবচেয়ে তীব্র? অপ্টিমাইজেশনের জন্য মডেলটিকে কোন মাত্রায় অগ্রাধিকার দেওয়া উচিত? এই প্রশ্নগুলির সত্যিকারের উত্তর কেবল তখনই পাওয়া যাবে যখন পণ্যটি চলমান থাকবে এবং ব্যবহারকারীরা এটি ব্যবহার করছেন।
শুরু থেকেই, আইশি মডেল প্রশিক্ষণ এবং পণ্য পুনরাবৃত্তিকে একই চক্রে রেখেছে।
২০২৪ সালের জানুয়ারিতে যখন PixVerse-এর ওয়েব সংস্করণ চালু হয়, তখন মডেলটি "নিখুঁত" ছিল না, কিন্তু পণ্যটি ইতিমধ্যেই ব্যবহারকারীদের ভিডিও তৈরি করতে এবং প্রতিক্রিয়া জানাতে সক্ষম করে। প্রতিটি মডেল আপগ্রেড সরাসরি পূর্ববর্তী সংস্করণের বাস্তব-বিশ্বের ব্যবহারের ডেটার উপর ভিত্তি করে করা হয়েছিল, যার মধ্যে রয়েছে কোন প্রম্পটগুলির সাফল্যের হার কম, কোন প্রভাবগুলি সবচেয়ে জনপ্রিয় ছিল এবং কোন পরিস্থিতিতে ত্রুটির ঝুঁকি ছিল। এই সংকেতগুলি রিয়েল টাইমে প্রশিক্ষণ প্রক্রিয়ায় ফিরে আসে, যা পরবর্তী রাউন্ডের মডেল অপ্টিমাইজেশনের দিকনির্দেশনা দেয়।
আরও গুরুত্বপূর্ণ বিষয় হল, এই মডেল-পণ্য সহ-বিবর্তন সময়ের সাথে সাথে একটি জটিল প্রভাব তৈরি করবে: ব্যবহারকারী যত বেশি হবে, প্রতিক্রিয়া তত বেশি তীব্র হবে, মডেল অপ্টিমাইজেশন তত বেশি নির্ভুল হবে, পণ্যের অভিজ্ঞতা তত ভালো হবে এবং ব্যবহারকারী তত বেশি আকৃষ্ট হবে – এটি একটি ইতিবাচক ফ্লাইহুইল, একমুখী প্রযুক্তিগত অগ্রগতি নয়।
"এটিই স্টার্টআপগুলির সুবিধা – তারা কম জটিল, তাই তারা আরও দক্ষ," আইশির সহ-প্রতিষ্ঠাতা জি জুঝাং বলেন। এই বক্তব্যটি অপ্রাসঙ্গিক শোনালেও এটি প্রযুক্তি রোডম্যাপ, পণ্য উন্নয়নের সময়রেখা এবং সাংগঠনিক ক্ষমতার উচ্চ মাত্রার একীকরণকে প্রতিফলিত করে। বড় কোম্পানিগুলি আরও বেশি কম্পিউটিং শক্তি এবং বৃহত্তর দল বিনিয়োগ করতে পারে, তবে মডেল এবং পণ্যের এই গভীর একীকরণ অর্জন করা কঠিন। প্রক্রিয়াগুলি খুব দীর্ঘ, বিভাগগুলি খুব বেশি এবং একবার প্রতিক্রিয়া শৃঙ্খল প্রসারিত হয়ে গেলে, গতির সুবিধাটি হ্রাস পায়।
এই দক্ষতার সুবিধাটি শেষ পর্যন্ত খরচ কাঠামোতে প্রতিফলিত হয়। লেটপোস্টের সাথে একটি সাক্ষাৎকারে শি জুঝাং প্রকাশ করেছেন যে আইশি "প্রতি মাসে গড়ে ১,০০০ ক্যালোরিরও কম প্রশিক্ষণ সংস্থান ব্যবহার করে এবং খরচ তার সমকক্ষদের তুলনায় মাত্র ১০%।"
এটি একটি কাঠামোগত খরচ সুবিধা, বাজেট কমানোর মাধ্যমে অর্জিত স্বল্পমেয়াদী সঞ্চয় নয়। জি জুঝাং-এর ভাষায়, এটি মডেল আর্কিটেকচার, অ্যালগরিদম, প্রকৌশল এবং পণ্য ক্ষমতার ক্ষেত্রে একটি ব্যাপক সুবিধা ।
যখন মডেল অপ্টিমাইজেশন সর্বদা বাস্তব-বিশ্বের চাহিদার সাথে সামঞ্জস্যপূর্ণ হয়, তখন এটি ভুল দিকনির্দেশনায় অপচয় হওয়া কম্পিউটিং শক্তি হ্রাস করে; পণ্য প্রতিক্রিয়া প্রশিক্ষণ কৌশলগুলির জন্য রিয়েল-টাইম নির্দেশিকা প্রদান করে, যার ফলে প্রতিটি পুনরাবৃত্তির জন্য বিনিয়োগের উপর উচ্চতর রিটার্ন পাওয়া যায়।
২০২৪ সালের জানুয়ারিতে PixVerse ওয়েব ভার্সনের আনুষ্ঠানিক লঞ্চ থেকে ২০২৬ সালের গোড়ার দিকে V5.6 প্রকাশ পর্যন্ত, PixVerse ধারাবাহিকভাবে আটটি প্রধান ভার্সনে আপডেট হয়েছে, গড়ে প্রতি দুই মাস অন্তর একটি প্রধান মডেল আপগ্রেড করা হয়।
এই উচ্চ পুনরাবৃত্তি ঘনত্বের পিছনে রয়েছে মডেল এবং পণ্যকে একসাথে প্রশিক্ষণের পদ্ধতি:
- V2 (জুলাই ২০২৪): মাল্টি-সেগমেন্ট ভিডিও জেনারেশন এবং আংশিক রিড্র ব্রাশ চালু করা হয়েছিল, যা ব্যবহারকারীদের কেবল "একটি সেগমেন্ট তৈরি করা" থেকে "সম্পাদনা এবং তৈরি" করার দিকে যেতে সাহায্য করেছিল।
- V3 (অক্টোবর ২০২৪): স্পেশাল এফেক্টস মোড চালু করা হয়েছিল, এবং "gacha rate" এলোমেলো থেকে প্রায় নিশ্চিততার দিকে বৃদ্ধি করা হয়েছিল। এটি ছিল PixVerse-এর জন্য আসল মোড়, কারণ এটি একটি সৃষ্টি হাতিয়ার থেকে একটি গণ-বাজার পণ্যে স্থানান্তরিত হয়েছিল।
- V3.5 (ডিসেম্বর ২০২৪): জেনারেশন সময় কমিয়ে ১০ সেকেন্ড করা হয়েছে, যা ব্যবহারকারীর অপেক্ষার সময়কে অনেকাংশে কমিয়ে দিয়েছে;
- V4 (২০২৫ সালের গোড়ার দিকে): প্রায় রিয়েল-টাইম জেনারেশন ক্ষমতা আবির্ভূত হয়, ৫-৭ সেকেন্ডের মধ্যে ৫-সেকেন্ডের ভিডিও তৈরি করে;
- V4.5 (মে ২০২৫): প্যারামিটার এবং প্রশিক্ষণ ডেটাসেটের সংখ্যা দ্রুতগতিতে বৃদ্ধি পাচ্ছে এবং বিশ্বব্যাপী ব্যবহারকারীর সংখ্যা ৬০ মিলিয়নে পৌঁছেছে;
- পিক্সভার্সের "পাইও এআই" এর দেশীয় সংস্করণটি ২০২৫ সালের জুন মাসে চালু হয়েছিল, যেখানে একই সাথে অনলাইন এবং মোবাইল অ্যাপ্লিকেশন ব্যবহার করা হয়েছিল।
- V5 (আগস্ট ২০২৫): এজেন্ট তৈরি সহকারী চালু হয়েছে, ব্যবহারকারীদের আর প্রম্পট সিনট্যাক্স শেখার প্রয়োজন নেই, কথোপকথনের উদ্দেশ্য স্বয়ংক্রিয়ভাবে মডেল নির্দেশাবলীতে রূপান্তরিত হয় এবং API ইকোসিস্টেম একই সাথে খোলা হয়;
- V5.5 (ডিসেম্বর ২০২৫): "স্টোরিবোর্ড + অডিও" এর এক-ক্লিক প্রজন্ম, চীনে ভিজ্যুয়াল এবং শব্দের প্রথম সিঙ্ক্রোনাস সহযোগিতা অর্জন এবং একটি সম্পূর্ণ বর্ণনামূলক ক্ষমতা তৈরি করা;
- V5.6 (২৬ জানুয়ারী, ২০২৬): মডেল বৃহৎ মডেল, স্টোরিবোর্ড এবং অডিও-ভিজ্যুয়াল সিঙ্ক্রোনাইজেশন জেনারেশন সমর্থন করে।
অনুমোদিত AI মূল্যায়ন সংস্থা কৃত্রিম বিশ্লেষণ কর্তৃক প্রকাশিত সর্বশেষ ভিডিও জেনারেশন মডেল র্যাঙ্কিংয়ে, PixVerse V5.6 বিশ্বব্যাপী দ্বিতীয় স্থানে রয়েছে, যা বিশ্বের শীর্ষ স্তরের ভিডিও জেনারেশন মডেলগুলির নেতৃত্ব অব্যাহত রেখেছে।


এই পুনরাবৃত্তির ঘনত্ব AI ভিডিও শিল্পে বেশ বিরল। AiShi-এর কৌশল অনেক অনুরূপ পণ্য থেকে আলাদা: এটি এগিয়ে চলেছে, প্রতিটি সংস্করণে প্রকৃত ব্যবহারকারীরা বর্তমানে যে বাস্তব সমস্যাগুলির মুখোমুখি হচ্ছেন সেগুলি সমাধান করা হয়েছে, একই সাথে স্থাপত্যের পরবর্তী অগ্রগতির জন্য মার্জিন সংরক্ষণ করা হয়েছে ।
এর পেছনের সম্ভাব্যতা স্পষ্টতই ডিআইটি আর্কিটেকচারের স্কেলেবিলিটির কারণে। প্রতিটি মডেল আপগ্রেডের জন্য অন্তর্নিহিত স্তরটি ভেঙে নতুন করে শুরু করার প্রয়োজন হয় না, বরং বিদ্যমান ভিত্তিটি প্রশস্ত এবং গভীর করা প্রয়োজন।
৩০০ মিলিয়ন ডলার, শুধু এআই ভিডিওর চেয়েও বেশি কিছুর উপর বাজি ধরা
যাইহোক, CDH শেষ পর্যন্ত এই সিরিজ C রাউন্ডে নেতৃত্ব দেওয়ার সিদ্ধান্ত নিয়েছে, শুধুমাত্র লিডারবোর্ডে V5 এর র্যাঙ্কিংয়ের উপর নয়, বরং PixVerse R1 এর উপরও বাজি ধরেছে, যা ২০২৬ সালের জানুয়ারিতে প্রকাশিত হয়েছিল।
R1 কে এখন পর্যন্ত iScience Technology-এর সবচেয়ে মৌলিক পণ্য প্রযুক্তি পুনরাবৃত্তি হিসেবে বিবেচনা করা যেতে পারে।

অতীতে, ভিডিও জেনারেশন যতই জটিল হোক না কেন, এটি মূলত "একটি ভিডিও ফাইলে নির্দেশাবলী অনুবাদ করা" ছিল, যা এককালীন, অফলাইন রেন্ডারিং প্রক্রিয়া। ব্যবহারকারী নির্দেশাবলী ইনপুট করতেন, জেনারেশনের জন্য অপেক্ষা করতেন এবং একটি স্থির ভিডিও ফাইল পেতেন। এটি চলচ্চিত্র তৈরির মতো; একবার আপনি এটি শ্যুট করলে, এটি সম্পন্ন হয়, এবং এটি দেখার জন্য আপনাকে এটি তৈরি হওয়ার জন্য অপেক্ষা করতে হবে, এবং একবার আপনি এটি দেখার পরে, আপনি কোনও পরিবর্তন করতে পারবেন না।
R1 একটি ভিন্ন যুক্তির উপর কাজ করে। এটি আর কেবল "একটি ভিডিও তৈরি করে" না বরং এটি একটি "বিশ্ব মডেল" যা রিয়েল টাইমে ব্যবহারকারীর ইন্টারঅ্যাকশন কমান্ডের প্রতিক্রিয়া জানাতে পারে। ব্যবহারকারীরা ভিডিও প্লেব্যাকের সময় আলো পরিবর্তন করতে, ব্যাকগ্রাউন্ড প্রতিস্থাপন করতে এবং চরিত্রের গতিবিধি নিয়ন্ত্রণ করতে কমান্ড ইনপুট করতে পারেন। সিস্টেমের প্রতিক্রিয়া বিলম্ব প্রায় 2 সেকেন্ড, এবং আউটপুট হল একটি 1080P অতি-উচ্চ-সংজ্ঞা রিয়েল-টাইম ভিডিও স্ট্রিম।
এর পেছনে রয়েছে AiShi-এর স্ব-বিকশিত "ইনস্ট্যান্ট রেসপন্স ইঞ্জিন (IRE), যা গণনার ধাপগুলিকে ডজন থেকে ১-৪ পর্যন্ত সংকুচিত করে, "অফলাইন রেন্ডারিং" থেকে "রিয়েল-টাইম ইন্টারঅ্যাকশন"-এ উল্লেখযোগ্য আপগ্রেড অর্জন করে।
শি জুঝাং ভবিষ্যদ্বাণী করেছেন যে ভবিষ্যতে ভিডিও এবং গেমের মধ্যে সীমানা ক্রমশ ঝাপসা হয়ে উঠবে। ভিডিও একবার ইন্টারেক্টিভ হয়ে উঠলে, সম্পূর্ণ নতুন কন্টেন্ট, ব্যবহারকারী এবং সৃজনশীল সুযোগ তৈরি হবে।
এক সাক্ষাৎকারে, Xie Xuzhang প্রকাশ করেছেন যে R1 প্রকাশের পর, সবচেয়ে বেশি B-এন্ড ক্লায়েন্ট এসেছে গেম ইন্ডাস্ট্রি থেকে। "গেম ডেভেলপমেন্টকে আর অতীতের দীর্ঘ ডেভেলপমেন্ট চক্রের মধ্য দিয়ে যেতে হবে না। গেমপ্লে, গ্রাফিক্স বা গল্প যাই হোক না কেন, AI এটিকে হালকা এবং আরও কল্পনাপ্রসূত করে তুলতে পারে। আরও গুরুত্বপূর্ণ বিষয় হল, এটি সৃজনশীল ব্যক্তিদের সাহায্য করতে পারে যারা কোড বোঝেন না তাদের ধারণাগুলিকে বাস্তব গেমে রূপান্তরিত করতে।"
R1 এর সম্ভাব্য মূল্য "আরও ভালো ভিডিও জেনারেশন টুল" হওয়ার বাইরেও বিস্তৃত। যদি PixVerse V5 ভিডিও জেনারেশন টুলগুলিতে শীর্ষস্থানের জন্য প্রতিদ্বন্দ্বিতা করে, তাহলে R1 সম্পূর্ণ ভিন্ন একটি বিভাগ সংজ্ঞায়িত করছে – রিয়েল-টাইম ইন্টারেক্টিভ কন্টেন্ট অভিজ্ঞতার জন্য একটি অপারেটিং সিস্টেম। এর প্রতিযোগীরা আর রানওয়ে বা করিন নয়, বরং ইউনিটি, আনরিয়েল ইঞ্জিন এবং এমনকি এখনও আবির্ভূত হওয়া কন্টেন্ট কনজাম্পশন মডেল ।

আইশিকে টেকনোলজির সিরিজ সি ফান্ডিং রাউন্ডের বিনিয়োগকারী কাঠামোর দিকে ফিরে তাকালে, এটি আসলে নিজেই একটি সংকেত।
সিডিএইচ ইনভেস্টমেন্টসের তিনটি তহবিলের যৌথ নেতৃত্বাধীন বিনিয়োগ একটি পদ্ধতিগত মূল্যায়ন প্রতিফলিত করে যে কোম্পানিটি স্কেলিংয়ের একটি পর্যায়ে প্রবেশ করেছে। শিল্প মূলধন সংস্থা চায়না রুই (চলচ্চিত্র এবং টেলিভিশন বিষয়বস্তু) এবং 37 ইন্টারেক্টিভ এন্টারটেইনমেন্ট (গেমস) এর প্রবেশ ইঙ্গিত দেয় যে R1 দুটি শিল্প পুনর্গঠনের লক্ষ্য রাখে: ইন্টারেক্টিভ ফিল্ম এবং টেলিভিশন উৎপাদন এবং এআই-নেটিভ গেম ডেভেলপমেন্ট।
২০২৬ সালে প্রবেশের সাথে সাথে, সমগ্র এআই ভিডিও শিল্প তার দ্বিতীয় পর্যায়ে ত্বরান্বিত হচ্ছে। সিড্যান্স ২.০ এর বিশ্বব্যাপী সাফল্যের পর, আইশি প্রযুক্তি একটি নতুন ইউনিকর্ন হিসেবে আবির্ভূত হয়েছে।
বর্তমানে, PixVerse-এর বিশ্বব্যাপী ১০ কোটিরও বেশি নিবন্ধিত ব্যবহারকারী এবং ১ কোটি ৬০ লক্ষেরও বেশি মাসিক সক্রিয় ব্যবহারকারী (MAU) রয়েছে। চীনে, Paiwo AI এবং PixVerse নামক সংস্করণটি সমান্তরালভাবে কাজ করছে। Aishi Technology হল একমাত্র চীনা AI ভিডিও অ্যাপ্লিকেশন যা ২০২৫ সালের AI for Good-এর উপর UN Global Summit-এর জন্য নির্বাচিত হয়েছে এবং একই বছরে আনুষ্ঠানিকভাবে UN University Global AI Network-এ যোগদান করেছে।

এই ৩০ কোটি ডলারের তহবিল রাউন্ডটিকে আসন্ন যুগের জন্য মূলধনের ভোট হিসেবে দেখা যেতে পারে। এআই ভিডিওর পরবর্তী যুদ্ধক্ষেত্র প্যারামিটার বা র্যাঙ্কিংয়ের সংখ্যা নিয়ে নয়, বরং কে প্রথমে একটি "ভোক্তা পণ্য" থেকে একটি "ইন্টারেক্টিভ ইন্টারফেসে" ভিডিও রূপান্তর করতে পারে তা নিয়ে।
তবে, প্রযুক্তিগত পথটি কোথায় মোড় নেবে তা জানা এবং বিশ্বাস করা যে পথটি শেষ পর্যন্ত কাজ করবে, দুটি ভিন্ন জিনিস।
কৃত্রিম বুদ্ধিমত্তা শিল্পে, "সঠিক দিক নির্বাচন করা" বিরল নয়। যা বিরল তা হল এমন কিছু থাকা যা আপনাকে সমর্থন করার জন্য যথেষ্ট দৃঢ় এবং দৃঢ় এবং মূলধারার দ্বারা আপনার দিকনির্দেশনা স্বীকৃতি পাওয়ার আগে আপনাকে দোদুল্যমান হতে বাধা দেয় ।
গত তিন বছরে, আইশি টেকনোলজি এই পথে ভেঙে পড়েনি। এটা বলা কঠিন যে এর একটি সর্বজ্ঞ দৃষ্টিভঙ্গি রয়েছে যা শেষ বিন্দুর পূর্বাভাস দিয়েছে। বরং, প্রতিটি পদক্ষেপের সাথে, পরবর্তী পদক্ষেপের দিক স্বাভাবিকভাবেই পূর্ববর্তী পদক্ষেপের প্রযুক্তিগত বাস্তবতা থেকে বৃদ্ধি পায়।
ভিডিও দেখার মতো কন্টেন্ট থেকে স্পর্শ করার মতো জগতে রূপান্তরিত হচ্ছে। অতএব, এই ৩০০ মিলিয়ন ডলারের বাজি কেবল এআই ভিডিওর ভবিষ্যৎ সম্পর্কে নয়, বরং সেই যুগ সম্পর্কে যেখানে "সবকিছুই ইন্টারেক্টিভ হতে পারে"।
#iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট অনুসরণ করতে আপনাকে স্বাগতম: iFanr (WeChat ID: ifanr), যেখানে যত তাড়াতাড়ি সম্ভব আরও উত্তেজনাপূর্ণ কন্টেন্ট আপনার কাছে উপস্থাপন করা হবে।
