দার্শনিক অ্যান্ডি ক্লার্ক "দ্য ন্যাচারাল সাইবোর্গ"-এ প্রস্তাব করেছিলেন যে মানুষ এবং প্রযুক্তির মধ্যে সম্পর্ক "উপকরণ ব্যবহার করা" থেকে "সিম্বিওটিক বিবর্তনে" পরিবর্তিত হচ্ছে।
ডিজিটাল মানব প্রযুক্তি এই প্রক্রিয়াটিকে ত্বরান্বিত করছে: আপনার অনুপস্থিতিতে, আপনার চিত্র এবং ভয়েস দ্বারা তৈরি ডিজিটাল মানুষ দিনে 24 ঘন্টা যোগাযোগ এবং প্রকাশ করতে পারে। এই সময়ে, "মানুষ" এর অস্তিত্ব নতুনভাবে সংজ্ঞায়িত করা হয়েছে।
এই অ্যাঙ্করদের কণ্ঠস্বর উত্সাহী এবং তারা পণ্যগুলি সম্পর্কে মসৃণ এবং স্পষ্টভাবে কথা বলে। আপনি যদি এই নিখুঁত মুখগুলি এবং পরিবর্তনযোগ্য অভিব্যক্তি এবং টোনগুলি সাবধানতার সাথে বিবেচনা করেন তবে সমগ্র লাইভ সম্প্রচার দেখার পরে এটি উপলব্ধি করা কঠিন হতে পারে যে এরা প্রকৃত মানুষ নয়, AI দ্বারা চালিত ডিজিটাল মানব অ্যাঙ্কর।
ডেটা দেখায় যে ভার্চুয়াল ডিজিটাল মানুষ ডিজিটাল মানব অ্যাপ্লিকেশন বাজারের 22.7% দখল করেছে, ই-কমার্স লাইভ স্ট্রিমিংয়ের ক্ষেত্রে প্রথম স্থানে রয়েছে এবং তাদের ইন্টারঅ্যাক্টিভিটি এবং বিশ্বস্ততা ক্রমাগত উন্নতি করছে।
আজ, Baidu Create2025 Baidu AI ডেভেলপার কনফারেন্সে Huiboxing ডিজিটাল মানুষের একটি নতুন প্রজন্ম প্রকাশ করেছে৷ Baidu প্রতিষ্ঠাতা রবিন লিও প্রথমবারের মতো অত্যন্ত প্ররোচিত ডিজিটাল মানুষের ধারণার প্রস্তাব করেছিলেন।
ডিজিটাল মানব নোঙ্গররা শেষ পর্যন্ত আর "কঠোর পুতুল" নেই যা তারা একসময় ছিল, কিন্তু রবিন লি যা বলেছিলেন তার দিকে এগিয়ে গিয়ে একটি নতুন সংস্করণ খুলেছে, "প্রত্যেকই একটি বিপণন দল।"
এআই অ্যাঙ্কর অবশেষে "অভিনয়" শিখলেন
"বাস্তব মানুষের সাথে তুলনীয়" মনে হচ্ছে এটি এমন কিছু যা সমস্ত ডিজিটাল লোকেরা করে – তবে কেবলমাত্র কেসগুলি দেখে আপনি এটির "প্ররোচনা" অনুভব করতে পারেন।
উচ্চ বিশ্বস্ততা আশ্চর্যজনক নয়। সত্যিই আশ্চর্যের বিষয় হল যে এতগুলি নড়াচড়া, অভিব্যক্তি এবং বিভিন্ন প্রশ্নের উত্তরের সাথে যেগুলির যে কোনও সময় উত্তর দেওয়া দরকার, ডিজিটাল লোকেরা সেগুলিকে মসৃণভাবে এবং কোনও বাধা ছাড়াই সম্পূর্ণ করতে পারে – ত্বকের যত্নের পণ্যগুলি টুপির ফোঁটায় মুছে ফেলা যেতে পারে, এবং একটি হাতের স্পর্শে প্রদর্শন করা যেতে পারে।
এই সিরিজের কর্মের পিছনে একটি নকশা আছে। এবার হুইবক্সিং স্ক্রিপ্ট মোড থেকে স্ক্রিপ্ট মোডে আপগ্রেড হয়েছে। বিস্তারিত স্ক্রিপ্ট শুধুমাত্র অক্ষরগুলি কী বলে তা নির্দেশ করে না, তবে দৃশ্য, আবেগ, সুর, ক্রিয়া ইত্যাদি ডিজাইন করে৷ এটি ডিজিটাল মানুষের স্বর, অভিব্যক্তি এবং আন্দোলনগুলিকে অত্যন্ত সমন্বিত এবং একীভূত করতে চালিত করে, যাতে ডিজিটাল মানুষ সহজে এবং সাবলীলভাবে বিষয়বস্তুকে একত্রিত করতে পারে এবং একসঙ্গে ক্রিয়া করতে পারে৷
স্ক্রিপ্ট মোডের উপলব্ধি ডিজিটাল লোকেদের "সিদ্ধান্ত গ্রহণের ক্ষমতা" দ্বারা সমর্থিত। অন্য কথায়, আজকের ডিজিটাল মানুষ আর বাস্তব অ্যাঙ্করদের চিত্র এবং ভয়েসের প্রতিলিপি করে না, বরং তাদের ক্ষমতার একটি সিরিজও রয়েছে। উদাহরণস্বরূপ, লাইভ ব্রডকাস্ট রুমের পরিবেশের উপর ভিত্তি করে, আপনি সংকেতগুলি অনুভব করতে পারেন এবং চিন্তাভাবনা এবং সিদ্ধান্ত নিতে পারেন, সেইসাথে পরবর্তী পদক্ষেপটি বাস্তবায়ন করার ক্ষমতা।
এই ক্ষমতা "অত্যন্ত প্ররোচিত" ডিজিটাল লোকেদের চাবিকাঠি। লাইভ সম্প্রচারে ডিজিটাল মানুষের প্রয়োগ নিজেই অস্বাভাবিক নয়। এটি AI এর প্রকৃত বাস্তবায়নে একটি সাধারণ প্রয়োগের দিকও। ডিজিটাল অ্যাঙ্করগুলি ইতিমধ্যেই প্রধান ই-কমার্স প্ল্যাটফর্মগুলিতে উপস্থিত হয়েছে। কিন্তু সেই সময়ে, ডিজিটাল লোকেদের "প্লাস্টিক নয়" এবং "নাটকীয় নয়" দেখানোর জন্য, আমি ইতিমধ্যে আমার যথাসাধ্য চেষ্টা করেছি।
আজকাল, অ্যাপ্লিকেশনগুলি যত বেশি সাধারণ হয়ে উঠছে, ডিজিটাল লোকেরা আরও বেশি "ভলিউম" হয়ে উঠছে। মাল্টি-মডেল প্রযুক্তির উপর ভিত্তি করে ব্যবহারকারীদের জন্য ডিজিটাল মানুষ তৈরি করতে সাধারণত পাঠ্য, স্বর, দৃষ্টি, আন্দোলন এবং এমনকি আবেগ উপলব্ধির মতো একাধিক পদ্ধতির একীকরণের প্রয়োজন হয়, যার ফলে জটিল প্রযুক্তিগত লিঙ্ক তৈরি হয়। এটি ক্রস-মডাল ফিউশন এবং সহযোগিতা, প্রাকৃতিক ভাষা বোঝা এবং প্রজন্ম, গতি ক্যাপচার এবং জেনারেশন, সেইসাথে রিয়েল-টাইম মিথস্ক্রিয়া এবং বিলম্ব অপ্টিমাইজেশন জড়িত।
Wenxin 4.5 টার্বোর উপর ভিত্তি করে, Huiboxing ডিজিটাল মানুষ অতীতে "প্রথম নজরে নকল" এর বিব্রতকর অবস্থা থেকে মুক্তি পেয়েছে। বাস্তববাদের পরিবর্তন এবং উন্নতিগুলি এরই অংশ – যা সত্যই সিদ্ধান্তমূলক তা হল স্বাধীনভাবে চিন্তা করার এবং সিদ্ধান্ত নেওয়ার ক্ষমতা, সেইসাথে এর মাল্টি-এজেন্ট সময়সূচী করার ক্ষমতা।
এই ক্ষমতাগুলি সত্যিই বণিকের অভিজ্ঞতা নির্ধারণ করে এবং তাদের পিছনে প্রযুক্তিগত শক্তি পরীক্ষা করে।
আপনি যখন Huiboxing দ্বারা সমর্থিত একটি লাইভ ব্রডকাস্ট রুম খোলেন, তখন আপনি দেখতে পাবেন হোস্ট স্বাভাবিকভাবেই তার মাথা ঘুরিয়ে, পণ্যটি তুলবে, 360 ডিগ্রিতে বিশদ প্রদর্শন করবে এবং এমনকি অঙ্গভঙ্গি এবং অভিব্যক্তিও সঠিক। এই হাইপার-রিয়ালিস্টিক প্রভাব আপনাকে অবাক করার জন্য যথেষ্ট: "এটি কি সত্যিই এআই?"
এটি হল "উচ্চ প্ররোচনা" এর Baidu-এর সংজ্ঞা: ব্যবহারকারীর অভিজ্ঞতা এবং লাইভ সম্প্রচার পরিস্থিতির পরিপ্রেক্ষিতে, ডিজিটাল লোকেরা ইতিমধ্যেই বাস্তব মানুষের সাথে তুলনীয় অভিব্যক্তি অর্জন করতে পারে, এবং এমনকি কিছু পরিস্থিতিতে রূপান্তর হার বাস্তব মানুষকে ছাড়িয়ে যেতে পারে।
একটি মোবাইল ফোন আপনাকে একটি "অ্যাঙ্কর ফ্যাক্টরিতে" পরিণত করে
ই-কমার্স লাইভ ব্রডকাস্ট ইন্ডাস্ট্রিতে দক্ষ এবং কম খরচে অপারেটিং মডেলের চাহিদা থেকে ডিজিটাল হিউম্যান অ্যাঙ্করগুলির উত্থান ঘটে। প্রথাগত মানব নোঙ্গররা উচ্চ শ্রম খরচ এবং সীমিত কাজের সময়গুলির সম্মুখীন হয়, যখন ডিজিটাল মানব নোঙ্গরগুলি 24-ঘন্টা নিরবচ্ছিন্ন লাইভ সম্প্রচার অর্জন করতে পারে, যা অপারেশনাল দক্ষতাকে ব্যাপকভাবে উন্নত করে এবং খরচ হ্রাস এবং দক্ষতার উন্নতি অর্জন করে।
এখানে উল্লিখিত "খরচ হ্রাস" এর অর্থ শুধুমাত্র অ্যাঙ্কর এবং সহকারী সম্প্রচারকদের শ্রম খরচ সংরক্ষণ করা যায় না, তবে সেটআপ এবং পরীক্ষার মতো শেখার খরচের একটি সিরিজও অন্তর্ভুক্ত।
অন্য কথায়, প্ল্যাটফর্ম এবং প্রযুক্তি কোম্পানিগুলি মাল্টি-মডেল প্রযুক্তি পোলিশ করার জন্য কঠোর পরিশ্রম করেছে, তবে ব্যবহারকারীদের বিভিন্ন ক্রিয়াকলাপ এবং ব্যবহারগুলি শেখার এবং গবেষণা করার জন্য প্রচেষ্টা ব্যয় করতে হবে। যখন প্রক্রিয়াটি খুব কষ্টকর হয়, এটি বেশ বিরক্তিকর।
এইবার, Baidu-এর সর্বশেষ মোবাইল সংস্করণটি লাইভ সম্প্রচার শিল্পের সবচেয়ে ব্যবহারিক উদ্ভাবনগুলির মধ্যে একটি হতে পারে: "এক-ক্লিক সম্প্রচার শুরু" ফাংশন দিয়ে সজ্জিত৷
যতক্ষণ না আপনি আপনার মোবাইল ফোন নম্বর দিয়ে নিবন্ধন করেন এবং 2 মিনিটের একটি ভিডিও আপলোড করেন, যে কেউ তাদের মোবাইল ফোনে এক ক্লিকে তাদের নিজস্ব ডিজিটাল লাইভ সম্প্রচার শুরু করতে পারে।
যাইহোক, এই মাত্র শুরু বিন্দু. অ্যাঙ্কর ইমেজের ভয়েস থাকার পরে, লাইভ ব্রডকাস্ট রুমের পরিবেশও রয়েছে, বিশেষ করে বিভিন্ন ধরণের পণ্যের জন্য বিভিন্ন স্ক্রিপ্ট এবং উপকরণ… এগুলি হল "থ্রেশহোল্ড"।
"এক-ক্লিক সম্প্রচার" সত্যিই এক-ক্লিক। Baidu অ্যাপের মাধ্যমে Huiboxing খোঁজার পর, আপনি সরাসরি চারটি প্রিসেট স্ক্রিপ্টের ধরন দেখতে পাবেন। অবশ্যই, আপনি আপনার নিজের লিখতে পারেন. এই প্রিসেট স্ক্রিপ্ট সেরা রেফারেন্স.
কল্পনা করুন যে একজন গয়না বিক্রেতা একই সময়ে 10টি লাইভ সম্প্রচার কক্ষে একই পণ্য প্রবর্তন করতে বিভিন্ন শৈলী ব্যবহার করে – রত্ন জ্ঞান ব্যাখ্যা করার জন্য একটি বৈজ্ঞানিক শৈলী ব্যবহার করে, গহনার ব্র্যান্ডের পিছনে গল্প বলার জন্য একটি সাহিত্য শৈলী ব্যবহার করে, ব্যবহারকারীদের ব্যথার পয়েন্টগুলিকে সরাসরি আঘাত করার জন্য একটি বিক্রয় শৈলী ব্যবহার করে এবং সরাসরি মূল্য ছাড়ের প্রস্তাব দেয়৷
অ্যাঙ্করের ব্যক্তিত্বের উপর ভিত্তি করে স্ক্রিপ্টগুলি কাস্টমাইজ করা এবং অ্যাঙ্করের শৈলীকে শক্তিশালী করা হল Huiboxing-এর শক্তি, যার মধ্যে রয়েছে Wenxin 4.0, Wenxin 4.5, এবং DS-R1 মডেল। গভীরভাবে এবং সহজ ব্যাখ্যার মাধ্যমে, বিষয়বস্তুর জনপ্রিয়তা উন্নত করা হয়, ব্যবহারকারীরা বেশিক্ষণ থাকে এবং লাইভ ব্রডকাস্ট রুমে রূপান্তরগুলি দীর্ঘায়িত হয়, এবং এমনকি ইন্টারনেটে হট স্পটগুলিকে রিয়েল টাইমে ট্র্যাক করা যেতে পারে, এবং বর্তমান আলোচিত বিষয়গুলিকে পণ্যের ব্যাখ্যাগুলিতে একত্রিত করা যেতে পারে৷
ন্যায্যভাবে বলতে গেলে, যদিও অ্যাঙ্করগুলি সর্বত্র দেখা যায়, তবে প্রতিটি অ্যাঙ্করের অভিব্যক্তি ভিন্ন, যা তার জ্ঞানের স্তর এবং ভাষার প্রকাশের স্তর দ্বারা সীমাবদ্ধ। ডিজিটাল মানুষ আর এই অবস্থার দ্বারা সীমাবদ্ধ নয়। তাদের জ্ঞানের ভাণ্ডার সীমাহীন হতে পারে, এবং তাদের অভিব্যক্তিপূর্ণ ক্ষমতা নির্দিষ্ট পরিস্থিতি অনুযায়ী নমনীয়ভাবে পরিবর্তিত হতে পারে।
একটি "পাল্টা স্বজ্ঞাত" পরিস্থিতি হল যে কিছু স্বাস্থ্য এবং সুস্থতা পণ্য ব্যবসায়ীরা ডিজিটাল মানুষ ব্যবহার করতে পছন্দ করে। পিং জিয়াওলি, Baidu এর ভাইস প্রেসিডেন্ট এবং Baidu ই-কমার্সের জেনারেল ম্যানেজার, উল্লেখ করেছেন যে নিষিদ্ধ শব্দগুলি উপস্থিত হতে পারে কারণ লাইভ অ্যাঙ্করগুলি জিহ্বাকে স্লিপ করতে পারে৷ ডিজিটাল মানুষ অপ্টিমাইজেশানের ভিত্তিতে সুনির্দিষ্ট নিয়ন্ত্রণ অর্জন করতে পারে। কিছু উল্লম্ব বিষয়বস্তু একটি জ্ঞান ভিত্তি প্রবর্তন দ্বারা সমাধান করা যেতে পারে.
সংশ্লিষ্ট পরিবেশ কনফিগার করা, স্ক্রিপ্ট তৈরি করা, এবং পণ্য এবং দৃশ্য অনুসারে সম্প্রচার পদ্ধতিকে নমনীয়ভাবে সামঞ্জস্য করা লাইভ সম্প্রচারের জন্য থ্রেশহোল্ডকে সত্যই এবং কার্যকরভাবে কমিয়ে দিতে পারে। এটি জ্ঞান জনপ্রিয়করণ, জীবন ভাগ করে নেওয়া বা মানসিক পরামর্শ হোক না কেন, এটি পুরোপুরি অভিযোজিত হতে পারে। প্রতিটি ব্যবহারকারী "ভিডিও" থেকে "অ্যাঙ্কর ক্লোন" এ একটি চমত্কার রূপান্তর অর্জন করতে পারে। এটি প্রযুক্তিগত উদ্ভাবনের দ্বারা আনা সবচেয়ে প্রত্যক্ষ এবং স্পষ্ট মান এবং তাত্পর্য।
লাইভ সম্প্রচার, মাল্টি-মডেল এআই বাস্তবায়নের জন্য সেরা দৃশ্যকল্প
সর্বশেষ IDC রিপোর্ট দেখায় যে Baidu Huiboxing ই-কমার্স লাইভ সম্প্রচার ডিজিটাল লোকেদের ক্ষেত্রে ব্যাপক শক্তির দিক থেকে প্রথম স্থানে রয়েছে৷ এটা কোনো দুর্ঘটনা নয়—লাইভ স্ট্রিমিং ই-কমার্স হল মাল্টি-মডেল এআই প্রযুক্তির জন্য আদর্শ বাস্তবায়নের দৃশ্য। এখানে, ভিজ্যুয়াল, শ্রবণ এবং ইন্টারেক্টিভ অভিজ্ঞতাগুলি পুরোপুরি একত্রিত করা হয়েছে এবং এআই প্রযুক্তির একাধিক সুবিধা সম্পূর্ণরূপে ব্যবহার করা হয়েছে।
লাইভ সম্প্রচার শিল্পের জন্য, যা ইতিমধ্যেই বেশ প্রতিযোগিতামূলক, ডিজিটাল মানব প্রযুক্তি তিনটি বড় পরিবর্তন এনেছে:
1. স্কেলে ব্রেকথ্রু
গত বছরে, Huiboxing-এর ডিজিটাল অ্যাঙ্করগুলি 100,000 ছাড়িয়েছে, যা বণিকদের তাদের গড় রূপান্তর হার 31% বৃদ্ধি করতে এবং লঞ্চের খরচ 80% কমাতে সাহায্য করেছে৷ যদি এটি Baidu সাইটে থাকে, প্ল্যাটফর্ম দ্বারা প্রদত্ত সমর্থন সহ, এটি প্রায় কোনও খরচ ছাড়াই চালু করা যেতে পারে৷
2. মানব-মেশিন সহযোগিতার একটি নতুন মডেল।
ডিজিটাল ব্যক্তিরা কেবল প্রকৃত অ্যাঙ্করগুলিকে প্রতিস্থাপন করে না, তবে আসল অ্যাঙ্কর কাজকে ভেঙে দিতে পারে এবং মূল প্রক্রিয়াগুলিকে একীভূত করতে পারে। প্রথাগত লাইভ সম্প্রচারে, অপারেটর এবং অ্যাঙ্করদের সহযোগিতা করতে হবে, সেইসাথে সম্প্রচার সহকারী, ফিল্ড কন্ট্রোলার, ইত্যাদি। ডিজিটাল ব্যক্তিরা এই ভূমিকাগুলি একসাথে ফিট করার সমতুল্য, যা ছোট এবং ক্ষুদ্র ব্যবসার জন্য বেশি বন্ধুত্বপূর্ণ হতে পারে না।
3. অপেশাদারদের কাছে যান
তিন-চার ঘণ্টা ক্যামেরার সঙ্গে কথা বলা সবাই ভালো নয়। যাইহোক, ডিজিটাল মানুষের প্রযুক্তি আরও অপেশাদারদের AI দ্বারা আনা সুবিধাগুলি পেতে সাহায্য করেছে। এটি এখন আর "ভিডিও নির্মাতাদের" মধ্যে সীমাবদ্ধ নয়, তবে এর নিজস্ব "অ্যাঙ্কর অবতার" রয়েছে। সাধারণ মানুষও তাদের নিজস্ব 24 ঘন্টা নিরবচ্ছিন্ন জীবন উপলব্ধি করতে পারে এবং তাদের নিজস্ব লাইভ সম্প্রচার চালাতে পারে।
মাল্টি-মডেল এআই প্রযুক্তির অনেকগুলি প্রয়োগের পরিস্থিতির মধ্যে, লাইভ সম্প্রচার এমন একটি ক্ষেত্র হতে পারে যা প্রযুক্তির বাণিজ্যিক মূল্যকে সর্বোত্তমভাবে প্রতিফলিত করে। সর্বোপরি, অন্য কোন দৃশ্যকল্প একই সাথে চাক্ষুষ বিশ্বস্ততা, স্বাভাবিক কণ্ঠস্বর, রিয়েল-টাইম মিথস্ক্রিয়া এবং বিষয়বস্তু তৈরিতে এত উচ্চ চাহিদা রাখতে পারে না।
এটি এটিও প্রতিফলিত করে যে Baidu Huiboxing-এর সবচেয়ে বড় হাইলাইট হল যে এটি শুধুমাত্র "মানুষের মতো দেখতে" সমস্যার সমাধান করে না, কিন্তু ডিজিটাল মানুষকে "চিন্তা" এবং "সহযোগিতা" করার ক্ষমতাও দেয়। এর মানে হল যে AI শুধুমাত্র মানুষের অনুকরণ করে না, কিন্তু একটি বুদ্ধিমান এজেন্ট হয়ে ওঠে যা লাইভ সম্প্রচারের পরিস্থিতিতে বিভিন্ন পরিস্থিতিতে স্বাধীনভাবে প্রতিক্রিয়া জানাতে পারে।
এর পরে, লাইভ সম্প্রচার ব্যবহারকারীরা একটি বিঘ্নিত ইন্টারেক্টিভ বিপ্লবের মুখোমুখি হতে চলেছে। উচ্চ প্ররোচনা সহ ডিজিটাল মানুষ স্বয়ংক্রিয়ভাবে প্রতিক্রিয়া জানাতে পারে, লাইভ সম্প্রচার কক্ষের বায়ুমণ্ডল অনুযায়ী ভিডিও উপকরণগুলিকে সামঞ্জস্য করতে পারে এবং এমনকি প্রকৃত লোকেদের সাথে ওয়ার্ম-আপ মিথস্ক্রিয়া অনুকরণ করতে পারে। এই বুদ্ধিমান অভিজ্ঞতা লাইভ সম্প্রচারের জন্য ভোক্তাদের প্রত্যাশাকে নতুন আকার দিচ্ছে।
অনুশীলনকারীদের জন্য, এআই সহায়তা পেশাদারদের মূল মান তৈরিতে ফোকাস করতে দেয়। অপেশাদার যারা এখনও দেখার জন্য অপেক্ষা করছেন, যখন প্রযুক্তি আর কিছু শীর্ষস্থানীয় অ্যাঙ্করের মধ্যে সীমাবদ্ধ থাকে না, কিন্তু এমন একটি হাতিয়ার হয়ে ওঠে যা প্রত্যেকে আয়ত্ত করতে পারে, Baidu যা প্রচার করছে তা হল বিষয়বস্তু তৈরি এবং বাণিজ্যিক অভিব্যক্তিতে একটি গণতান্ত্রিক বিপ্লব৷
# aifaner এর অফিসিয়াল WeChat পাবলিক অ্যাকাউন্ট অনুসরণ করতে স্বাগতম: aifaner (WeChat ID: ifanr)। যত তাড়াতাড়ি সম্ভব আপনাকে আরও উত্তেজনাপূর্ণ সামগ্রী সরবরাহ করা হবে।