
এই সপ্তাহে চীনের বৃহৎ মোবাইল ফোন বাজারের আপডেটগুলো ছিল চমকপ্রদ। আলিবাবার সবচেয়ে শক্তিশালী ফ্ল্যাগশিপ, কুইন ৩.৬ ম্যাক্স, এইমাত্র বাজারে এসেছে এবং এর পরপরই এসেছে কিমি ২.৬, সাথে ডিপসিক ভি৪-ও বাজারে আসার অপেক্ষায় রয়েছে।
এইমাত্র হুনুয়ানের Hy3 প্রিভিউ আনুষ্ঠানিকভাবে উন্মোচন করা হলো। এই মডেলটির নেতৃত্বে রয়েছেন টেনসেন্টের প্রধান এআই বিজ্ঞানী ইয়াও শুনইউ।
ইয়াও শুনিয়ু বলেছেন যে, Hy3 প্রিভিউ হলো মিশ্র-উপাদানের বৃহৎ মডেলের পুনর্গঠনের প্রথম ধাপ। তিনি আশা করেন যে, এই ওপেন-সোর্স রিলিজের মাধ্যমে আনুষ্ঠানিক Hy3 সংস্করণের কার্যকারিতা এবং বাস্তব পরিস্থিতিতে মডেলটির সামগ্রিক পারফরম্যান্স ক্রমাগত উন্নত হবে এবং অনন্য মডেলগুলোর সক্ষমতা অন্বেষণ শুরু হবে। 
ইয়াও শুনিয়ু গত বছরের শেষে টেনসেন্টে চিফ এআই সায়েন্টিস্ট হিসেবে যোগদান করেন এবং তিনি এআই ইনফ্রাস্ট্রাকচার ও বৃহৎ ল্যাঙ্গুয়েজ মডেলের দায়িত্বে আছেন। জানুয়ারির শেষে মডেল প্রশিক্ষণ শুরু হয় এবং প্রশিক্ষণ থেকে ডেপ্লয়মেন্ট পর্যন্ত প্রক্রিয়াটি তিন মাসে সম্পন্ন হয়েছিল।
হাইব্রিড মডেলের এই প্রধান আপগ্রেডটি স্বল্প সময়ের মধ্যে কেবল অন্তর্নিহিত অবকাঠামোকেই পদ্ধতিগতভাবে পুনর্নির্মাণ করেনি, বরং প্রি-ট্রেনিং এবং রিইনফোর্সমেন্ট লার্নিং সহ অন্তর্নিহিত কাঠামোটিকেও সম্পূর্ণরূপে ঢেলে সাজিয়েছে।
চূড়ান্ত ফলাফল হলো একটি MoE (হাইব্রিড এক্সপার্ট) ল্যাঙ্গুয়েজ মডেল, যা দ্রুত ও ধীর চিন্তার সমন্বয় ঘটায় এবং এতে মোট ২৯৫ বাইট প্যারামিটার, ২১ বাইট অ্যাক্টিভেশন প্যারামিটার ও সর্বোচ্চ ২৫৬ কিলোবাইট কনটেক্সট লেংথ সাপোর্ট রয়েছে।
এমন একটি শিল্পে যেখানে প্রায়শই ট্রিলিয়ন (১ ট্রিলিয়ন+) প্যারামিটারের কথা বলা হয়, সেখানে Hy3 প্রিভিউ-এর ডেটা কিছুটা সংযত বলে মনে হয়। তবে, এই প্যারামিটারটি পারফরম্যান্স এবং খরচের মধ্যে একটি স্পষ্ট ভারসাম্য তুলে ধরে, যা মডেলটিকে বিভিন্ন পরিস্থিতিতে আরও ভালোভাবে প্রয়োগ করার সুযোগ করে দেয়।
৩০০ বাইট স্তরে, জটিল গাণিতিক যুক্তি, দীর্ঘ প্রেক্ষাপট অনুধাবন এবং নির্দেশনা অনুসরণের ক্ষমতা সম্পূর্ণরূপে সক্রিয় হয়েছে। যদি এই পরিসরকে জোর করে ট্রিলিয়ন প্যারামিটারে প্রসারিত করা হয়, তাহলে একদিকে যেমন প্রশিক্ষণের সময় দ্বিগুণ হবে, তেমনি প্রকৃত পারফরম্যান্সের ক্ষেত্রে কমিউনিকেশন ল্যাটেন্সি, থ্রুপুট বটলনেক এবং ইনফারেন্স খরচ দ্বিগুণ হওয়ার মতো সমস্যা দেখা দেওয়ার সম্ভাবনা রয়েছে।
তবে, ইয়াও শুনিয়ু এও উল্লেখ করেছেন যে, মডেলের বুদ্ধিমত্তার সর্বোচ্চ সীমা উন্নত করার জন্য তারা প্রি-ট্রেনিং এবং রিইনফোর্সমেন্ট লার্নিং-এর পরিধি প্রসারিত করে চলেছেন।
এর পূর্বসূরীর তুলনায়, একাধিক বাস্তব-জগতের প্রোডাকশন ও লাইফ বেঞ্চমার্কের পাশাপাশি টেনসেন্ট হুনুয়ানের সিএল-বেঞ্চে এর পারফরম্যান্সে উল্লেখযোগ্য উন্নতি দেখা গেছে।
সুতরাং, Hy3 প্রিভিউটির একটি অত্যন্ত সুস্পষ্ট উদ্দেশ্য রয়েছে: বাস্তব জগতের জটিল প্রকৌশলগত সমস্যার সমাধান করা।
Hy3 প্রিভিউ বাস্তব জগতের বিভিন্ন সমস্যা সমাধান করতে পারে কিনা এবং নির্দিষ্ট মডেলগুলো কতটা ভালো কাজ করে, তা যাচাই করার জন্য APPSO আগে থেকেই বিটা টেস্টিংয়ের যোগ্যতা অর্জন করে এবং একটি নির্দিষ্ট সময়ের জন্য Yuanbao App ও WorkBuddy ডেস্কটপ প্ল্যাটফর্মে বাস্তব পরীক্ষা চালায়।
প্রোগ্রামিং ও এজেন্ট: হুনুয়ান বাস্তব জগতের প্রকৌশল চাহিদা মেটাতে শুরু করেছে
বৃহৎ আকারের মডেল তৈরি করে এমন বিভিন্ন কোম্পানির জন্য প্রোগ্রামিং দক্ষতা একটি প্রধান কেন্দ্রবিন্দু হিসেবে রয়ে গেছে। মাত্র কিছুদিন আগে বিদেশি গণমাধ্যম জানিয়েছে যে, গুগল এআই কোডিংয়ের জন্য একটি নতুন দল গঠন করছে।
টেনসেন্টের নতুন প্রজন্মের Hy3 মডেলের এই প্রিভিউটি এর সাধারণ সক্ষমতাগুলোকেও উন্নত করে, ফলে এটি প্রোগ্রামিং এবং বর্তমানে জনপ্রিয় ইন্টেলিজেন্ট এজেন্ট সিনারিওগুলোর জন্য প্রযোজ্য হয়ে ওঠে।
উদাহরণস্বরূপ, Hy3 প্রিভিউ-এর নির্দিষ্ট পারফরম্যান্স দেখার জন্য চলুন GPT 5.4 মডেলটি প্রকাশের সময় ব্যবহৃত প্রোগ্রামিং টেস্ট কেসগুলো ব্যবহার করি।

▲ইঙ্গিত: সান ফ্রান্সিসকোর গোল্ডেন গেট ব্রিজের একটি হাইপার-রিয়ালিস্টিক ইন্টারেক্টিভ 3D অভিজ্ঞতা তৈরি করুন, যা আমাকে এর চারপাশে অবাধে উড়তে এবং চক্কর দিতে দেবে। পরিবেশে অবশ্যই বাস্তবসম্মত আলো, জল, কুয়াশা, বায়ুমণ্ডলীয় প্রভাব, ঝুলন্ত সেতু, যানবাহনের চলাচল, চারপাশের উপকূলরেখা এবং শহুরে পটভূমি থাকতে হবে, যা সিনেমাটিক স্কেল এবং বিশদ বিবরণে পরিপূর্ণ হবে। এটি আমাকে স্বজ্ঞাত ফ্লাইট কন্ট্রোল এবং একাধিক দৃষ্টিকোণের (ক্লোজ-আপ স্ট্রাকচারাল ভিউ এবং ওয়াইড-অ্যাঙ্গেল ভিউ সহ) মাধ্যমে দৃশ্যটিতে মসৃণভাবে চলাচল করার সুযোগ দেবে। মূল প্রয়োজনীয়তাগুলো হলো বাস্তবতা, নিমগ্নতা এবং ভিজ্যুয়াল বিশ্বস্ততা। পরীক্ষার সময়, নেভিগেশনের মসৃণতা এবং স্থিতিশীলতা যাচাই করার জন্য একাধিক দূরত্ব এবং কোণ থেকে সেতুর চারপাশে উড়তে ভুলবেন না এবং নিশ্চিত করুন যে দূরত্ব নির্বিশেষে দৃশ্যটি বিশ্বাসযোগ্য। মডেলিংয়ের জন্য প্রয়োজনীয় প্রাথমিক অ্যাসেট তৈরি করতে আপনি ইমেজজেন স্কিল ব্যবহার করতে পারেন। ভিজ্যুয়াল ইফেক্টগুলোতে কোনো "ব্লকি" বা "সস্তা" ভাব থাকা চলবে না; সেগুলোকে অবশ্যই উচ্চ বিশ্বস্ততা, চরম মসৃণতা এবং প্রায়-ফটোগ্রাফিক গুণমান অর্জন করতে হবে। সেতুর পৃষ্ঠে বাস্তবসম্মত যানবাহন উপস্থিত থাকতে হবে। তাড়াহুড়ো করবেন না; প্রয়োজনে এক ঘণ্টাও গ্রহণযোগ্য। নিখুঁত না হওয়া পর্যন্ত ক্রমাগত পুনরাবৃত্তি করুন।
যদিও ব্যবহৃত সরঞ্জামগুলোর সীমাবদ্ধতার কারণে চূড়ান্ত ফলাফলটি পুরোপুরি বাস্তবসম্মত ছিল না, তবুও সামগ্রিক অভিজ্ঞতাটি ছিল বেশ মসৃণ ও সাবলীল। আমরা WASD কীগুলো ব্যবহার করে আমাদের ফার্স্ট-পার্সন পার্সপেক্টিভ ফ্লাইট নিয়ন্ত্রণ করতে পারতাম এবং Hy3 প্রিভিউটিও স্বয়ংক্রিয়ভাবে কিছু ডিফল্ট ভিউপয়েন্ট তৈরি করে দিত।
যখন একই GPT-5.4-এর নির্দেশিকা ব্যবহার করে একটি বিনোদন পার্ক পরিচালনার মতো কিছু সাধারণ গেম, যেমন একটি মিনি-গেম, লিখতে বলা হয়।

▲মূলশব্দ: একটি ইন্টারেক্টিভ আইসোমেট্রিক থিম পার্ক সিমুলেশন গেম তৈরি করুন যা ব্রাউজারে তৈরি এবং নেভিগেট করা যাবে। সামগ্রিক ভিজ্যুয়াল স্টাইল নির্ধারণ করতে এবং রাইড, পথ, ভূখণ্ড, গাছ, জলাশয়, খাবারের দোকান, সজ্জা, ভবন, আইকন এবং UI ইলাস্ট্রেশন সহ গেমের অ্যাসেটের একটি সম্পূর্ণ সেট তৈরি করতে ইমেজজেন (imagegen) ব্যবহার করুন। গেমের জগতে উচ্চ মাত্রার ঐক্য, পরিশীলতা এবং সমৃদ্ধ ভিজ্যুয়াল উপস্থাপনা থাকতে হবে; আর্ট স্টাইলটি উচ্চমানের এবং আইসোমেট্রিক দৃষ্টিকোণের সাথে সামঞ্জস্যপূর্ণ হওয়া উচিত। দর্শনার্থীদের কার্যকলাপ, সুবিধার অবস্থা এবং পার্কের উন্নয়ন পর্যবেক্ষণের পাশাপাশি মসৃণভাবে পথ তৈরি ও অপসারণ, আকর্ষণ যোগ করা, ল্যান্ডস্কেপ সাজানো এবং পার্কের চারপাশে চলাচলের সুযোগ থাকতে হবে। সিস্টেমে অবশ্যই একটি নির্ভরযোগ্য দর্শনার্থী চলাচল অ্যালগরিদম এবং একটি সহজ পার্ক ব্যবস্থাপনা সিস্টেম (যেমন তহবিল, পরিচ্ছন্নতা, সারি এবং সন্তুষ্টি) অন্তর্ভুক্ত থাকতে হবে। নিশ্চিত করুন যে সামগ্রিক অভিজ্ঞতাটি একটি অসম্পূর্ণ প্রোটোটাইপের পরিবর্তে মজাদার, যৌক্তিকভাবে স্পষ্ট এবং সম্পূর্ণ হয়। বাস্তবতার চেয়ে মজা, পাঠযোগ্যতা এবং চমৎকার গেমপ্লেকে অগ্রাধিকার দিন। গেমপ্লে পরীক্ষা করার সময়, একাধিক রাউন্ডের গেমপ্লের মাধ্যমে পার্কটি তৈরি এবং প্রসারিত করতে ভুলবেন না। সুবিধাসমূহের অবস্থান ও চলাচলের সাবলীলতা যাচাই করুন, পার্কের বিন্যাস ও আকর্ষণগুলোর প্রতি দর্শনার্থীদের প্রতিক্রিয়া নিশ্চিত করুন এবং ভিজ্যুয়াল এফেক্ট, ইউআই (UI) ও ইন্টারেক্টিভ অভিজ্ঞতা স্থিতিশীল ও সামঞ্জস্যপূর্ণ কিনা তা নিশ্চিত করুন।
এতে অবশ্যম্ভাবীভাবেই 'গ্রেডিয়েন্ট পার্পল' রঙের স্কিমটি ব্যবহার করা হয়েছে। শুধু এটুকুই বলা যায় যে, ইন্টারফেসের নান্দনিকতার দিক থেকে প্রোগ্রামিং দক্ষতা বাড়ানোর পাশাপাশি আরও কিছু সূক্ষ্ম সমন্বয়ের প্রয়োজন রয়েছে।
সৌভাগ্যবশত, গেমটি খেলার যোগ্য। আমরা রাস্তা পাকা করে, নতুন রাইড ও পরিষেবা সুবিধা স্থাপন করে রাজস্ব আয় এবং মানুষের আনাগোনা নিয়ন্ত্রণ করার মাধ্যমে এই বিনোদন পার্কটি বাস্তবসম্মতভাবে পরিচালনা করতে পারি।
চিরাচরিত 'সাইকেলে চড়া পেলিক্যান' পরীক্ষাটিকে আরও কঠিন একটি পরীক্ষা দিয়ে প্রতিস্থাপন করা হয়েছিল: একটি জিরাফ গাড়ি চালাচ্ছে। তৈরি হওয়া SVG ভিজ্যুয়ালগুলো গতিশীল, যেখানে সূর্য, মেঘ এবং গাড়ি সবই চলমান—যা সাধারণ SVG উপাদান ব্যবহার করেই অর্জন করা সম্ভব।

এই প্রোগ্রামিং দক্ষতার পরীক্ষাগুলো সবই টেনসেন্টের সম্প্রতি চালু করা ইন্টেলিজেন্ট এজেন্ট অ্যাপ্লিকেশন ওয়ার্কবাডি-র মধ্যে সম্পন্ন করা হয়েছিল।

কোড ডেভেলপমেন্টের কাজ ছাড়াও, আমরা WorkBuddy ব্যবহার করে দৈনন্দিন অফিসের কাজ, যেমন ডকুমেন্ট প্রসেসিং, ডেটা বিশ্লেষণ ও ভিজ্যুয়ালাইজেশন এবং গভীর গবেষণাও করতে পারি।
যেহেতু WorkBuddy-ও Claude Code এবং Codex-এর মতো একটি লোকাল এজেন্ট প্রোডাক্ট, তাই আমরা এটিকে লোকাল ফোল্ডারের ফাইলগুলো সরাসরি অ্যাক্সেস করার অনুমতি দিতে পারি।
কম্পিউটারের Hy3 ফোল্ডারের সমস্ত ফাইল অ্যাক্সেস করতে হবে এবং ফাইলগুলির বিষয়বস্তুর উপর ভিত্তি করে একটি উইকি-সদৃশ ওয়েবপেজ তৈরি করতে হবে, যা সরাসরি বিভিন্ন ফাইলকে সূচীবদ্ধ করতে পারবে।

ওয়ার্কবাডি আমাদের তৈরি করা বিভিন্ন প্রজেক্ট, যেমন—আমাদেরকে সম্পন্ন করতে বলা ল্যান্ডিং পেজ, থ্রিডি গোল্ডেন গেট ব্রিজ, ব্যক্তিগত ব্লগ এবং গেম অপারেশন প্রজেক্ট—পড়ে সেগুলোকে শ্রেণিবদ্ধ ও সংক্ষিপ্ত করেছে।
হংকং আন্তর্জাতিক চলচ্চিত্র উৎসবের একটি পিডিএফ ফাইলকে এইচটিএমএল-এ রূপান্তর করতে এবং এর চমৎকার ম্যাগাজিন এফেক্টটি হুবহু নকল করতে বলাটা স্পষ্টতই এর কাছে বাড়াবাড়ি। তবে, Hy3 প্রিভিউ তারপরও এই অপ্রচলিত পিডিএফ ফাইলটি থেকে তথ্য নির্ভুলভাবে খুঁজে বের করতে এবং সেগুলোকে একটি ওয়েবপেজে সাজিয়ে তুলতে সক্ষম হয়েছিল।

গভীর গবেষণামূলক কাজের জন্য আমরা তাকে মেমোরি বাজারের অন্তর্দৃষ্টির উপর একটি প্রতিবেদন লিখতে বলেছিলাম। তার দেওয়া নথিটি ছিল বিস্তারিত এবং তিনি যে সমস্ত তথ্য ব্যবহার করেছিলেন তা নির্ভরযোগ্য প্রতিষ্ঠান থেকে সংগৃহীত ছিল।

WorkBuddy-তে ডেটা বিশ্লেষণ এবং ভিজ্যুয়ালাইজেশনের কাজগুলো পরীক্ষা করার সময়, জাতিসংঘের জনসংখ্যা বিভাগের তথ্যের উপর ভিত্তি করে বৈশ্বিক জনসংখ্যা কাঠামোর পরিবর্তনের একটি ভিজ্যুয়ালাইজেশন বিশ্লেষণ করার জন্য Hy3 প্রিভিউ-এর প্রয়োজন হয়েছিল। Hy3 প্রিভিউ দীর্ঘ সময় ধরে গবেষণাটি পরিচালনা করে এবং এর চূড়ান্ত গবেষণা প্রতিবেদনটি সরাসরি ব্যবহার করা যায়।

▲কিছু ভিজ্যুয়াল চার্টের স্ক্রিনশট
WorkBuddy-এর সাথে একত্রিত করলে এই প্রোগ্রামিং এবং ইন্টেলিজেন্ট এজেন্ট সক্ষমতাগুলোর সর্বোচ্চ ব্যবহার করা যায়। Yuanbao অ্যাপের মধ্যে, আমরা এখন ছোট ওয়েব গেমও তৈরি করতে পারি, যা একটি ডায়ালগ বক্সে প্রিভিউ করা এবং খোলা যায়।
সাধারণ কথাবার্তাকে 'বাস্তব' করে তোলা সহজ নয়।
কিছুদিন আগে অনলাইনে একটি ছোট ভিডিও ছড়িয়ে পড়ে। ভিডিওটিতে দেখা যায়, একজন যাত্রী সামনের আসনে বসে থাকা চালককে তার ফোনে একটি এআই সহকারীর সাথে কথা বলতে দেখছেন। তিনি এআই-কে তার দৈনিক আয়ের কথা জানান এবং এআই তাকে কিছু মতামত দেয়।
একজন নেটিজেন মন্তব্য করেছেন যে, আগে মনস্তাত্ত্বিক পরামর্শের জন্য প্রতি ঘণ্টায় ২০০ ইউয়ান খরচ হতো, কিন্তু এখন শুধু একটি টেক্সট মেসেজের মাধ্যমেই তা করা যায়।

কোড ডেভেলপমেন্ট, গাণিতিক সমস্যার সমাধান এবং বৈজ্ঞানিক গবেষণায় মডেলটি কতটা সফল তা নির্বিশেষে, বেশিরভাগ মানুষ মূলত বিভিন্ন ধরণের ভূমিকা-অভিনয়ের পরিস্থিতিতেই এআই ব্যবহার করে।
আমরা দৈনন্দিন চ্যাট এবং সৃজনশীল লেখায় টেনসেন্টের নতুন প্রজন্মের Hy3 মডেলের প্রিভিউটির পারফরম্যান্সও পরীক্ষা করেছি।
সরাসরি ও ভণিতা ছাড়া কথা বলার পরিবর্তে, আমি এমন কিছু শব্দ খুঁজে পেলাম যা সত্যিই আমার প্রয়োজনগুলো পূরণ করে। Yuanbao অ্যাপটি খুলুন, Deep/Quick Thinking-এ ট্যাপ করুন, Hy3 Preview মডেলটি বেছে নিন এবং এটিকে জিজ্ঞাসা করুন, "আমি গুয়াংঝোতে ভালোবাসা খুঁজে পাই না কেন?"
এর প্রতিক্রিয়া বস্তুনিষ্ঠ ও আত্মনিষ্ঠ উভয়ই, যা আমার নিজের কারণ ছাড়াও অন্যান্য কারণ বিশ্লেষণ করে আমাকে বলে দেয় আমার কী করা উচিত।
সুস্পষ্ট কারণ থাকতে পারে এমন কিছু বিভ্রান্তিকর বিষয় নিয়ে আলোচনা করার সময়, Hy3 প্রিভিউ স্বয়ংক্রিয়ভাবে সংশ্লিষ্ট টেবিল তৈরি করে ব্যাখ্যা করবে যে AI শুধু অন্ধভাবে নির্দেশ পালন করে না।
সৃজনশীল লেখার কাজে, সাহিত্যিক শৈলী এবং নিজস্বতার দিক থেকে Hy3 প্রিভিউ মডেলটি তার পূর্বসূরীর চেয়ে ভালো কাজ করে। এমনকি সাধারণ দৈনন্দিন লেখাতেও মানবিক স্পর্শ আরও বেশি স্পষ্ট।
আমরা শৈলী অনুকরণ, আখ্যানের ছন্দ বজায় রাখা, ভাষার সৃজনশীলতা এবং আবেগীয় উত্তেজনার মতো কিছু মৌলিক কাজের মাধ্যমে এটি পরীক্ষা করেছি।
মৌলিকতা, সম্পাদনের নির্ভুলতা এবং শৈলীর স্থিতিশীলতার দিক থেকে, উৎপাদিত লেখার ফলাফলগুলো কৃত্রিম বুদ্ধিমত্তার গতানুগতিকতা ছাড়াই প্রকৃতপক্ষে মানুষের লেখার বৈশিষ্ট্যের সঙ্গেই বেশি সামঞ্জস্যপূর্ণ।
Hy3 প্রিভিউটি গাড়ি ধোয়ার জায়গায় হেঁটে যাওয়া উচিত নাকি গাড়ি চালিয়ে যাওয়া উচিত, এই চিরন্তন প্রশ্নেরও উত্তর দিয়েছে।

যখন অন্য সবাই একই পরীক্ষা নিয়ে কাজ করছিল, হুনুয়ান তখন নিজেরটা তৈরি করতে শুরু করল।
গত দুই বছর ধরে চীনের এআই শিল্পে একটি সম্মিলিত উদ্বেগ বিরাজ করছে: সবাই একই কাজ করছে। একই আর্কিটেকচার, একই ট্রেনিং প্যারাডাইম, একই লিডারবোর্ড, একই প্রেস রিলিজ টেমপ্লেট। শুধু লোগো পরিবর্তন করেই মডেল লঞ্চ প্রেজেন্টেশন স্লাইডগুলো অদলবদল করে ব্যবহার করা যায়, এবং ‘বিশ্বব্যাপী শীর্ষস্থানীয়’ ও ‘সেরা পারফর্মিং’-এর মতো শব্দগুচ্ছের অতিরিক্ত ব্যবহার হয়েছে।
একসময় টেনসেন্টও এই একই দলে ছিল। তারা র্যাঙ্কিংয়ে একই পথ অনুসরণ করে, স্পেসিফিকেশন উন্নত করে এবং নতুন ফিচার যুক্ত করে। এর ফলে, হুনুয়ান প্রযুক্তিতে প্রচুর বিনিয়োগ করলেও বাজারে তাদের উপস্থিতি অস্পষ্টই থেকে যায়। ব্যবহারকারীদের যদি জিজ্ঞাসা করা হতো, "হুনুয়ান এবং অন্যদের মধ্যে পার্থক্য কী?", তাহলে সম্ভবত তারা এর উত্তর দিতে পারত না।
Hy3 প্রিভিউটির তাৎপর্য সম্ভবত ঠিক এই কারণেই যে, টেনসেন্ট অবশেষে চার্ট র্যাঙ্কিংয়ের পেছনে ছোটা বন্ধ করেছে। এটিই হুনুয়ানে ইয়াও শুনিয়ুর আনা সবচেয়ে বড় পরিবর্তন।

লেটপোস্টের একটি পূর্ববর্তী প্রতিবেদনে টেনসেন্টের একটি অভ্যন্তরীণ বৈঠকে ইয়াও শুনিয়ুর মূল্যায়ন উদ্ধৃত করা হয়েছিল: মডেলটি অতিরিক্তভাবে র্যাঙ্কিং পারফরম্যান্সের পেছনে ছুটছিল এবং ট্রেনিং সেটে র্যাঙ্কিং-সম্পর্কিত ডেটা অন্তর্ভুক্ত করে ডেটা দূষিত করছিল। মডেলটি প্রশ্নের উত্তর দেওয়ার ক্ষেত্রে ভালো পারফর্ম করলেও, বাস্তব-জগতের পরিস্থিতিতে অস্থিতিশীল হয়ে পড়েছিল।
এই র্যাঙ্কিংগুলো সক্ষমতার সর্বোচ্চ সীমা পরিমাপ করে, যেখানে ব্যবহারকারীরা সর্বনিম্ন সীমাটি উপলব্ধি করেন। MMLU-তে দুই শতাংশ-পয়েন্টের অগ্রগমন প্রকৃত ব্যবহারে ব্যবহারকারীদের কাছে প্রায় অলক্ষ্য; বিপরীতে, সামান্য দুর্বল কমান্ড কমপ্লায়েন্স, অস্থিতিশীল ফরম্যাটিং এবং উচ্চ ইল্যুশন রেট ব্যবহারকারীর অভিজ্ঞতায় আকস্মিক অবনতি ঘটাবে।
তাই, Hy3 প্রিভিউতে দেখা যায় যে, হুনুয়ান এই যুক্তিটি উল্টে দিতে শুরু করেছে: র্যাঙ্কিংয়ের পেছনে ছোটার পরিবর্তে, তারা সিনারিওগুলোর পেছনে ছুটছে।

▲গত বছরের একটি প্রতিবেদনে উল্লেখ করা হয়েছিল যে, বিভিন্ন বেঞ্চমার্ক পরীক্ষায় এআই-এর স্কোর আকাশচুম্বী হচ্ছে এবং বেঞ্চমার্কগুলো অতিরিক্ত পরিপূর্ণ হয়ে গেছে। এই ফলাফলগুলো প্রায়শই বাস্তব জগতে এর প্রকৃত প্রভাবকে সঠিকভাবে প্রতিফলিত করে না।
২৯৫ বাইট প্যারামিটার সংখ্যা ইঙ্গিত দেয় যে, এটি মডেলের আকারের দিক থেকে সরাসরি প্রতিযোগিতায় নামতে চায় না। পাবলিক লিডারবোর্ড থেকে এর অনুপস্থিতি থেকে বোঝা যায় যে, এটি স্কোর কারসাজির এই তীব্র প্রতিযোগিতা চালিয়ে যাওয়ার পরিকল্পনা করছে না। কো-ডিজাইনের উন্নয়ন মডেলটি প্রমাণ করে যে, এটি তার মনোযোগ ‘অন্যরা কী করছে’ থেকে সরিয়ে ‘আমার ব্যবহারকারীদের কী প্রয়োজন’-এর দিকে নিয়ে যাচ্ছে।
এতে আমরা টেনসেন্টের মূল ব্যবসায়িক ক্ষেত্রগুলোর প্রসঙ্গে আসি: সোশ্যাল নেটওয়ার্কিং, গেমিং, বিজ্ঞাপন এবং এন্টারপ্রাইজ পরিষেবা, যার প্রত্যেকটিরই অত্যন্ত বিশেষায়িত বৈশিষ্ট্য রয়েছে। উইচ্যাটের কথোপকথনের ধারাটি খণ্ডিত এবং অত্যন্ত ঘন; গেমগুলোর জন্য এমন মডেল প্রয়োজন যা বাস্তব পরিস্থিতিতে তাৎক্ষণিকভাবে প্রতিক্রিয়া জানাতে পারে; এবং উইচ্যাট ওয়ার্ক ও টেনসেন্ট মিটিংয়ের জন্য ব্যক্তিগত নথির ওপর ভিত্তি করে সুনির্দিষ্ট বিশ্লেষণ প্রয়োজন।
▲ Hy3 প্রিভিউ Tencent Cloud, Yuanbao, IMA, CodeBuddy, WorkBuddy, QQ, QQ Browser, Tencent Docs, Tencent Enjoy ইত্যাদিতে চালু করা হয়েছে এবং WeChat Official Accounts, Peacekeeper Elite, Tencent News, Tencent Stock Selection, Tencent Customer Service, এবং WeChat Reading-এর মতো বেশ কিছু প্রধান প্রোডাক্টে এটি চালু করা হবে।
এই পরিস্থিতিগুলোতে মডেলের জন্য প্রয়োজনীয়তাগুলো সাধারণ বুদ্ধিমত্তার মানদণ্ডে নির্ধারিত মেট্রিকগুলোর সাথে পুরোপুরি মেলে না। যে মডেলটি MMLU-তে শীর্ষ তিনে স্থান পায় কিন্তু WeChat গ্রুপ চ্যাটের প্রেক্ষাপট বুঝতে পারে না, সেটি টেনসেন্টের কাছে অর্থহীন।
অন্য কথায়, চীনের প্রধান কোম্পানিগুলোর মধ্যে টেনসেন্টেরই সাধারণ র্যাঙ্কিংয়ের পেছনে ছোটার সম্ভাবনা সম্ভবত সবচেয়ে কম। এর পরিকল্পনাগুলো এতটাই স্বতন্ত্র, জটিল এবং বাণিজ্যিকভাবে মূল্যবান যে এটি সম্পূর্ণ নিজস্ব পথ তৈরি করতে পারে।
যৌথ নকশা হলো এই পথের সূচনা বিন্দু। মডেলটি বাস্তব ব্যবসায়িক পরিস্থিতিতে চলে, এবং ব্যবসাটি মডেলটিতে ফিডব্যাক দেওয়ার জন্য আসল ডেটা ব্যবহার করে। টেনসেন্টের এআই-তে করা বিশাল বিনিয়োগ বাস্তব-জগতের পরিস্থিতিতে দ্রুত যাচাই করা যেতে পারে, এবং একই সাথে একটি বাণিজ্যিক ক্লোজড লুপও অর্জন করা যায়। একবার এই চাকাটি ঘুরতে শুরু করলে, এটি যে প্রতিবন্ধকতা তৈরি করে তা লিডারবোর্ডের যেকোনো র্যাঙ্কিংয়ের চেয়ে অনেক বেশি সুদৃঢ় হয়।
যখন সবাই তুলনা করছে কার মডেলটি বেশি 'বহুমুখী', তখন আসল বিজয়ী হতে পারে সেই মডেলটি, যা তার নিজস্ব প্রেক্ষাপটে 'সবচেয়ে উপযোগী'।

অবশ্যই, 'ছন্দ খুঁজে পাওয়া' এবং 'খেলা জেতা'-র মধ্যে এখনও অনেকটাই ব্যবধান রয়েছে।
হুনুয়ানের পুনর্গঠনের পর Hy3 প্রিভিউ হলো প্রথম মডেল। তিন মাসের উন্নয়ন চক্রটি এর শক্তিশালী কর্মদক্ষতার পরিচয় দেয়, তবে এটি আরও উন্নত করার যথেষ্ট সুযোগও নির্দেশ করে। ব্লাইন্ড রিভিউতে ৫৫% থেকে ৫৬% পর্যন্ত জয়ের হার ইঙ্গিত দেয় যে এটি ব্যবহারযোগ্য, কিন্তু উল্লেখযোগ্য প্রতিযোগিতামূলক সুবিধা তৈরি করা থেকে এটি এখনও অনেক দূরে। আরও বড় মডেল আসছে, এবং প্রিভিউ পর্বের ব্যবহারকারীদের মতামতের উপর ভিত্তি করে এর আনুষ্ঠানিক সংস্করণটি এখনও পরিমার্জন করা হচ্ছে।
কিন্তু অন্তত একটা জিনিস বদলে গিয়েছিল: হুনুয়ান অন্যদের মানচিত্রের পেছনে ছোটা বন্ধ করে দিয়েছিল। সে নিজের মানচিত্র আঁকতে এবং নিজের পথ চিহ্নিত করতে শুরু করেছিল।
আজকের বৃহৎ আকারের মডেলের প্রতিযোগিতামূলক পরিমণ্ডলে, একরূপতাই সবচেয়ে বড় ঝুঁকি। যখন সবাই তাদের উচ্চতা মাপার জন্য একই মাপকাঠি ব্যবহার করে, তখন কিছু লোক তাদের নিজস্ব মাপকাঠি তৈরি করতে শুরু করে, যা দিয়ে তারা কেবল তাদের প্রয়োজনীয় মাত্রাগুলোই পরিমাপ করে।
এই বিষয়টিই যেকোনো র্যাঙ্কিং মাপকাঠির চেয়ে বেশি উল্লেখযোগ্য।
iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট iFanr (WeChat ID: ifanr) ফলো করুন, যেখানে যত তাড়াতাড়ি সম্ভব আপনার জন্য আরও আকর্ষণীয় কন্টেন্ট উপস্থাপন করা হবে।





