এক সপ্তাহ ধরে পুরো ইন্টারনেট DeepSeek V4 নিয়ে জল্পনা-কল্পনা করছিল, কিন্তু শেষ পর্যন্ত জানা গেল এটি শাওমিরই কাজ।

গত সপ্তাহে, সুপরিচিত এপিআই অ্যাগ্রিগেশন প্ল্যাটফর্ম ওপেনরাউটারে 'হান্টার আলফা' এবং 'হিলার আলফা' কোডনামে দুটি নামহীন ও অপরিচিত মডেল নিঃশব্দে আবির্ভূত হয়। কোনো প্রচারণা ছাড়াই এগুলোর ব্যবহার অস্বাভাবিক দ্রুত গতিতে বাড়তে শুরু করে।

হান্টার আলফা বেশ কয়েকদিন ধরে দৈনিক চার্টের শীর্ষে ছিল, এবং এর মোট ব্যবহার ১ ট্রিলিয়ন টোকেন ছাড়িয়ে যায়। এটি কমিউনিটির মধ্যে আলোচনার জন্ম দেয়। সবচেয়ে প্রচলিত জল্পনাটি ডিপসিক-এর দিকে ইঙ্গিত করছে, যা থেকে মনে হচ্ছে এটি ডিপসিক ভি৪-এর একটি অভ্যন্তরীণ বেটা সংস্করণ।

ওপেনক্ল-এর প্রতিষ্ঠাতা পিটার স্টাইনবার্গারও অনুসন্ধান করতে এক্স প্ল্যাটফর্মে একটি পোস্ট করেন, যা জল্পনা-কল্পনার প্রতি কমিউনিটির উৎসাহকে আরও বাড়িয়ে তোলে।

শাওমি আনুষ্ঠানিকভাবে ঘোষণা করেছে যে হান্টার আলফা এবং হিলার আলফা উভয়ই শাওমি মিমিো লার্জ মডেলের প্রাথমিক অভ্যন্তরীণ বেটা সংস্করণ। এই ঘোষণার পাশাপাশি, শাওমি মিমিো লার্জ মডেল প্রকল্পের প্রধান লুও ফুলি এক্স প্ল্যাটফর্মে এগুলোর অস্তিত্ব প্রকাশ্যে স্বীকার করেছেন।

কাকতালীয়ভাবে, লুও ফুলি ডিপসিক-এর একজন প্রাক্তন গবেষক। অন্য কথায়, ডিপসিক থেকে আসা তিনিই শাওমিতে এমন একটি মডেল তৈরি করেন, যা দেখে পুরো ইন্টারনেট মনে করেছিল যে এটি ডিপসিক থেকেই এসেছে।

মূল কথা হলো: শাওমি একযোগে তিনটি মডেল বাজারে এনেছে, যার প্রত্যেকটির নিজস্ব লক্ষ্য থাকলেও, সবগুলোর উদ্দেশ্য একই: কৃত্রিম বুদ্ধিমত্তাকে (AI) শুধু 'কথোপকথন করতে পারা' থেকে 'কাজ সম্পন্ন করতে পারা'-র পর্যায়ে বিকশিত করা।

  • MiMo-V2-Pro হলো একটি ফ্ল্যাগশিপ টেক্সট-ভিত্তিক প্ল্যাটফর্ম, যা উচ্চ-তীব্রতার এজেন্ট ওয়ার্কলোডের জন্য ডিজাইন করা হয়েছে এবং এটি মূলত ইনফারেন্স, প্ল্যানিং ও টুল ইনভোকেশনের উপর আলোকপাত করে।
  • MiMo-V2-Omni হলো একটি মাল্টিমোডাল এজেন্ট প্ল্যাটফর্ম যা স্বাভাবিকভাবেই টেক্সট, ভিশন এবং অডিও পারসেপশনকে একীভূত করে, যার মাধ্যমে বোঝা থেকে শুরু করে সম্পাদন পর্যন্ত একটি সম্পূর্ণ সংযোগ তৈরি হয়।
  • MiMo-V2-TTS হলো একটি বৃহৎ পরিসরের স্পিচ সিন্থেসিস মডেল যা এজেন্টদেরকে উষ্ণ ও আবেগপূর্ণ কণ্ঠস্বর প্রকাশের ক্ষমতা প্রদান করে এবং এটি সম্পূর্ণ স্ট্যাকের চূড়ান্ত সংযোগ স্থাপন করে।

MiMo-V2-Pro: বিশাল ধারণক্ষমতা, যত খুশি তত খাওয়ার সুবিধা, এবং দাম প্রতিযোগীদের মাত্র এক-পঞ্চমাংশ।

MiMo-V2-Pro-এর মোট প্যারামিটার সংখ্যা 1T-এর বেশি এবং এর অ্যাক্টিভেশন প্যারামিটার হলো 42B, যা পূর্ববর্তী প্রজন্মের MiMo-V2-Flash-এর চেয়ে প্রায় ৩ গুণ বড়।

প্যারামিটারের সংখ্যা উল্লেখযোগ্যভাবে বৃদ্ধি পাওয়া সত্ত্বেও, এর উদ্ভাবনী হাইব্রিড অ্যাটেনশন আর্কিটেকচারের কল্যাণে ইনফারেন্স দক্ষতা হ্রাস পায়নি।

আর্কিটেকচারটির মিক্সিং রেশিও পূর্ববর্তী প্রজন্মের ৫:১ থেকে আরও উন্নত করে ৭:১ করা হয়েছে এবং একটি লাইটওয়েট এমটিপি (মাল্টি টোকেন প্রেডিকশন) লেয়ার যুক্ত করার ফলে প্রকৃত জেনারেশন স্পিডও ত্বরান্বিত হয়েছে।

অন্যদিকে, MiMo-V2-Pro ১ মেগাবাইট পর্যন্ত অতি-দীর্ঘ কনটেক্সট উইন্ডো সমর্থন করে, যা দীর্ঘ সময় ধরে চলা এজেন্ট টাস্ক পরিচালনার ক্ষেত্রে একটি উল্লেখযোগ্য কাঠামোগত সুবিধা প্রদান করে।

বৃহৎ আকারের বুদ্ধিমান মডেলগুলোর বিশ্বব্যাপী নির্ভরযোগ্য আর্টিফিশিয়াল অ্যানালাইসিস র‍্যাঙ্কিং-এ, MiMo-V2-Pro বর্তমানে বিশ্বব্যাপী অষ্টম এবং চীনে দ্বিতীয় স্থানে রয়েছে।

বেঞ্চমার্ক টেস্টিং ছাড়াও, শাওমি 'বাস্তব ব্যবহারকারীর অভিজ্ঞতা'-র ওপর জোর দেয়। কোডিং এজেন্ট, জেনারেল এজেন্ট এবং টুল ব্যবহারের ক্ষেত্রে, MiMo-V2-Pro, Claude Sonnet 4.6-এর সমপর্যায়ের।

শাওমির অভ্যন্তরীণ প্রকৌশলীদের গভীর মূল্যায়নে, মিমিো-ভি২-প্রো-এর কোড ইঞ্জিনিয়ারিং ক্ষমতা ক্লদ ওপাস ৪.৬-এর কাছাকাছি বলে প্রমাণিত হয়েছে, যা উন্নততর সিস্টেম ডিজাইন ক্ষমতা এবং আরও মার্জিত কোডিং শৈলীর অধিকারী।

হান্টার আলফার পরিচয়হীন বেটা টেস্টিং চলাকালীন, সবচেয়ে বেশি ব্যবহৃত অ্যাপ্লিকেশনগুলো ছিল মূলত প্রোগ্রামিং টুল, যা নিজেই মডেলটির সক্ষমতার সবচেয়ে সরাসরি বাজার-প্রমাণ।

OpenClaw ফ্রেমওয়ার্কের অধীনে, MiMo-V2-Pro তার ফ্রন্ট-এন্ড ডেভেলপমেন্ট সক্ষমতাও প্রদর্শন করেছে, যা দৃষ্টিনন্দন ডিজাইন এবং সম্পূর্ণ কার্যকরী ওয়েব পেজ এক ধাপে তৈরি করতে সক্ষম এবং এতে ব্যবহারিক উপযোগিতার সাথে ভারসাম্য রক্ষা করা হয়।

মূল্যের দিক থেকে, MiMo-V2-Pro-এর API-এর দাম একই বিভাগের প্রতিযোগী পণ্যগুলোর তুলনায় মাত্র ১/৫ ভাগ। ২৫৬কে (256K) প্রেক্ষাপটে, ইনপুটের মূল্য প্রতি মিলিয়ন টোকেনে ১ ডলার এবং আউটপুটের মূল্য ৩ ডলার; ১এম (1M) প্রেক্ষাপটে, ইনপুটের মূল্য ২ ডলার এবং আউটপুটের মূল্য ৬ ডলার।

এই মূল্য নির্ধারণ কৌশলটি একটি স্পষ্ট বার্তা দেয়: শাওমি তার মূল্যের সুবিধাকে কাজে লাগিয়ে ডেভেলপার ইকোসিস্টেমের মধ্যে MiMo-V2-Pro-এর প্রসার দ্রুত বাড়াতে আশা করছে।

এই লক্ষ্যে, শাওমি পাঁচটি প্রধান এজেন্ট ফ্রেমওয়ার্ক টিম—ওপেনক্ল, ওপেনকোড, কিলোকোড, ব্ল্যাকবক্স এবং ক্লাইন—এর সাথে এক সপ্তাহের সীমিত সময়ের জন্য বিনামূল্যে এপিআই সাপোর্ট দেওয়ার জন্য অংশীদারিত্ব করেছে। প্রতিটি ফ্রেমওয়ার্কের বিনামূল্যে সাপোর্ট সম্পর্কে নির্দিষ্ট তথ্যের জন্য, অনুগ্রহ করে অফিসিয়াল মিমিও ওয়েবসাইট এবং মিমিও ওপেন প্ল্যাটফর্মের ঘোষণাগুলো দেখুন।

বর্তমানে, MiMo-V2-Pro আনুষ্ঠানিকভাবে তার এপিআই (API) পরিষেবা চালু করেছে এবং ডেভেলপাররা https://platform.xiaomimimo.com-এ এটি ব্যবহার ও অভিজ্ঞতা লাভ করতে পারবেন। অফিসিয়াল মডেল এক্সপেরিয়েন্স পেজ, https://aistudio.xiaomimimo.com-এও MiMo Claw ফিচারটি চালু করা হয়েছে, যা ডেভেলপারদের বিনামূল্যে MiMo-V2-Pro-এর এজেন্ট (Agent) সক্ষমতাগুলো অভিজ্ঞতা লাভের সুযোগ করে দিচ্ছে।

MiMo-V2-Omni: এটি দেখতে পারে, শুনতে পারে, এমনকি আপনার সাথেই দামাদামি করতে পারে।

MiMo-V2-Pro যদি মস্তিষ্ক হয়, তবে MiMo-V2-Omni-এর উচ্চাকাঙ্ক্ষা আরও বড়; এটি এই মস্তিষ্ককে চোখ, কান এবং হাত দেওয়ার চেষ্টা করে।

MiMo-V2-Omni হলো শাওমির প্রথম ফুল-মোডাল মডেল যা মৌলিক স্তরে উপলব্ধি এবং ক্রিয়াকে একীভূত করে এবং এর অন্তর্নিহিত আর্কিটেকচার থেকে টেক্সট, ভিশন ও অডিওকে গভীরভাবে সমন্বিত করে।

MiMo-V2-Omni-এর অন্যতম স্বতন্ত্র ক্ষমতা হলো অডিও বোঝা। এটি ১০ ঘণ্টারও বেশি সময় ধরে একটানা দীর্ঘ অডিও বুঝতে পারে, যা পারিপার্শ্বিক শব্দের শ্রেণিবিভাগ থেকে শুরু করে একাধিক স্পিকার পৃথকীকরণের মতো জটিল পরিস্থিতি সামাল দিতে সক্ষম এবং সার্বিক পারফরম্যান্সে Gemini 3 Pro-কে ছাড়িয়ে যায়।

চিত্র বোঝার ক্ষেত্রে, MiMo-V2-Omni, Claude Opus 4.6-কে ছাড়িয়ে যায় এবং বহুমাত্রিক চাক্ষুষ যুক্তি ও জটিল গ্রাফ বিশ্লেষণে Gemini 3 Pro-এর মতো শীর্ষস্থানীয় ক্লোজড-সোর্স মডেলগুলোর সমপর্যায়ে পৌঁছায়।

ভিডিও বোঝার ক্ষেত্রে, মডেলটি অডিও এবং ভিডিও আলাদাভাবে প্রক্রিয়াকরণ না করে, নেটিভ অডিও এবং ভিডিওর যৌথ ইনপুট সমর্থন করে, যা স্থাপত্যগত স্তরে সত্যিকারের মাল্টিমোডাল বোঝার সুবিধা নিয়ে আসে।

বাস্তব এজেন্ট পরিস্থিতিতে, MiMo-V2-Omni শুরু থেকে শেষ পর্যন্ত কাজ সম্পন্ন করার চিত্তাকর্ষক সক্ষমতা প্রদর্শন করেছে।

OpenClaw ফ্রেমওয়ার্কের সাথে মিলিত হয়ে এটি একজন সত্যিকারের মানুষের মতো ব্রাউজার নিয়ন্ত্রণ করতে পারে: Xiaohongshu-তে রিভিউ দেখা, কেনাকাটার পরামর্শ সাজানো, বিভিন্ন স্টোরের মধ্যে দাম তুলনা করার জন্য JD.com-এ যাওয়া, ডিসকাউন্টের জন্য কাস্টমার সার্ভিসে যোগাযোগ করা এবং অর্ডার সম্পন্ন করা। এটি একাধিক ট্যাবে দ্রুত পরিবর্তন এবং রিয়েল-টাইম ইন্টারঅ্যাকশনের প্রয়োজনীয়তাও সামলাতে পারে।

এর আরেকটি প্রতিনিধিত্বমূলক উদাহরণ হলো: ব্যবহারকারীদের শুধু বলতে হবে, "একটি পরিচিতিমূলক ভিডিও তৈরি করুন, কিছু প্রযুক্তি-সম্পর্কিত সাউন্ড এফেক্ট যোগ করুন এবং টিকটকে পোস্ট করুন," এবং মডেলটি সম্পূর্ণ প্রক্রিয়াটি সম্পন্ন করতে পারবে, যার মধ্যে রয়েছে রেন্ডারিংয়ের সময় ফন্টের ত্রুটি স্বয়ংক্রিয়ভাবে ঠিক করা এবং সবশেষে ভিডিওটি পর্যালোচনা শেষে সফলভাবে চালু হয়েছে কিনা তা নিশ্চিত করা।

বিশুদ্ধ টেক্সট এজেন্ট টাস্কেও MiMo-V2-Omni উচ্চ স্তরের প্রতিযোগিতা বজায় রেখেছে, এবং OpenClaw PinchBench বেঞ্চমার্কে এর পারফরম্যান্স Gemini 3 Pro-এর সমতুল্য ছিল।

হিলার আলফা-র বেনামী বিটা টেস্টিং চলাকালীন, মডেলটি পিঞ্চবেঞ্চ-এ সর্বোচ্চ গড় স্কোর অর্জন করে এবং কমিউনিটি ব্যবহারকারীদের কাছ থেকে পাওয়া ইতিবাচক প্রতিক্রিয়া ও বেঞ্চমার্কের ফলাফল একটি বিরল দ্বিমুখী নিশ্চিতকরণ তৈরি করে।

অফিসের কাজের ক্ষেত্রে, MiMo-V2-Omni, Kingsoft Office-এর সাথে অংশীদারিত্ব করেছে এবং WPS Lingxi-এর সাথে সমন্বিত হয়েছে, যা সরাসরি উচ্চ-মানের Word ডকুমেন্ট, কাঠামোবদ্ধ Excel ফাইল, ফরম্যাট করা PDF, এবং সম্পূর্ণ PPT তৈরি করতে সহায়তা করে। MiMo Studio-এর Claw মডিউলটিও Kingsoft WebOffice ইকোসিস্টেমের সাথে সম্পূর্ণরূপে সমন্বিত হয়েছে এবং এটি Word, Excel, PPT, ও PDF—এই চারটি প্রধান ফরম্যাটকে স্বাভাবিকভাবে সমর্থন করে, যা দৈনন্দিন ব্যবহৃত ৯৫%-এরও বেশি ধরনের ডকুমেন্টকে অন্তর্ভুক্ত করে।

WPS লিংজি ট্রায়াল অ্যাড্রেস: lingxi.wps.cn

MiMo-V2-Omni তার API উন্মুক্ত করেছে, যা 256K কন্টেক্সট দৈর্ঘ্য সমর্থন করে। এর ইনপুট মূল্য প্রতি মিলিয়ন টোকেনের জন্য $0.4 এবং আউটপুট মূল্য $2। এটি https://platform.xiaomimimo.com-এ ইন্টিগ্রেটও করা যাবে।

MiMo-V2-TTS: এটি হাই তুলতে পারে, মাতাল হতে পারে এবং গান গাইতে পারে।

একটি পূর্ণাঙ্গ এজেন্টের শুধু চিন্তা ও কাজ করলেই চলবে না, তাকে কথাও বলতে হবে। এই শূন্যস্থান পূরণের জন্যই MiMo-V2-TTS ডিজাইন করা হয়েছে।

MiMo-V2-TTS শাওমির নিজস্ব উদ্ভাবিত অডিও টোকেনাইজার এবং মাল্টি-কোডবুক স্পিচ-টেক্সট যৌথ মডেলিং আর্কিটেকচারের উপর ভিত্তি করে তৈরি, এবং এটি কয়েক কোটি ঘণ্টার স্পিচ ডেটা দিয়ে বৃহৎ পরিসরে প্রি-ট্রেনিং সম্পন্ন করেছে।

বিপুল পরিমাণ ডেটা—"কয়েক কোটি ঘণ্টা"—এর অর্থ হলো, মডেলটি অত্যন্ত বৈচিত্র্যময় কথা বলার ধরণ, উচ্চারণভঙ্গি এবং পরিস্থিতিকে অন্তর্ভুক্ত করতে পারে, যা এর সাধারণীকরণ ক্ষমতার ভিত্তি তৈরি করে।

বহুমাত্রিক রিইনফোর্সমেন্ট লার্নিং-এর প্রশিক্ষণ-পরবর্তী পর্যায়ে, মডেলটিকে স্বরভঙ্গির স্বাভাবিকতা, ধ্বনি মানের স্থিতিশীলতা, টিম্বার ক্লোনিং গুণমান এবং দৃশ্য-স্বরের সাথে অভিযোজনের মতো একাধিক মাত্রার উপর ভিত্তি করে ক্রমাগত অপ্টিমাইজ করা হয়।

বহুস্তরীয় কোডবুক মডেলিং আর্কিটেকচারের কল্যাণে, রিইনফোর্সমেন্ট লার্নিং পর্যায়টি পরোক্ষ টেক্সট-ভিত্তিক ফিডব্যাকের উপর নির্ভর না করে, সরাসরি স্পিচ-সম্পর্কিত রিওয়ার্ড সিগন্যাল ব্যবহার করে মডেলটিকে অপ্টিমাইজ করতে পারে। এর ফলে বহুমাত্রিক রিওয়ার্ড সিগন্যালগুলো জেনারেশন প্রক্রিয়ার উপর আরও কার্যকরভাবে কাজ করতে পারে।

MiMo-V2-TTS সামগ্রিক সুর নির্ধারণ থেকে শুরু করে বাক্যের মধ্যেকার নির্দিষ্ট আবেগ পর্যন্ত বহুমাত্রিক নিয়ন্ত্রণ সমর্থন করে, যা একই বাক্যের মধ্যে সুরের পরিবর্তন এবং আবেগগত রূপান্তর সম্ভব করে তোলে, যা অনুরূপ পণ্যগুলোর মধ্যে বিরল।

মডেলটি বিরামচিহ্ন, বিস্ময়সূচক শব্দ এবং জোর দেওয়ার চিহ্নের মতো ফরম্যাট সংকেতগুলো বুদ্ধিমত্তার সাথে শনাক্ত করতে পারে এবং ব্যবহারকারীর ম্যানুয়াল টীকা ছাড়াই সেগুলোকে স্বয়ংক্রিয়ভাবে স্বাভাবিক কথ্য অভিব্যক্তিতে রূপান্তর করতে পারে।

উপভাষা সমর্থনের মধ্যে রয়েছে উত্তর-পূর্ব ম্যান্ডারিন, সিচুয়ানিজ, হেনান উপভাষা, ক্যান্টনিজ এবং তাইওয়ানিজ উচ্চারণভঙ্গি। এর পাশাপাশি এতে রয়েছে রোল-প্লেয়িং শৈলীর পারফরম্যান্স এবং উচ্চ-মানের ভোকাল সিন্থেসিস ক্ষমতা, যা একই মডেলকে কথা বলতে, অভিনয় করতে এবং গান গাইতে সক্ষম করে।

আনুষ্ঠানিক বিবৃতিতে বলা হয়েছে যে ভবিষ্যতে, MiMo-V2-TTS, MiMo-V2-Omni-এর সাথে গভীরভাবে সমন্বিত হবে, যা এজেন্টকে কেবল বিশ্বকে দেখতে ও বুঝতে সক্ষম করবে না, বরং একটি অভিব্যক্তিপূর্ণ কণ্ঠে বিশ্বের গল্প বলতেও সক্ষম করবে।

এআই হলো সেই প্রকৃত সূত্র যা মানুষ, গাড়ি এবং বাড়িঘরের সমগ্র বাস্তুতন্ত্রকে সংযুক্ত করে।

সময় এবং পণ্যের সংমিশ্রণ, উভয় দিক থেকেই তিনটি মডেলের একযোগে উন্মোচন আকস্মিক ছিল না। এক বিবৃতিতে লুও ফুলি স্বীকার করেছেন যে, চ্যাট প্যারাডাইম থেকে এজেন্ট প্যারাডাইমে এই পরিবর্তন এত দ্রুত ঘটেছে যে, "এমনকি আমাদের নিজেদেরও তা বিশ্বাস করতে কষ্ট হচ্ছে।"

তবে, শাওমি মিমিও টিম আসলে আগে থেকেই পরিকল্পনা করে রেখেছিল। লুও ফুলি প্রকাশ করেছেন যে, দীর্ঘ কনটেক্সট ইনফারেন্সের কার্যকারিতা উন্নত করার প্রাথমিক লক্ষ্য নিয়ে 1T বেস মডেলটির প্রশিক্ষণ কয়েক মাস আগেই শুরু হয়ে গিয়েছিল। হাইব্রিড অ্যাটেনশন আর্কিটেকচার, 1M আল্ট্রা-লং কনটেক্সট উইন্ডো এবং MTP লো-ল্যাটেন্সি ইনফারেন্স কোনো ট্রেন্ড অনুসরণ করে নেওয়া আর্কিটেকচারাল সিদ্ধান্ত নয়, বরং প্রয়োজনের আগেই গড়ে তোলা কাঠামোগত সুবিধা।

দলের মনোযোগ এজেন্টদের দিকে সরে আসার পেছনে একটি অত্যন্ত গুরুত্বপূর্ণ মুহূর্ত কাজ করেছিল। লুও ফুলি যখন প্রথমবারের মতো জটিল এজেন্ট ফ্রেমওয়ার্কটির অভিজ্ঞতা লাভ করেন, তখন তিনি গভীরভাবে প্রভাবিত হন এবং সঙ্গে সঙ্গে দলকে একটি কঠোর নির্দেশ দেন: মিমিও দলের যে কোনো সদস্য পরের দিন ১০০টির কম কথোপকথন সম্পন্ন করলে পদত্যাগ করতে পারবে।

এই কিছুটা চরম চাহিদার পেছনে এজেন্ট প্যারাডাইমের প্রতি তাঁর দৃঢ় বিশ্বাস নিহিত রয়েছে। এর ফলস্বরূপ, দলটির কল্পনাশক্তি সম্পূর্ণরূপে উন্মোচিত হয়েছিল এবং গবেষণার গতি নাটকীয়ভাবে বৃদ্ধি পেয়েছিল।

গবেষণা ও উন্নয়নের এই গতি এবং শাওমির বিদ্যমান ইকোসিস্টেমের সমন্বয়ে, এই লঞ্চটির তাৎপর্য কেবল একটি সাধারণ মডেল প্রতিযোগিতার ঊর্ধ্বে চলে গেছে।

শাওমি গ্রুপ দীর্ঘদিন ধরে "মানুষ-যানবাহন-বাড়ি সমন্বিত ইকোসিস্টেম" কৌশল প্রচার করে আসছে, যেখানে স্মার্টফোন, গাড়ি (SU7 সিরিজ) এবং স্মার্ট হোম ডিভাইসগুলোকে সম্পূর্ণরূপে সংযুক্ত করতে Surge OS ব্যবহার করা হয়। এই ইকোসিস্টেমটি ইতিমধ্যেই ভৌতভাবে পরস্পর সংযুক্ত, কিন্তু পূর্বে এতে এমন একটি সত্যিকারের বুদ্ধিমান হাবের অভাব ছিল যা বিভিন্ন ডিভাইসের উদ্দেশ্য বুঝতে, স্বয়ংক্রিয়ভাবে পরিকল্পনা করতে এবং কাজ সম্পন্ন করতে সক্ষম।

বর্তমানে, MiMo-V2-Pro ইনফারেন্স ও প্ল্যানিংয়ের দায়িত্বে, MiMo-V2-Omni মাল্টিমোডাল পারসেপশন ও এক্সিকিউশনের দায়িত্বে এবং MiMo-V2-TTS ভয়েস এক্সপ্রেশনের দায়িত্বে রয়েছে। এই তিনটি একত্রে একটি সম্পূর্ণ এআই ক্যাপাবিলিটি স্ট্যাক গঠন করে যা সমগ্র ইকোসিস্টেমকে চালনা করে।

miclaw (মোবাইল ফোনের জন্য শাওমির এআই এজেন্ট)-কে MiMo বিগ মডেলে একীভূত করা হয়েছে, যা সিস্টেম-স্তরের কার্যক্ষমতা এবং 'মানুষ, যানবাহন ও বাড়ির ইকোসিস্টেম'-এর সাথে গভীর সংযোগ স্থাপন করতে সক্ষম। এটি এই সক্ষমতা স্ট্যাকের প্রথম বাস্তব প্রয়োগ। পরবর্তীতে WPS Lingxi এবং Xiaomi Browser-এর একীকরণও একই বিষয়টি তুলে ধরে: MiMo শুধু একটি ডায়ালগ প্রোডাক্ট নয়, বরং এটি একটি মৌলিক সক্ষমতা স্তর যা বিভিন্ন অ্যাপ্লিকেশন সিনারিওতে অন্তর্ভুক্ত করা হচ্ছে।

বছরের পর বছর ধরে প্রধান প্রযুক্তি সংস্থাগুলো এই রূপকল্পের কথা বলে আসছে যে, "এআই সবকিছুকে সংযুক্ত করবে," এবং শাওমি তার এজেন্ট-ভিত্তিক মডেল ও ইকোসিস্টেম কৌশল সম্পর্কে গভীর বোঝাপড়ার মাধ্যমে এটিকে বাস্তবে রূপ দিতে যে প্রস্তুত, তা স্পষ্ট।

iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট iFanr (WeChat ID: ifanr) ফলো করুন, যেখানে যত তাড়াতাড়ি সম্ভব আপনার জন্য আরও আকর্ষণীয় কন্টেন্ট উপস্থাপন করা হবে।