সবচেয়ে শক্তিশালী ওপেন-সোর্স মডেল কি হাত বদল করেছে? কিমি k2.5 প্রকাশ করেছে, এজেন্ট ক্লাস্টার ব্যবহার করে দীর্ঘ টেক্সট + ভিজ্যুয়াল জেনারেশন সমাধান করে।

এইমাত্র, ডার্ক সাইড অফ দ্য মুন আনুষ্ঠানিকভাবে প্রকাশিত এবং ওপেন-সোর্স করা Kimi k2.5।

অফিসিয়াল টেকনিক্যাল রিপোর্টটি শুরু হয়েছে এই অলংকৃত বিবৃতি দিয়ে: "এখন পর্যন্ত সবচেয়ে শক্তিশালী ওপেন-সোর্স মডেল।"

পূর্বসূরীর বিপরীতে, Kimi k2.5 কেবল একটি "আপগ্রেড করা সংস্করণ" নয়, বরং এটি একটি নেটিভ মাল্টিমোডাল মডেল যা 1.5T হাইব্রিড ভিজ্যুয়াল এবং টেক্সট টোকেন দিয়ে পূর্ব-প্রশিক্ষিত। এই ভিত্তির উপর, Kimi টিম ভিজ্যুয়াল এজেন্টিক ইন্টেলিজেন্স নামে একটি সিস্টেম তৈরি করেছে।

এর অর্থ হল, Kimi k2.5, যা ইতিমধ্যেই দীর্ঘ টেক্সট প্রক্রিয়াকরণে অত্যন্ত শক্তিশালী ছিল, আবারও একটি সুপার ফোরম্যানে পরিণত হয়েছে যার "চোখ" জটিল স্ক্রিনগুলি বুঝতে সক্ষম এবং "হাত" বুদ্ধিমান এজেন্টদের একটি বৃহৎ গোষ্ঠীকে নিয়ন্ত্রণ করতে সক্ষম। SWE-Bench Verified (প্রোগ্রামিং) এবং HLE (মানবসত্তার শেষ পরীক্ষা) এর মতো হার্ডকোর বেঞ্চমার্ক পরীক্ষায়, এটি কেবল DeepSeek V3 কে ছাড়িয়ে যায়নি, বরং একাধিক মেট্রিক্সে ক্লোজড-সোর্স GPT এবং Gemini কে ছাড়িয়ে গেছে।

"ব্যক্তিগত লড়াই" থেকে "সম্মিলিত চিন্তাভাবনা" পর্যন্ত

এই আপডেটে, এজেন্ট ক্লাস্টার সম্ভবত Kimi k2.5-এর সবচেয়ে বিঘ্নকারী উদ্ভাবন।

গত কয়েক বছরে, মডেলটি যতই শক্তিশালী হোক না কেন, যখন অত্যন্ত দীর্ঘ এবং জটিল কাজের মুখোমুখি হয় (যেমন "১০০ জন প্রতিযোগীর মূল্য নির্ধারণের কৌশল সম্পর্কে গবেষণা করতে আমাকে সাহায্য করুন"), তখন সাধারণত সেগুলি কেবল ক্রমানুসারে প্রক্রিয়া করা যেতে পারে: প্রথমটি পরীক্ষা করুন, তারপর দ্বিতীয়টি পরীক্ষা করুন… মাঝখানে একবার কোনও ত্রুটি দেখা দিলে, পুরো টাস্ক চেইনটি ভেঙে যাওয়ার সম্ভাবনা থাকে।

Kimi k2.5 একটি একেবারে নতুন Agent Swarm আর্কিটেকচার প্রবর্তন করেছে, যার মূল ধারণা হল Scaling Out, Not Just Up – শুধু বড় হওয়া নয়, বরং আরও কিছু করা। Swarm মোডে, Kimi k2.5 স্বয়ংক্রিয়ভাবে কমান্ডার হিসেবে কাজ করে। যখন একটি জটিল কাজ দেওয়া হয়, তখন এটি একা কাজ করে না, বরং তাৎক্ষণিকভাবে এবং গতিশীলভাবে 100 জন এজেন্টকে ফোরম্যান হিসেবে তৈরি করে এবং নির্দেশ দেয়।

এই বুদ্ধিমান এজেন্টরা "এআই অনুসন্ধানকারী," "এআই পদার্থবিদ," "এআই ফ্যাক্ট চেকার" ইত্যাদি হতে পারে। তারা একজন কমান্ডারের নেতৃত্বে সমান্তরালভাবে কাজ করে। প্রযুক্তিগত ডকুমেন্টেশন দেখায় যে কিমি কে২.৫ ১৫০০টি পর্যন্ত সমান্তরাল টুল কল সমর্থন করে।

ফলাফল তাৎক্ষণিক। "১০০টি বিশেষ ক্ষেত্রের শীর্ষ ইউটিউব ব্লগারদের খুঁজে বের করা" কাজের আনুষ্ঠানিক প্রদর্শনে, মানুষের কয়েক দিন সময় লাগবে, ঐতিহ্যবাহী স্বতন্ত্র এআই-এর কয়েক ঘন্টা সময় লাগবে, যেখানে কিমি এজেন্ট সোয়ার্মের মাত্র কয়েক মিনিট সময় লাগবে।

তথ্য থেকে দেখা যায় যে, ঐতিহ্যবাহী মডেলের তুলনায়, সোয়ার্ম আর্কিটেকচার এন্ড-টু-এন্ড কাজের সম্পাদনের সময় ৮০% কমিয়ে দেয় এবং সামগ্রিক দক্ষতা ৪.৫ গুণ উন্নত করে।

এই অবিশ্বাস্য সমান্তরালতা পরিচালনা করার জন্য, কিমির দল PARL (প্যারালাল-এজেন্ট রিইনফোর্সমেন্ট লার্নিং) নামক একটি প্রশিক্ষণ পদ্ধতি ব্যবহার করেছিল। এটি মডেলটিকে পূর্বনির্ধারিত কর্মপ্রবাহ ছাড়াই স্বায়ত্তশাসিতভাবে কাজগুলি ভেঙে ফেলা, কাজগুলি বিতরণ করা এবং সমান্তরাল প্রতিক্রিয়া প্রক্রিয়া করার অনুমতি দেয়। এমনকি যদি একটি সাব-এজেন্ট ব্যর্থ হয় (সিরিয়াল কোলাপস), কমান্ডার দ্রুত সনাক্ত করতে এবং পুনঃনির্ধারণ করতে পারে।

ভিএলএম পুরনো; এটি "ভিশন ইঞ্জিনিয়ারদের" জন্য।

যদি সোয়ার্ম কিমির "মস্তিষ্ক" হয়, তাহলে ভিজ্যুয়াল কোডিং হল তার বিকশিত "চোখ"।

K2.5 মডেলটি সহজ প্রাকৃতিক ভাষার সংলাপ থেকে সম্পূর্ণ ফ্রন্ট-এন্ড ইন্টারফেস তৈরি করতে সহায়তা করে এবং ইন্টারেক্টিভ লেআউট এবং স্ক্রোল ট্রিগারের মতো গতিশীল প্রভাবগুলি কার্যকরভাবে পরিচালনা করতে পারে। Kimi K2.5 এর আগে, বাজারে থাকা বেশিরভাগ VLM (ভিজ্যুয়াল ল্যাঙ্গুয়েজ মডেল) এখনও "চিত্র-ভিত্তিক" পর্যায়ে ছিল – আপনি এটিকে একটি ওয়েবপৃষ্ঠার একটি স্ক্রিনশট দেন এবং এটি আপনাকে বলে "এখানে একটি লাল বোতাম আছে"। কিন্তু আপনি যদি এটিকে সেই ওয়েবপৃষ্ঠাটি প্রতিলিপি করার জন্য কোড লিখতে বলেন, তবে এটি প্রায়শই কেবল একটি কঠোর HTML কঙ্কাল তৈরি করতে পারে এবং ইন্টারঅ্যাকশন লজিকটি মোটেও বুঝতে পারে না।

Kimi k2.5 ঐতিহ্যবাহী VLM-এর তুলনায় উল্লেখযোগ্য সুবিধা অর্জন করে। নীচের উদাহরণটি একটি ভিডিও থেকে একটি ওয়েবসাইট পুনর্গঠনের প্রক্রিয়াটি প্রদর্শন করে; বাম দিকটি মূল ভিডিওটি দেখায় এবং ডান দিকটি Kimi দ্বারা পুনর্গঠিত ওয়েবসাইটটি দেখায়।

আপনাকে যা করতে হবে তা হল একটি ওয়েবপেজ অপারেশনের একটি ভিডিও রেকর্ড করে Kimi k2.5 এ ফিড করতে হবে। এটি কেবল স্ট্যাটিক UI লেআউটই বুঝতে পারে না, বরং গতিশীল ইন্টারঅ্যাকশন লজিকও বুঝতে পারে—যেমন স্ক্রোল-ট্রিগারড ইফেক্ট এবং জটিল কার্ড-ফ্লিপিং অ্যানিমেশন। তারপর, এটি সরাসরি সম্পূর্ণ CSS এবং JS লজিক ধারণকারী ব্যবহারযোগ্য কোড তৈরি করবে।

আরও চিত্তাকর্ষক হল এর ভিজ্যুয়াল ডিবাগিং ক্ষমতা। কোড লেখার পর, Kimi k2.5 রেন্ডার করা পৃষ্ঠাটি "একবার দেখবে"। যদি এটি দেখতে পায় যে "বোতামটি বাঁকা" অথবা "রঙটি মূল ভিডিওর সাথে অসঙ্গতিপূর্ণ", তাহলে এটি ভিজ্যুয়াল প্রতিক্রিয়ার উপর ভিত্তি করে কোডটি পরিবর্তন করবে, ঠিক একজন মানব প্রকৌশলীর মতো, অন্ধভাবে এটি পুনরুজ্জীবিত করার পরিবর্তে।

"পর্যবেক্ষণ-কোডিং-যাচাই-সংশোধন"-এর এই বন্ধ-লুপ ক্ষমতা Kimi k2.5 কে ওপেন-সোর্স জগতের অবিসংবাদিত নতুন রাজা করে তোলে, কোড এবং দৃষ্টিভঙ্গি উভয়ই সমানভাবে পরিচালনা করে।

অনুমোদিত SWE-Bench যাচাইকৃত পরীক্ষায়, Kimi k2.5 সর্বোচ্চ স্কোর ৭৬.৮ অর্জন করেছে, যা কেবল GPT ৫.২ ছাড়িয়ে যায়নি বরং আরেকটি শীর্ষ-স্তরের ওপেন-সোর্স বেঞ্চমার্ক, DeepSeek V3.2 ছাড়িয়ে গেছে।

যখন সবাই একটি একক মডেলকে আরও বড় করে তোলার চেষ্টা করছে, তখন কিমি আরেকটি সম্ভাবনা দেখিয়েছে: চরম চাক্ষুষ উপলব্ধির মাধ্যমে বিশ্বকে বোঝা এবং বুদ্ধিমান এজেন্টদের একটি বিশাল গোষ্ঠীর মাধ্যমে বিশ্বকে রূপান্তরিত করা।

বর্তমানে, Kimi k2.5 Hugging Face-এ ওপেন সোর্স, এবং Agent Swarm মোড Kimi.com-এও উপলব্ধ। ব্যবহারকারী এবং ডেভেলপার উভয়ের জন্যই, এটি ২০২৬ সালে চেষ্টা করার জন্য সবচেয়ে লাভজনক ওপেন সোর্স মডেল হতে পারে।

#iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট অনুসরণ করতে আপনাকে স্বাগতম: iFanr (WeChat ID: ifanr), যেখানে যত তাড়াতাড়ি সম্ভব আরও উত্তেজনাপূর্ণ কন্টেন্ট আপনার কাছে উপস্থাপন করা হবে।

ifanr | মূল লিঙ্ক · মন্তব্য দেখুন · সিনা ওয়েইবো