কিমি কে২.৫ একটি “জয়ের মুহূর্ত” নিয়ে এসেছে।

K2.5 আপডেটটি গত দুই দিনে দেশীয় এবং আন্তর্জাতিকভাবে প্রচুর আলোচনার জন্ম দিয়েছে। এতে একটি নেটিভ মাল্টিমোডাল মডেল রয়েছে যা অত্যাধুনিক কোডিং এবং দৃষ্টি ক্ষমতা প্রদান করে, পাশাপাশি একটি স্বায়ত্তশাসিত এজেন্ট ঝাঁকের প্যারাডাইম – কাজ সম্পন্ন করার জন্য এজেন্টদের একটি দলকে আহ্বান করে। এটি অবিশ্বাস্যভাবে দুর্দান্ত শোনাচ্ছে।

বিভিন্ন দক্ষতা সম্পন্ন একাধিক এজেন্ট, এত দুর্দান্ত এবং মজাদার!

K2.5 এখন সম্পূর্ণরূপে প্রকাশিত এবং ক্লায়েন্ট ডিভাইসে তাৎক্ষণিক ব্যবহারের জন্য উপলব্ধ। K2.5 এজেন্ট একটি বিনামূল্যে ট্রায়াল অফার করে, যখন K2.5 ক্লাস্টার একটি পেইড বৈশিষ্ট্য, বর্তমানে শুধুমাত্র অ্যালেগ্রেটো প্ল্যানে উপলব্ধ। সাবস্ক্রিপশনের একটি পয়েন্ট সীমাও রয়েছে: প্রতি মাসে 47 পয়েন্ট থেকে শুরু করে, প্রতিটি কাজে 3 পয়েন্ট খরচ হয়।

সামগ্রিকভাবে, এটি যথেষ্ট। যদি আপনি নিশ্চিত না হন, তাহলে আপনি আজকের গিভওয়েতে অংশগ্রহণ করতে পারেন এবং প্রথমে এটি চেষ্টা করে দেখতে পারেন।

তবে, দীর্ঘদিনের Kimi ব্যবহারকারী হিসেবে, অবশ্যই আমাকে এটি কিনতে হয়েছিল। আমার কাছে অনেক ফাইল ছিল যেগুলো মার্জ করার প্রয়োজন ছিল, এবং আমি ম্যানুয়ালি কপি এবং পেস্ট করতে খুব অলস ছিলাম, তাই আমি সেগুলি Kimi-তে পাঠিয়েছিলাম এবং একসাথে সবগুলি পরিচালনা করার জন্য ক্লাস্টার মোড চালু করেছিলাম।

ক্লাস্টার মডেলে, কিমি এই ক্ষেত্রে একটি নকশা উপাদান যুক্ত করেছে: একটি নামের ট্যাগ নিচে পড়ে যাবে, যার মাধ্যমে আপনি দেখতে পাবেন কোন "দায়িত্বপ্রাপ্ত ব্যক্তি" কাজটি সম্পাদন করছেন।

ডকুমেন্টগুলি একত্রিত করার চূড়ান্ত ফলাফল বেশ ভালো ছিল, এবং আমি আরও পরামর্শ দিয়েছিলাম যে এটি প্রতিটি স্তরে উপশিরোনামগুলিকে সংগঠিত এবং সামঞ্জস্য করার জন্য ব্যবহার করা উচিত, যা বিশ্লেষণ, প্রস্তাবনা এবং সম্পাদনের একটি কর্মপ্রবাহের অনুমতি দেবে। তবে, ফর্ম্যাটিং পরীক্ষা করার জন্য স্থানীয়ভাবে ডকুমেন্টগুলি ডাউনলোড করা ভাল, কারণ কিমির অন্তর্নির্মিত প্রিভিউ ফাংশন কখনও কখনও প্রতিটি রাউন্ডে করা পরিবর্তনের প্রভাব সঠিকভাবে প্রতিফলিত করে না।

এর মাল্টি-কনকারেন্সি অপারেশন আরও পরীক্ষা করার জন্য, আমি অফিসিয়াল ডেমো উল্লেখ করেছি এবং একটি কাজ পরীক্ষা করেছি: গত তিন মাস ধরে ক্লাস্টারড এজেন্টের উপর সমস্ত সাহিত্য উদ্ধার করেছি, এটি একটি এক্সেল স্প্রেডশিটে সংকলিত করেছি এবং মূল অনুসন্ধান এবং গবেষণা উদ্ভাবনগুলি বের করেছি।

এবার, আরও "কর্মী" সাজানো ছিল, বিভিন্ন এজেন্ট সহায়তা প্রদানের জন্য ছুটে এসেছিল, এবং প্রতিটি ব্যক্তির নিজস্ব নির্ধারিত কাজ ছিল।

এতে আগের তুলনায় অনেক বেশি সময় লেগেছে, কিন্তু কোন সমস্যা নেই; আমি আপাতত এটি ব্যাকগ্রাউন্ডে চলতে দিতে পারি। ইতিমধ্যে, আমি এর মাল্টিমোডাল ক্ষমতা পরীক্ষা করার জন্য একটি কাজও বরাদ্দ করেছি।

এটি কিমিতে আপলোড করা মূল উৎস চিত্র; ভিডিও সংস্করণে আরও অ্যানিমেশন রয়েছে। কিমির কাজ হল সমস্ত নকশা উপাদান এবং শৈলী সংরক্ষণ করে এই নকশাটিকে একটি ওয়েবপেজে রূপান্তর করা। প্রম্পটটি সহজ, কিন্তু আসল কাজটি জটিল: এর জন্য চিত্রটি সনাক্ত করা এবং বোঝা, কাঁচা চিত্র তৈরি করা এবং ফ্রন্ট-এন্ড লেখা প্রয়োজন।

এই কাজটি করতে যথেষ্ট সময় লেগেছিল, কিন্তু চূড়ান্ত ফলাফলটি দুর্দান্ত ছিল। কিছু ছোটখাটো সমস্যা ছিল, যেমন ইমেজ লেআউট, হোভার ইফেক্ট এবং নেভিগেশন সমস্যা। তবে, মূল ডিজাইনের উপাদানগুলি বজায় রাখা হয়েছিল এবং ওয়েবসাইটের কার্যকারিতা সম্পূর্ণ ছিল।

পিছনে ফিরে তাকালে, সাহিত্য অনুসন্ধানের কাজটিও সম্পন্ন হয়েছে, এবং একটি সুন্দর এক্সেল স্প্রেডশিট তৈরি করা হয়েছে:

চূড়ান্ত পরীক্ষার কাজ ছিল Xiaohongshu (লিটল রেড বুক) এর প্রভাবশালীদের খুঁজে বের করা, বিশেষ করে ৫,০০০ এরও বেশি ফলোয়ার এবং ১০০ টিরও বেশি পোস্ট সহ টেক ব্লগারদের খুঁজে বের করা। এই দুটি শর্ত আসলে বেশ নমনীয়, যা অনুসন্ধানকে খুব বিস্তৃত করে তোলে।

কিমির প্রথম সমস্যা ছিল যে সে Xiaohongshu অ্যাক্সেস করতে পারছিল না। আসলে, GPTagent-এর ব্যবহৃত পদ্ধতির মতো ব্যবহারকারীকে সক্রিয়ভাবে জিজ্ঞাসা করে এটি সমাধান করা যেতে পারে।

কিন্তু তাতেও কাজ হয়নি। কিমি পরিবর্তে নিউর‍্যাঙ্কে ডেটা স্ক্র্যাপ করার জন্য যান, যা ওয়েবসাইটের অনুমতি এড়িয়ে যায় এবং তাকে সরাসরি নম্বর অ্যাক্সেস করার সুযোগ দেয়। এটি খুব একটা ভালো কৌশল ছিল না, কারণ তিনি খুব কম সংখ্যক ব্লগার খুঁজে পেতেন, যা স্পষ্টতই Xiaohongshu-তে যা পাওয়া যায় তার তুলনায় অনেক বেশি। তদুপরি, প্ল্যাটফর্ম থেকে বাদ দেওয়া তাকে তার ভিজ্যুয়াল ক্ষমতা প্রদর্শন করতে বাধা দেয়, কারণ তিনি কেবল সহজলভ্য ডেটা স্ক্র্যাপ করছিলেন।

তবে সামগ্রিকভাবে, সোয়ার্ম এজেন্ট নির্ভরযোগ্যতার অনুভূতি দেয়। একজন একক এজেন্ট কি এই কাজগুলি করতে পারে? অবশ্যই, এটি করতে পারে, তবে এতে সময় লাগে এবং ত্রুটির সম্ভাবনা থাকে। একদল লোক এটি করলে আরও বেশি আশ্বাস পাওয়া যায়।

নতুনত্ব কোথায়?

এই মুহুর্তে, আপনি হয়তো জিজ্ঞাসা করতে পারেন: এটা কি শুধু মাল্টি-এজেন্ট নয়? অনেক কোম্পানি এটা করছে।

মূল পার্থক্য হলো "কে বস হবে"।

ঐতিহ্যবাহী মাল্টি-এজেন্ট সিস্টেমে, মানুষকে পুরো কর্মপ্রবাহটি আগে থেকেই ডিজাইন করতে হয়: কে কীসের জন্য দায়ী, কী প্রথমে আসে এবং ফলাফলগুলি কীভাবে সংক্ষিপ্ত করা হয়। এটি ব্লক দিয়ে তৈরি করার মতো; আপনাকে প্রথমে নীলনকশা আঁকতে হবে। এজেন্ট সোয়ার্মের মূল উদ্ভাবন এই সত্যের মধ্যে নিহিত যে AI নিজেই ডিজাইনার।

কিমির দল PARL (প্যারালাল-এজেন্ট রিইনফোর্সমেন্ট লার্নিং) নামক একটি প্রশিক্ষণ পদ্ধতি ব্যবহার করে মডেলটিকে "কাজগুলি পচানোর" এবং "সম্পদ বরাদ্দ করার" ক্ষমতা শেখানোর চেষ্টা করেছে। আপনাকে এটিকে "প্রথমে তথ্য অনুসন্ধানের জন্য 3 জনকে পাঠান, তারপর সারাংশ লেখার জন্য 2 জনকে পাঠান" বলার দরকার নেই, এটি নিজেই নির্ধারণ করতে পারে: এই কাজটি কত ভাগে বিভক্ত করা উচিত? প্রতিটি অংশ কার করা উচিত? কখন এটি সমান্তরালভাবে করা উচিত এবং কখন এটি ক্রমানুসারে করা উচিত?

অন্য কথায়, মাল্টি-এজেন্ট হল "মানুষ দ্বারা সাজানো একটি সিম্ফনি অর্কেস্ট্রা", অন্যদিকে এজেন্ট সোয়ার্ম হল এআই দ্বারা একত্রিত একটি জ্যাজ দল।

আরেকটি সহজেই বিভ্রান্তিকর ধারণা হল MoE: বিশেষজ্ঞদের মিশ্রণ। অনেক মূলধারার বৃহৎ-স্কেল মডেল অভ্যন্তরীণভাবে MoE স্থাপত্য ব্যবহার করে, কিন্তু তারা এজেন্ট সোয়ার্ম থেকে সম্পূর্ণ আলাদা।

MoE মডেলের মধ্যেই ঘটে। আপনি এটিকে এভাবে ভাবতে পারেন: মডেলের ভেতরে বসবাসকারী "বিশেষজ্ঞদের" একটি দল, এবং প্রতিবার যখন কোনও কাজ প্রক্রিয়া করা হয়, তখন মডেলটি গতিশীলভাবে সিদ্ধান্ত নেয় যে কোন বিশেষজ্ঞদের অংশগ্রহণের জন্য সক্রিয় করা উচিত। যাইহোক, এই বিশেষজ্ঞদের কোনও স্বাধীন পরিচয় নেই, এবং তারা একে অপরের সাথে সহযোগিতাও করে না; তারা কেবল মডেলের মধ্যে বিভিন্ন গণনামূলক পথ।

এজেন্ট সোর্ম মডেলের বাইরে ঘটে। প্রতিটি সাব-এজেন্ট একটি অপেক্ষাকৃত স্বাধীন এক্সিকিউশন ইউনিট যার নিজস্ব টাস্ক উদ্দেশ্য রয়েছে, সমান্তরালভাবে চলতে পারে এবং এমনকি টুল (যেমন ওয়েব পৃষ্ঠা অনুসন্ধান করা বা কোড লেখা) ব্যবহার করতে পারে। তাদের মধ্যে সম্পর্কটি একটি সত্যিকারের "সহযোগিতা", একটি সাধারণ "সক্রিয়করণ" সম্পর্ক নয়।

কিছুটা অস্পষ্ট উপমা ব্যবহার করতে গেলে: MoE হল একজন ব্যক্তির মস্তিষ্কের বিভক্ত কাজের মতো, অন্যদিকে Agent Swarm হল একটি কোম্পানিতে টিম কোলাবোরেশনের মতো ।

বাস্তব-বিশ্বের পরীক্ষা এবং অফিসিয়াল প্রদর্শনের উপর ভিত্তি করে, এজেন্ট সোয়ার্ম কমপক্ষে নিম্নলিখিত কার্য বিভাগগুলিতে ব্যতিক্রমীভাবে ভাল পারফর্ম করে:

প্রথম বিভাগটি হল বৃহৎ পরিসরে তথ্য সংগ্রহ। উদাহরণ হিসেবে অফিসিয়াল কেসে ১০০টি ক্ষেত্রে স্রষ্টাদের জরিপ এবং আমাদের পরীক্ষায় Xiaohongshu ব্লগার অনুসন্ধান অন্তর্ভুক্ত। এই ধরণের কাজ পরিচালনার সাধারণ বৈশিষ্ট্য হল এটি "সমান্তরাল" – প্রতিটি উপ-কাজ তুলনামূলকভাবে স্বাধীন এবং খুব বেশি মধ্যবর্তী সমন্বয়ের প্রয়োজন হয় না।

দ্বিতীয় বিভাগটি হল জটিল কাজ যার মধ্যে দৃষ্টিভঙ্গি এবং কোড উভয়ই জড়িত। Kimi K2.5 জোর দেয় যে এটি একটি "নেটিভ মাল্টিমোডাল" মডেল, যা ছবি এবং ভিডিও বুঝতে সক্ষম। এজেন্ট সোয়ার্মের সাথে একত্রিত হলে, এটি UI স্ক্রিনশট বিশ্লেষণ করতে পারে এবং লেআউট, স্টাইল এবং ইন্টারঅ্যাকশন লজিক পরিচালনা করার জন্য বিভিন্ন এজেন্ট প্রেরণ করতে পারে, অবশেষে সম্পূর্ণ ফ্রন্ট-এন্ড কোড তৈরি করতে পারে।

তৃতীয় বিভাগটি হল দীর্ঘ নথি প্রক্রিয়াকরণ। অফিসিয়াল ডকুমেন্টেশনে বলা হয়েছে যে কিমি এজেন্ট "১০,০০০ শব্দের কাগজ বা ১০০ পৃষ্ঠার একটি নথি" পরিচালনা করতে পারে, যা ওয়ার্ড অ্যানোটেশন, এক্সেল পিভট টেবিল এবং ল্যাটেক্স সূত্রের মতো উন্নত বৈশিষ্ট্যগুলিকে সমর্থন করে। এজেন্ট সোয়ার্ম দীর্ঘ নথিগুলিকে একাধিক অধ্যায়ে বিভক্ত করতে পারে, যার ফলে বিভিন্ন এজেন্ট সমান্তরালভাবে প্রক্রিয়া করতে পারে এবং তারপরে সেগুলিকে একটি একীভূত বিন্যাসে একত্রিত করতে পারে – ঠিক প্রাথমিক পরীক্ষার ক্ষেত্রের মতো।

তবে, এখনও খুব বেশি উত্তেজিত হবেন না; এজেন্ট সোয়ার্ম "প্রতারণা" করছে না। ব্যবহারিক ব্যবহারে, আপনি বেশ কয়েকটি স্পষ্ট সীমাবদ্ধতা খুঁজে পাবেন:

প্রথমত, কাজটি নিজেই "পচনশীল" হতে হবে। যদি কাজের ধাপগুলির মধ্যে দৃঢ় নির্ভরতা থাকে – যেমন "প্রথমে যুক্তিটি চিন্তা করা, তারপর প্রমাণ খুঁজে বের করা এবং অবশেষে উপসংহার লেখা" – তাহলে তাদের সমান্তরালভাবে চালাতে বাধ্য করা আসলে ভালোর চেয়ে বেশি ক্ষতি করবে।

দ্বিতীয়ত, খরচ উল্লেখযোগ্যভাবে বৃদ্ধি পাবে। ১০০টি প্রক্সি একসাথে কাজ করার অর্থ হল ১০০ গুণ বেশি API কল। যদিও মোট সময় কমে গেছে, টোকেন খরচ যথেষ্ট।

তৃতীয়ত, গুণমানটি একক এজেন্টের চেয়ে ভালো নয়। গভীর যুক্তির প্রয়োজন এমন কিছু কাজের জন্য, যেমন গাণিতিক প্রমাণ বা জটিল প্রোগ্রামিং সমস্যা, একক এজেন্টের "গভীর চিন্তাভাবনা মোড" আসলে আরও নির্ভরযোগ্য। এজেন্ট সোয়ার্মের সুবিধা তার "প্রস্থ" এবং "গতিতে", "গভীরতা" নয়। প্রকৃত পরীক্ষায়, কিমি কিছু কাজের জন্য স্বয়ংক্রিয়ভাবে একটি একক-এজেন্ট মডেলে স্যুইচ করে, যা কিমির দলের সদস্যরা রেডিটের অনলাইন প্রশ্নোত্তরে নিশ্চিত করেছেন।

কিমির দলের কল্পনার ভবিষ্যৎ

রেডডিট এএমএ (আস্ক মি এনিথিং) সেশনের সময়, কিমির দল প্রযুক্তি, পণ্য এবং দৃষ্টিভঙ্গি সম্পর্কে অসংখ্য প্রশ্নের উত্তর দিয়েছে। এই উত্তরগুলির মাধ্যমে, আমরা এজেন্ট সোয়ার্ম এবং এমনকি সামগ্রিকভাবে এআই-এর ভবিষ্যত সম্পর্কে তাদের চিন্তাভাবনা একত্রিত করতে পারি।

এজেন্ট সোয়ার্মের ভবিষ্যৎ উন্নয়ন সম্পর্কে জিজ্ঞাসা করা হলে, কিমির দল বেশ কয়েকটি দিকনির্দেশনা প্রকাশ করে:

[স্মার্টার শিডিউলিং] বর্তমান এজেন্ট সোয়ার্ম স্বয়ংক্রিয়ভাবে কাজগুলিকে বিচ্ছিন্ন করতে পারে এবং সাব-এজেন্ট তৈরি করতে পারে, তবে শিডিউলিং কৌশলটি এখনও তুলনামূলকভাবে "মোটা"। ভবিষ্যতে, আশা করা হচ্ছে যে আরও সূক্ষ্ম সম্পদ বরাদ্দ স্থাপন করা যেতে পারে – উদাহরণস্বরূপ, কাজের জরুরিতা, জটিলতা এবং নির্ভরতার উপর ভিত্তি করে "কতজন লোক পাঠাতে হবে এবং কতক্ষণ কাজ করতে হবে" তা গতিশীলভাবে নির্ধারণ করা।

[গভীর সহযোগিতা] বর্তমানে, সাব-এজেন্টদের মধ্যে যোগাযোগ সীমিত, যার মধ্যে প্রধানত "প্রত্যেকে তাদের কাজ সম্পন্ন করে এবং ফলাফল একত্রিতকরণের জন্য লিডের কাছে জমা দেয়"। ভবিষ্যতে, সাব-এজেন্টদের মধ্যে সরাসরি সহযোগিতা সমর্থন করা যেতে পারে, যেমন "এজেন্ট A সমস্যা আবিষ্কার করলে সহায়তার জন্য এজেন্ট B কে সক্রিয়ভাবে কল করতে পারে।"

[ওয়াইডার টুল ইন্টিগ্রেশন] কিমি টিম জানিয়েছে যে তারা এজেন্টের জন্য প্রয়োজনীয় টুল লাইব্রেরি সম্প্রসারণ করছে, যার মধ্যে আরও অফিস সফটওয়্যার, ডেভেলপমেন্ট এনভায়রনমেন্ট এবং ডেটা বিশ্লেষণ টুল অন্তর্ভুক্ত রয়েছে কিন্তু সীমাবদ্ধ নয়। লক্ষ্য হল এজেন্ট সোয়ার্মকে "এন্ড-টু-এন্ড" জটিল কর্মপ্রবাহ সম্পূর্ণ করতে সক্ষম করা।

AMA-এর আরেকটি আকর্ষণীয় প্রশ্ন ছিল: অনেকেই বলছেন যে স্কেলিং আইন তার সীমায় পৌঁছেছে। কিমির দল এই বিষয়টিকে কীভাবে দেখে?

কিমির দল প্রতিক্রিয়া জানিয়েছিল যে এজেন্ট ক্লাস্টারগুলি তাদের প্রাথমিক প্রচেষ্টা ছিল। ভবিষ্যতের দিকে তাকালে, সম্ভবত এমন একটি মডেল আবির্ভূত হবে যার জন্য খুব কম বা কোনও পূর্ববর্তী মানব তথ্যের প্রয়োজন হবে না।

এই দৃষ্টিভঙ্গি আদর্শবাদী শোনাতে পারে, কিন্তু ঘনিষ্ঠভাবে পরীক্ষা করলে এর গভীর তাৎপর্য রয়েছে। গত দুই বছর ধরে, AI ক্ষেত্রটি "প্যারামিটার স্কেলিং"-এর উপর দৃষ্টি নিবদ্ধ করেছে – মডেলগুলি ক্রমশ বড় হচ্ছে এবং মডেলগুলি ক্রমশ ব্যয়বহুল হয়ে উঠছে। এজেন্ট সোয়ার্ম একটি ভিন্ন পদ্ধতির প্রতিনিধিত্ব করে: একটি একক সুপারব্রেনকে সবকিছু করার পরিবর্তে, মস্তিষ্কের একটি দলকে একসাথে কাজ করা ভাল, প্রতিটির নিজস্ব কাজ রয়েছে।

এটি AGI-এর জন্য আরও বাস্তবসম্মত পথ হতে পারে: একটি মৌমাছিকে তুচ্ছ মনে হতে পারে, কিন্তু যখন হাজার হাজার মৌমাছি একসাথে কাজ করে, তখন তারা জটিল মৌচাক তৈরি করতে পারে।

#iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট অনুসরণ করতে আপনাকে স্বাগতম: iFanr (WeChat ID: ifanr), যেখানে যত তাড়াতাড়ি সম্ভব আরও উত্তেজনাপূর্ণ কন্টেন্ট আপনার কাছে উপস্থাপন করা হবে।

ifanr | মূল লিঙ্ক · মন্তব্য দেখুন · সিনা ওয়েইবো