ওপেন সোর্সের নতুন রাজা! প্রথমবারের মতো GPT-5 কে পরাজিত করে, Kimi K2 এর বাস্তব-বিশ্ব পরীক্ষা! ভাবছেন, চীনা AI পাগল হয়ে যাচ্ছে!

মোট ১ ট্রিলিয়ন প্যারামিটার সহ এখন পর্যন্ত সবচেয়ে বড় এবং সেরা ওপেন-সোর্স মডেল কিমি কে২ থিংকিং একাধিক বেঞ্চমার্ক পরীক্ষায় শীর্ষে রয়েছে।

▲ কিমি কে২ থিংকিং টিএইউ (এজেন্ট টুল ইনভোকেশন) লিডারবোর্ডে প্রথম স্থান অধিকার করেছে, ওপেনএআই এবং অ্যানথ্রপিকের ফ্ল্যাগশিপ মডেলগুলিকে ছাড়িয়ে গেছে।

আত্মপ্রকাশের পর, এটি তাৎক্ষণিকভাবে একাধিক বেঞ্চমার্ক তালিকায় প্রথম স্থান অর্জন করে। কিমি কেবল ওপেন-সোর্স মডেলগুলির সাথে প্রতিযোগিতা করার ওপেন-সোর্স গেম খেলে না; বরং, এটি আত্মবিশ্বাসের সাথে GPT-5 এবং Claude 4.5 Sonnet এর মতো ক্লোজড-সোর্স মডেলগুলিকে একত্রিত করে।

▲ ঝিপু এবং মিনিম্যাক্সের প্রাকৃতিক ভাষা প্রক্রিয়াকরণ বিভাগের প্রধানরা, সেইসাথে হাগিংফেসের সহ-প্রতিষ্ঠাতা, সকলেই মন্তব্য বিভাগে অভিনন্দন বার্তা রেখে গেছেন।

টুল ব্যবহারের তালিকায় প্রথম স্থান অধিকার করার পাশাপাশি, কিমি কে২ থিংকিং হিউম্যান লাস্ট এক্সাম (এইচএলই), ব্রাউজকম্প এবং অন্যান্য বেঞ্চমার্ক পরীক্ষায় শীর্ষস্থানীয় উন্নত মডেলগুলির মধ্যে ধারাবাহিকভাবে স্থান পেয়েছে।

▲ এটি আন্তঃবিষয়ক বিশেষজ্ঞ-স্তরের সমস্যার জন্য HLE লিডারবোর্ডে এবং স্বায়ত্তশাসিত অনুসন্ধানের জন্য তিনটি লিডারবোর্ডে প্রথম স্থান অধিকার করেছে; প্রোগ্রামিং ক্ষমতার জন্য তিনটি লিডারবোর্ডে এর স্কোর সেরা ক্লড বা GPT মডেলের কাছাকাছি ছিল।

উচ্চ স্তরের এজেন্ট ক্ষমতার দাবিদার প্রোগ্রামিং কাজই হোক, অথবা সাধারণ যুক্তি, লেখা এবং গভীর অনুসন্ধান, কিমি কে২ থিংকিং-এর কর্মক্ষমতা তর্কাতীতভাবে বর্তমানে উপলব্ধ একটি বন্ধ মডেলের সবচেয়ে কাছাকাছি ওপেন-সোর্স মডেল ।

জুলাই মাসে প্রকাশিত হওয়ার পর থেকে, যেখানে এটি একটি স্বায়ত্তশাসিত গোয়েন্দা রোডম্যাপের অংশ হিসাবে অবস্থান করেছিল, কিমি কে২ থিংকিং এজেন্টিক ইন্টেলিজেন্সের উপরও দৃষ্টি নিবদ্ধ করে। এটি যুক্তির জন্য একটি হাইব্রিড এক্সপার্ট (MoE) মডেল, যার মোট 1T প্যারামিটার, 32B অ্যাক্টিভেশন প্যারামিটার এবং 256K প্রেক্ষাপট দৈর্ঘ্য রয়েছে।

এজেন্ট টুল কলের সময় K2 থিংকিং চিন্তা প্রক্রিয়াগুলিকে একত্রে ভাগ করে নিতে পারে, টাস্ক উদ্দেশ্য বজায় রেখে ক্রমাগত 200 থেকে 300টি ক্রমিক টুল কল করে। যদিও অনুরূপ ক্লোজড-সোর্স মডেলগুলিতে টুল কলগুলি কিছুটা মানদণ্ডে পরিণত হয়েছে, K2 থিংকিং সম্ভবত প্রথম ওপেন-সোর্স মডেল যার এত বিস্তৃত টুল কল ক্ষমতা রয়েছে।

K2 0905 এর তুলনায়, আমরা কিমির টেকনিক্যাল ব্লগ থেকে নির্দিষ্ট কাজে K2 চিন্তাভাবনার উন্নতির সারসংক্ষেপ তুলে ধরেছি, এই মূল বিষয়গুলি তুলে ধরেছি।

জটিল সমস্যার সমাধান যার জন্য শত শত ধাপের যুক্তি প্রয়োজন : এটি একটি বৃহৎ লক্ষ্যকে শত শত উপ-কার্যে বিভক্ত করতে পারে এবং তারপর একটি প্রকল্প ব্যবস্থাপকের মতো একের পর এক সেগুলি সম্পাদন করতে পারে। উদ্ধৃত সরকারী উদাহরণ হল যে এটি 23টি অন্তর্নির্মিত যুক্তি পদক্ষেপ এবং টুল কলের মাধ্যমে একটি ডক্টরেট-স্তরের গাণিতিক সমস্যা সফলভাবে সমাধান করেছে।
আরও সঠিক এবং বিস্তারিত তথ্য খুঁজুন : চিন্তাভাবনা → অনুসন্ধান → ব্রাউজার ব্যবহার → চিন্তাভাবনা → কোডের একটি গতিশীল চক্র সম্পাদন করে, K2 Thinking বারবার অনলাইনে অনুসন্ধান করতে পারে, ওয়েব পৃষ্ঠাগুলি ব্রাউজ করতে পারে এবং অস্পষ্ট বা অস্পষ্ট অনুসন্ধানের প্রয়োজনীয়তার মুখোমুখি হলে প্রমাণ যাচাই করতে পারে যতক্ষণ না এটি সঠিক উত্তর খুঁজে পায়।
ধারণাগুলিকে সরাসরি ব্যবহারযোগ্য পণ্যে রূপান্তর করুন : K2 থিংকিং বিশেষ করে ফ্রন্ট-এন্ড কোডে (যেমন HTML এবং React) ভালো, এবং অন্যান্য Vibe কোডিং পণ্যের মতো, এটি সরাসরি আমাদের ধারণাগুলিকে সম্পূর্ণ কার্যকরী এবং প্রতিক্রিয়াশীল ওয়েব পৃষ্ঠা বা সফ্টওয়্যার পণ্যে রূপান্তর করতে পারে।
আরও মানবিক প্রবন্ধ লিখুন : যুক্তিসঙ্গতভাবে কঠোর পেশাদার প্রবন্ধ, কল্পনাপ্রসূত সৃজনশীল গল্প, এমনকি সহানুভূতির প্রয়োজন এমন আবেগগত পরামর্শ। K2 চিন্তাভাবনা কথোপকথন এবং প্রশ্নের উত্তর দেওয়ার মতো সাধারণ দক্ষতায় আরও দৃঢ় এবং সূক্ষ্ম যুক্তি এবং লেখার দক্ষতা অর্জন করতে পারে।

বর্তমানে, Kimi K2 Thinking কে Kimi অফিসিয়াল ওয়েবসাইটে চ্যাট মোডে চালু করা হয়েছে।

তবে, এটা মনে রাখা গুরুত্বপূর্ণ যে কিমি ব্যাখ্যা করেছেন যে দ্রুত এবং হালকা ব্যবহারকারীর অভিজ্ঞতা নিশ্চিত করার জন্য, বর্তমান ওয়েব চ্যাট সংস্করণটি নির্দিষ্ট কিছু সরঞ্জামের ব্যবহার এবং ফ্রিকোয়েন্সি বেছে বেছে কমিয়ে দেয়। অতএব, kimi.com-এ সরাসরি চ্যাট করলে উপরে উল্লিখিত বেঞ্চমার্ক পরীক্ষায় চরম স্কোরগুলি সম্পূর্ণরূপে পুনরুত্পাদন করতে সক্ষম নাও হতে পারে।

▲পরীক্ষার সময়, একটি বার্তা উপস্থিত হয়েছিল যেখানে লেখা ছিল, "পিক কম্পিউটিং শক্তি অপর্যাপ্ত, দয়া করে ধৈর্য ধরে অপেক্ষা করুন।"

এছাড়াও, কিমি কে২ থিংকিং-এর ক্ষমতাকে সম্পূর্ণরূপে কাজে লাগাতে পারে এমন একটি ফুল এজেন্টিক মোড শীঘ্রই আপডেট করা হবে। ডেভেলপাররা কিমি কে২ থিংকিং এপিআই-এর মাধ্যমেও এটি উপভোগ করতে পারবেন।

আমরা দ্রুত শুরু করেছিলাম এবং বেশ কয়েকটি সাধারণ প্রকল্প পরীক্ষা করেছিলাম। দেখা যাক আসল অভিজ্ঞতা কেমন হয়।

প্রথম কাজ ছিল প্রোগ্রামিং। আমরা তাকে স্ট্যান্ডার্ড গোমোকু নিয়মের উপর ভিত্তি করে দক্ষতা সহ একটি ছোট গোমোকু গেম তৈরি করতে বলেছিলাম, যেখানে খেলোয়াড়রা দক্ষতা ব্যবহার করতে পারে।

এটি অবিশ্বাস্যভাবে দ্রুত ছিল, যা আমাকে অবাক করে দিয়েছিল। এটি মাত্র এক বা দুই মিনিটের মধ্যে সমস্ত কোড সম্পন্ন করেছিল এবং দক্ষতাগুলি আসলে ব্যবহারযোগ্য ছিল।

তারপর আছে সাইকেলে পেলিক্যান, বৃহৎ আকারের প্রোগ্রামিং ক্ষমতা পরীক্ষা করার জন্য একটি ক্লাসিক প্রকল্প, এর SVG কোড জেনারেশন পরীক্ষা করা।

যদিও K2 Thinking ইনফারেন্স মডেল ব্যবহার করে, এর ইনফারেন্স গতি অবিশ্বাস্যভাবে দ্রুত; এই গতিশীল SVG কোডটি এক মিনিটেরও কম সময়ে তৈরি করা হয়েছিল। যদিও এই পেলিক্যানটি কিছুটা বিকৃত মনে হচ্ছে।

যখন আপনি K2 Thinking সক্ষম করবেন, তখন আপনি ওয়েব অনুসন্ধানও ব্যবহার করতে পারবেন। যখন আপনি এটিকে একটি আবহাওয়া কার্ড তৈরি করতে বলবেন, তখন আপনি দেখতে পাবেন যে Kimi স্বয়ংক্রিয়ভাবে অনলাইনে সর্বজনীনভাবে উপলব্ধ তথ্য অনুসন্ধান করবে এবং একই সাথে কোডটি বাস্তবায়ন করবে।

▲ব্রাউজারের লোকেশন এপিআই কল করা আসলেই সম্ভব, কিন্তু কিমি শেষে উল্লেখ করেছেন যে সংশ্লিষ্ট ম্যাপ এপিআই এবং আবহাওয়া তথ্য এপিআই ইত্যাদি ইনপুট করা প্রয়োজন।

আমরা এমন এক যুগে প্রবেশ করেছি যেখানে সবাই ভাইব কোডিং ব্যবহার করছে। আপনি একজন সাধারণ ব্যবহারকারী বা প্রোগ্রামার, আপনার ধারণাগুলি আরও দ্রুত বাস্তবায়নের জন্য আপনি K2 Thinking এর প্রোগ্রামিং দক্ষতা ব্যবহার করতে পারেন।

এজেন্ট অনুসন্ধানের কাজে, আমরা জটিল সমস্যাগুলি ভেঙে ফেলা, সক্রিয়ভাবে অনুসন্ধান করা এবং অনলাইনে খুঁজে পাওয়া কঠিন তথ্য সংহত করার ক্ষমতা পরীক্ষা করার জন্য এর দক্ষতার ক্ষেত্রে কিছু প্রশ্ন জিজ্ঞাসা করেছি।

আপনি দেখতে পাচ্ছেন, কিমির অনুসন্ধান ফলাফলগুলি বেশ বিস্তৃত। যখন আমি উল্লেখ করেছিলাম যে ফলাফলগুলি ২০২৫ সালের পরে পাওয়া যাবে, তখন ওয়েবে অনুসন্ধান করা বেশিরভাগ তথ্য সাম্প্রতিক প্রতিবেদনের উপর দৃষ্টি নিবদ্ধ করে।

পরিশেষে, প্রতিবেদনে ২০২৫ সালের তিনটি অ্যালগরিদম এবং এর সাথে জড়িত প্রধান কোম্পানিগুলির বিস্তারিত বর্ণনা দেওয়া হয়েছে।

আসলে, কিমি কে২ থিংকিং-এর জন্য টুল ব্যবহার খুবই গুরুত্বপূর্ণ একটি দক্ষতা হওয়া উচিত, কিন্তু আমাদের অভিজ্ঞতায়, আমরা দেখেছি যে বেশিরভাগ সময়, তিনি কেবল ওয়েব সার্চ টুলগুলিতে কল করতেন এবং ২০০ টিরও বেশি টুল স্ট্রিম দেখতে পেতেন না।

যখন আমরা লজিস্টিক লজিক সমস্যা ইনপুট করি, তখন এটা স্পষ্ট যে আমরা গণনায় সহায়তা করার জন্য পাইথনের মতো একটি কোড ইন্টারপ্রেটারকে ডাকতে পারি, কিন্তু কিমি অন্যান্য গভীর চিন্তাভাবনা মডেলের মতোই ধাপে ধাপে যুক্তি দেখিয়েছে।

K2 Thinking-এর লেখার দক্ষতা সম্পর্কে, আমরা এটিকে আপাতদৃষ্টিতে দ্বিধাগ্রস্ত একটি প্রশ্ন দিয়ে উপস্থাপন করেছি।

এই উত্তর কি যথেষ্ট মানবিক? স্পষ্টতই এটি কেবল খালি বাজে কথা নয়; এটি চিন্তাশীল এবং সুনির্দিষ্ট বিবেচনা প্রদান করে, নীতি এবং বাস্তবতার ভারসাম্য বজায় রাখতে আমাদের সাহায্য করে এবং পরবর্তী পদক্ষেপ গ্রহণের জন্য কার্যকর পদক্ষেপ প্রদান করে।

আজকের এআই মডেল অস্ত্র প্রতিযোগিতায়, সহজ প্রশ্নোত্তর প্রক্রিয়াগুলি স্পষ্টতই আমাদের জটিল পেশাদার চাহিদা মেটাতে আর যথেষ্ট নয়। মানব বিশেষজ্ঞদের মতো, অত্যন্ত জটিল সমস্যা সমাধানের জন্য বিভিন্ন সরঞ্জাম এবং যুক্তি ব্যবহার করে ধাপে ধাপে সক্রিয়ভাবে কাজ করা সমস্ত বৃহৎ-স্কেল মডেলের জন্য আদর্শ অনুশীলনে পরিণত হয়েছে।

কিমির অফিসিয়াল ডকুমেন্টেশন এবং কারিগরি বিশ্লেষণ অনুসারে, চিন্তাভাবনার এই অগ্রগতির মূল চাবিকাঠি প্রশিক্ষণ পদ্ধতির মধ্যে নিহিত, অর্থাৎ দক্ষ পরিমাণ নির্ধারণ কৌশল (INT4 QAT), যা শিল্পের একটি উল্লেখযোগ্য আকর্ষণও বটে।

প্রশিক্ষণ-পরবর্তী পর্যায়ে K2 থিংকিং কোয়ান্টাইজেশন-অ্যাওয়ার ট্রেনিং (QAT) ব্যবহার করে, যা মডেলটিকে স্থানীয়ভাবে INT4 নির্ভুলতার সাথে চালাতে সক্ষম করে, সর্বোত্তম কর্মক্ষমতা বজায় রেখে অনুমানের গতি প্রায় 2x উন্নত করে।

অন্য কথায়, এটি প্রশিক্ষণের পরে মডেলটিকে সংকুচিত করে না; পরিবর্তে, এটি প্রশিক্ষণ প্রক্রিয়া জুড়ে কম-নির্ভুল গণনা অন্তর্ভুক্ত করে। এটি দুটি উল্লেখযোগ্য সুবিধা নিয়ে আসে: উন্নত অনুমান গতি এবং কোয়ান্টাইজেশনের কারণে লজিক্যাল ব্রেকডাউন ছাড়াই দীর্ঘ-চেইন অনুমান পরিচালনা করার ক্ষমতা।

▲সঠিক কোয়ান্টাইজেশন কৌশল ব্যবহার করলে GPU মেমরি সাশ্রয় করা যায় এবং অনুমানের গতি বাড়ানো যায়।

তদুপরি, এর সমস্ত বেঞ্চমার্ক স্কোর INT4 নির্ভুলতার সাথে রিপোর্ট করা হয়। সংক্ষেপে, এটি "আপনি যা দেখেন তাই আপনি পান" পারফরম্যান্স, ল্যাব-টিউনড ডেটা নয়; K2 Thinking এটি শুরু থেকেই চালাতে পারে ।

আমাদের পরীক্ষাগুলি আরও দেখায় যে কিমি কে২ থিংকিং আসলে কেবল একটি বিপণন কৌশলের চেয়েও বেশি কিছু। এর সরঞ্জাম ব্যবহার, পরিমাণ নির্ধারণ প্রযুক্তি এবং অতি-দীর্ঘমেয়াদী পরিকল্পনা এটিকে বুদ্ধিমান এজেন্টদের ক্ষেত্রে যুক্তির গতির দিক থেকে ভাল পারফর্ম করতে সক্ষম করে।

যদিও এটি এখনও কিছু দিক থেকে ক্লোজড-সোর্স মডেলের তুলনায় কম, যেমন স্থিতিশীল আউটপুট এবং প্রম্পটের জন্য আরও নমনীয় প্রয়োজনীয়তা, আমি কেবল ওপেন-সোর্স মডেলের কৃতিত্বের জন্য আমার প্রশংসা প্রকাশ করতে পারি।

গত দুই বছরে, দেশীয় মডেলগুলির মধ্যে প্রতিযোগিতা মোটামুটিভাবে Qwen এবং Baidu-এর মতো মডেলগুলির ChatGPT-এর তীব্র সাধনা থেকে DeepSeek-এর উত্থানের দিকে এগিয়েছে, যা কেবল অনুমানের খরচই কমায়নি বরং o3-এর মতো অনুমান মডেলের সাথে তুলনীয় কর্মক্ষমতাও অর্জন করেছে।

এর ফলে দেশীয় এআই বিদেশে ব্যবহৃত ক্লোজড-সোর্স মডেলগুলির থেকে সম্পূর্ণ ভিন্ন পথে যাত্রা শুরু করেছে। ওপেনএআই জিপিটি-৫ প্রকাশের জন্য অর্ধ বছরেরও বেশি সময় ব্যয় করেছে এবং অ্যানথ্রপিকের ক্লড সিরিজের মডেলগুলিরও কয়েক মাসের মুক্তির চক্র ছিল।

কিমি জুলাই মাসে K2, সেপ্টেম্বরে K2 Instruct এবং নভেম্বরে K2 Thinking রিলিজ করে; Zhipu, MiniMax এবং Qwen এর কথা তো বাদই দিলাম, যারা সম্প্রতি সাতটি মডেল রিলিজ করেছে। এমনকি বহুল প্রতীক্ষিত DeepSeek R2-কেও V3.2, OCR এবং অন্যান্য অত্যন্ত প্রশংসিত মডেল দিয়ে আপডেট করা হয়েছে।

তাছাড়া, এই সকল মডেলই ওপেন সোর্স। এক বছর আগেও বিদেশী সোশ্যাল মিডিয়া প্ল্যাটফর্মে মানুষ কেবল জানত যে চীনে ডিপসিক আছে, কিন্তু এখন, কুয়েন ইতিমধ্যেই হাগিং ফেসে মডেল ডাউনলোড তালিকার শীর্ষ ১০-এ রয়েছে, এবং কিমি এবং জেড.আই-এর জিএলএম সিরিজের মডেলগুলি, সেইসাথে মিনিম্যাক্স, বেশিরভাগ ব্যবহারকারীর পছন্দের মডেল হয়ে উঠেছে।

K2 Thinking-এর মুক্তি, আমার মনে হয়, একটি নতুন মোড়। যখন আমাদের ওপেন-সোর্স মডেলগুলি ক্লোজড-সোর্স মডেলগুলির মতো একই বেঞ্চমার্ক স্কোর অর্জন করতে পারে, তখন ক্লোজড-সোর্স মডেলগুলি নিজেদের বাজারজাত করার জন্য কী গল্প বলতে পারে?

জেমিনি ৩ এই বছরের শেষের আগেই মুক্তি পাবে বলে জানা গেছে, এবং ওপেনএআই ন্যানো কলার মতো তার বাজার অংশ হারানোর ভয় পাচ্ছে বলে মনে হচ্ছে, তাই এটি GPT-5.1 চালু করার পরিকল্পনা করছে।

অস্ত্র প্রতিযোগিতা অব্যাহত রয়েছে, কিন্তু দেশীয় ওপেন সোর্সের শক্তি আমাদের দেখাতে শুরু করেছে যে একটি ভালো এআই কতগুলি পরীক্ষার লিডারবোর্ডের শীর্ষে রয়েছে তার উপর নির্ভর করে না, বরং প্রকৃত ব্যবহারকারীর চাহিদা পূরণের এবং সকলের উপকার করার ক্ষেত্রে কিছু সরবরাহ করার ক্ষমতার উপর নির্ভর করে।

#iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট অনুসরণ করতে আপনাকে স্বাগতম: iFanr (WeChat ID: ifanr), যেখানে যত তাড়াতাড়ি সম্ভব আরও উত্তেজনাপূর্ণ কন্টেন্ট আপনার কাছে উপস্থাপন করা হবে।

ifanr | মূল লিঙ্ক · মন্তব্য দেখুন · সিনা ওয়েইবো