ডিপসিকের ইউরোপীয় সংস্করণটি চীনা এআইকে লক্ষ্য করে একটি নতুন মডেল প্রকাশ করেছে।

ওপেনএআই, গুগল এবং চীনা ওপেন-সোর্স মডেল ডিপসিক এবং কিউয়েন দ্বারা অর্ধ বছরেরও বেশি সময় ধরে চাপের মুখে থাকার পর, "ডিপসিকের ইউরোপীয় সংস্করণ" নামে পরিচিত মিস্ট্রাল এআই অবশেষে স্থির থাকতে পারেনি এবং আনুষ্ঠানিকভাবে নতুন প্রজন্মের মিস্ট্রাল 3 সিরিজের মডেল প্রকাশ করেছে।

মিস্ট্রাল এআই একটি বৃহৎ মাপের মডেলিং কোম্পানি যার সদর দপ্তর ফ্রান্সে। চলতি বছরের সেপ্টেম্বরে, এনভিডিয়া তৃতীয়বারের মতো স্টার্টআপটিতে বিনিয়োগ করেছে বলে জানা গেছে। এর ফলে মিস্ট্রালের মূল্যায়ন প্রায় ১৩.৫ বিলিয়ন ডলারে পৌঁছেছে, যা এটিকে ইউরোপীয় এআই খাতের অন্যতম বিশিষ্ট ইউনিকর্নে পরিণত করেছে।

এবার, মিস্ট্রাল আসলে কেবল চীনা মডেলকেই লক্ষ্য করেছিল।

এবার, মিস্ট্রাল ৩ তাদের ফ্ল্যাগশিপ মডেল মিস্ট্রাল লার্জ ৩, এবং তিনটি উচ্চ-কার্যক্ষমতাসম্পন্ন, সাশ্রয়ী ছোট মডেল নিয়ে এসেছে: মিনিস্ট্রাল (৩বি, ৮বি, ১৪বি)।

তাদের মধ্যে, Mistral Large 3 হল পরম নায়ক, যার মোট 675টি প্যারামিটার রয়েছে, যার মধ্যে 41টি প্যারামিটার সক্রিয়। এটি 2023 সালের শেষ থেকে 2024 সালের শুরু পর্যন্ত Mixtral 8x7B এবং 8x22B এর পর খোলা ওজন সহ প্রথম Mistral মিশ্র বিশেষজ্ঞ মডেল।

কিন্তু আমার কাছে সবচেয়ে "অস্থির" মনে হয় তা হল অফিসিয়াল তুলনা কৌশল।

অফিসিয়াল বেঞ্চমার্ক চার্টে, মিস্ট্রাল GPT-5.1 বা জেমিনি 3 কে সম্পূর্ণরূপে উপেক্ষা করেছে, এবং পরিবর্তে সরাসরি চীনের DeepSeek-V3.1 এবং Kimi-K2 কে লক্ষ্য করেছে।

মিস্ট্রালের যুক্তি সোজা: কিমির তুলনায় আমার কাছে মাত্র অর্ধেক প্যারামিটার আছে, কিন্তু আমার পারফর্ম্যান্স তোমার পারফর্ম্যান্সের সমান, অথবা আরও শক্তিশালী।

সরকারী ফলাফল নিম্নরূপ:

জয়ের সম্ভাবনা: MMMLU এবং AMC-তে, Mistral Large 3 যথাক্রমে 85.5 এবং 52.0 স্কোর করেছে, যা DeepSeek-V3.1-এর থেকে কিছুটা এগিয়ে।
ক্ষতি: লাইভকোডবেঞ্চ এবং সিম্পলকিউএ, যা প্রোগ্রামারদের জন্য সবচেয়ে উদ্বেগের বিষয়, মিস্ট্রাল লার্জ 3 এখনও কিমি-কে2 এর কাছে হেরে গেছে।

এটি কি ডিপসিকের চেয়ে বোকা এবং তিনগুণ বেশি ব্যয়বহুল?

যদিও মিস্ট্রাল নিজেকে "দক্ষতার রাজা" হিসেবে প্রমাণ করার চেষ্টা করছে, X-এর টেক ব্লগাররা এতে ঠান্ডা জল ঢেলে দিয়েছে, এমনকি "মিস্ট্রাল ধীরে ধীরে মারা যাচ্ছে" এই কঠোর শব্দ ব্যবহার করেছে।

তার মূল্যায়ন ছিল সংক্ষিপ্ত এবং স্পষ্ট, মিস্ট্রালের নতুন মডেলের তিনটি প্রধান ত্রুটি তালিকাভুক্ত করেছেন:

১. বোকা: ডিপসিকের মতো স্মার্ট নয়।
২. বেশি দামি: এটি ডিপসিকের তুলনায় তিনগুণ বেশি দামি।
৩. ধীর: এর অনুমান গতি GPT-5 এর চেয়েও ধীর।

এটা নিঃসন্দেহে মাথায় আঘাত করেছে। কৃত্রিম বিশ্লেষণের সর্বশেষ বিস্তৃত এআই সূচক র‍্যাঙ্কিংয়ে, মিস্ট্রাল লার্জ ৩ মাত্র ৩৮ পয়েন্ট পেয়েছে।

দেখা যাক কে শীর্ষে আছে: জেমিনি 3 প্রো (73 পয়েন্ট), ক্লড ওপাস 4.5 (70 পয়েন্ট), এবং GPT-5.1 (70 পয়েন্ট)। শীর্ষ স্তরের সাথে মিস্ট্রালের ব্যবধান কেবল "ধরা পড়া" নয়, এটি একটি সম্পূর্ণ বিচ্ছিন্নতা।

LMARaena লিডারবোর্ডে, এটি ওপেন-সোর্স নন-ইনফারেন্স মডেলগুলির মধ্যে দ্বিতীয় এবং সামগ্রিকভাবে ষষ্ঠ স্থানে রয়েছে। ফলাফলগুলি সম্মানজনক, তবে এটি অবশ্যই "লিডারশিপ সুইপার" হিসাবে যোগ্যতা অর্জন করে না।

পরীক্ষকরা দেখেছেন যে মিস্ট্রাল লার্জ ৩ সব দিক থেকেই খারাপ পারফর্ম করেছে:

এই মডেলটিতে টুল কল সঠিকভাবে সম্পাদন করতে অসুবিধা হয়, প্রায়শই ভুলভাবে ফর্ম্যাট করা বা অবৈধ টুল কল নির্দেশাবলী আউটপুট করে।
এটি চিত্র-ভিত্তিক মানদণ্ডগুলিতে কেবলমাত্র মাঝারিভাবে ভাল পারফর্ম করে।

ক্ষুদ্রাকৃতির মডেলে বিনিয়োগ করা সত্যিই মূল্যবান।

সকল ওপেন-সোর্স মডেলের মধ্যে মিনিস্ট্রাল ৩ হল সবচেয়ে সাশ্রয়ী পণ্য। এটি প্রতিটি প্যারামিটার স্কেলের জন্য মৌলিক, নির্দেশনামূলক এবং অনুমানমূলক সংস্করণ অফার করে, যার সবকটিই চিত্র বোঝার ক্ষমতা সহ, এবং অ্যাপাচি ২.০ লাইসেন্সের অধীনে সম্পূর্ণরূপে ওপেন-সোর্স।

এর অর্থ কী? আপনি এটি বিনামূল্যে ব্যবহার করতে পারেন এবং আপনার পছন্দ মতো পরিবর্তন করতে পারেন।

বহুমুখী: সমস্ত আকারের ছবি বোঝার সুবিধা প্রদান করে, আর "অন্ধ" নয়।
কর্মক্ষমতা: AIME'25 পরীক্ষায় 14B এর অনুমান সংস্করণটি 85% নির্ভুলতা অর্জন করেছে।

মিস্ট্রাল ৩ সত্যিই অগ্রগতি করেছে। নেটিজেনরা যেমন বলেছেন, ইউরোপে এখনও একটি শীর্ষস্থানীয় মডেল প্রস্তুতকারক রয়েছে যারা মূলত চীনে ওপেন-সোর্স মডেলের গতির সাথে তাল মিলিয়ে চলতে পারে। যদিও মিস্ট্রাল এখনও কোনও ইনফারেন্স ইঞ্জিন প্রকাশ করেনি, তবুও এর প্রকৃত কর্মক্ষমতা এখনও সময়ের তুলনায় পিছিয়ে রয়েছে।

কিন্তু ডিপসিক বড় মডেলের দাম কমিয়ে দেওয়ার ফলে, কেবল "ভালো পারফরম্যান্স" প্রদানই আর যথেষ্ট নয়। ব্যবহারকারীরা হয় চূড়ান্ত বুদ্ধিমত্তা অথবা চূড়ান্ত সাশ্রয়ী মূল্যের পণ্য চান।

মিস্ত্রাল বর্তমানে একটি বিব্রতকর মাঝামাঝি অবস্থানে আটকে আছে বলে মনে হচ্ছে। এটি "ইউরোপের জন্য আশার আলো" হয়ে উঠতে পারবে কিনা তা আসলে তার পরবর্তী পুনরাবৃত্তির উপর নির্ভর করবে।

#iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট অনুসরণ করতে আপনাকে স্বাগতম: iFanr (WeChat ID: ifanr), যেখানে যত তাড়াতাড়ি সম্ভব আরও উত্তেজনাপূর্ণ কন্টেন্ট আপনার কাছে উপস্থাপন করা হবে।

ifanr | মূল লিঙ্ক · মন্তব্য দেখুন · সিনা ওয়েইবো