গুগলের মতে, এআই চ্যাটবট মাত্র ৬৯% নির্ভুল… সর্বোচ্চ

আজকের AI চ্যাটবটগুলি আসলে কতটা নির্ভরযোগ্য তার একটি স্পষ্ট মূল্যায়ন প্রকাশ করেছে Google , এবং সংখ্যাগুলি মোটেও আশাব্যঞ্জক নয়। তাদের নতুন চালু হওয়া FACTS Benchmark Suite ব্যবহার করে, কোম্পানিটি দেখেছে যে সেরা AI মডেলগুলিও 70% তথ্যগত নির্ভুলতার হার অতিক্রম করতে লড়াই করে। শীর্ষস্থানীয় পারফর্মার, Gemini 3 Pro , সামগ্রিক নির্ভুলতার 69% অর্জন করেছে, যেখানে OpenAI , Anthropic এবং xAI- এর অন্যান্য শীর্ষস্থানীয় সিস্টেমগুলি আরও কম স্কোর করেছে। গ্রহণযোগ্যতা সহজ এবং অস্বস্তিকর। এই চ্যাটবটগুলি এখনও প্রতি তিনটি উত্তরের মধ্যে প্রায় একটি ভুল করে, এমনকি যখন তারা এটি করার ক্ষেত্রে আত্মবিশ্বাসী বলে মনে হয় ।

বেঞ্চমার্কটি গুরুত্বপূর্ণ কারণ বেশিরভাগ বিদ্যমান AI পরীক্ষাগুলি কোনও মডেল কোনও কাজ সম্পন্ন করতে পারে কিনা তার উপর ফোকাস করে, এটি যে তথ্য তৈরি করে তা আসলে সত্য কিনা তা নয় । অর্থ, স্বাস্থ্যসেবা এবং আইনের মতো শিল্পের জন্য, এই ব্যবধানটি ব্যয়বহুল হতে পারে। একটি সাবলীল প্রতিক্রিয়া যা আত্মবিশ্বাসী শোনায় কিন্তু ত্রুটিগুলি ধারণ করে তা প্রকৃত ক্ষতি করতে পারে, বিশেষ করে যখন ব্যবহারকারীরা ধরে নেন যে চ্যাটবট কী সম্পর্কে কথা বলছে তা জানে।

গুগলের নির্ভুলতা পরীক্ষা কী প্রকাশ করে

FACTS বেঞ্চমার্ক স্যুটটি গুগলের FACTS টিম Kaggle-এর সাথে তৈরি করেছে, যা চারটি বাস্তব-বিশ্বের ব্যবহারের ক্ষেত্রে সরাসরি তথ্যগত নির্ভুলতা পরীক্ষা করে। একটি পরীক্ষা প্যারামেট্রিক জ্ঞান পরিমাপ করে, যা পরীক্ষা করে যে কোনও মডেল কেবল প্রশিক্ষণের সময় যা শিখেছে তা ব্যবহার করে তথ্য-ভিত্তিক প্রশ্নের উত্তর দিতে পারে কিনা। আরেকটি পরীক্ষা অনুসন্ধানের কর্মক্ষমতা মূল্যায়ন করে, মডেলগুলি সঠিক তথ্য পুনরুদ্ধারের জন্য ওয়েব সরঞ্জামগুলি কতটা ভালভাবে ব্যবহার করে তা পরীক্ষা করে। তৃতীয়টি গ্রাউন্ডিংয়ের উপর দৃষ্টি নিবদ্ধ করে, যার অর্থ মডেলটি মিথ্যা বিবরণ যোগ না করে প্রদত্ত নথিতে লেগে থাকে কিনা। চতুর্থটি বহুমুখী বোঝাপড়া পরীক্ষা করে, যেমন চার্ট, ডায়াগ্রাম এবং ছবি সঠিকভাবে পড়া।

ফলাফলগুলি মডেলগুলির মধ্যে তীব্র পার্থক্য দেখায়। Gemini 3 Pro 69% FACTS স্কোরের সাথে লিডারবোর্ডে শীর্ষে রয়েছে, তারপরে Gemini 2.5 Pro এবং OpenAI এর ChatGPT-5 প্রায় 62% শতাংশ স্কোর করেছে। Claude 4.5 Opus ~51% শতাংশ স্কোর করেছে, যেখানে Grok 4 ~54% স্কোর করেছে। মাল্টিমোডাল টাস্কগুলি বোর্ড জুড়ে সবচেয়ে দুর্বল ক্ষেত্র ছিল, যার নির্ভুলতা প্রায়শই 50% এর নিচে ছিল। এটি গুরুত্বপূর্ণ কারণ এই কাজগুলিতে চার্ট, ডায়াগ্রাম বা ছবি পড়া জড়িত, যেখানে একটি চ্যাটবট আত্মবিশ্বাসের সাথে একটি বিক্রয় গ্রাফ ভুল পড়তে পারে বা একটি নথি থেকে ভুল নম্বর বের করতে পারে, যার ফলে এমন ভুলগুলি ঘটে যা মিস করা সহজ কিন্তু পূর্বাবস্থায় ফেরানো কঠিন।

মূল কথা হলো চ্যাটবটগুলো অকেজো নয়, কিন্তু অন্ধ বিশ্বাস ঝুঁকিপূর্ণ। গুগলের নিজস্ব তথ্য থেকে জানা যায় যে এআই উন্নত হচ্ছে, তবুও এটিকে সত্যের নির্ভরযোগ্য উৎস হিসেবে বিবেচনা করার আগে এটির যাচাইকরণ, রেলিং এবং মানবিক তত্ত্বাবধানের প্রয়োজন।

গুগলের "এআই চ্যাটবটগুলি মাত্র ৬৯% নির্ভুল" পোস্টটি প্রথম প্রকাশিত হয়েছিল ডিজিটাল ট্রেন্ডসে ।