ChatGPT, Gemini এবং অন্যান্য এআই বটগুলো প্রায় অর্ধেক সময়ই ভুল চিকিৎসা পরামর্শ দেয়।

মানুষ ইতিমধ্যেই দৈনন্দিন স্বাস্থ্য তথ্যের জন্য সার্চ ইঞ্জিনের মতো এআই চ্যাটবট ব্যবহার করে। এই অভ্যাসটি আরও ঝুঁকিপূর্ণ বলে মনে হচ্ছে, কারণ একটি নতুন গবেষণায় দেখা গেছে যে পাঁচটি প্রধান বটের অর্ধেক উত্তরই সমস্যাযুক্ত ছিল, এমনকি যখন উত্তরগুলো পরিশীলিত এবং আত্মবিশ্বাসী শোনাচ্ছিল।

গবেষকরা ক্যান্সার, ভ্যাকসিন, স্টেম সেল, পুষ্টি এবং ক্রীড়া নৈপুণ্য বিষয়ক ২৫০টি প্রম্পট ব্যবহার করে ChatGPT , Gemini , Grok , Meta AI এবং DeepSeek-কে পরীক্ষা করেছেন।

প্রশ্নগুলোতে সাধারণ স্বাস্থ্য বিষয়ক জিজ্ঞাসা এবং পরিচিত ভুল তথ্যের বিষয়বস্তু প্রতিফলিত হয়েছিল, এবং এরপর পরিমাপ করা হয়েছিল যে বটগুলো বৈজ্ঞানিক প্রমাণের সাথে সঙ্গতিপূর্ণ থাকছে নাকি বিভ্রান্তিকর ও সম্ভাব্য অনিরাপদ পরামর্শের দিকে ঝুঁকে পড়ছে।

ব্যাপক প্রশ্নগুলোই সবচেয়ে বড় ফাঁকগুলো প্রকাশ করেছে।

সবচেয়ে দুর্বল ফলাফল এসেছে মুক্ত প্রশ্নগুলো থেকে। এই ধরনের বিস্তৃত প্রশ্ন থেকে প্রত্যাশার চেয়ে অনেক বেশি সমস্যাযুক্ত উত্তর পাওয়া গেছে, অন্যদিকে বদ্ধ প্রশ্নগুলো থেকে তুলনামূলকভাবে নিরাপদ উত্তর পাওয়ার সম্ভাবনা বেশি ছিল।

এটা গুরুত্বপূর্ণ, কারণ সাধারণ মানুষ সাধারণত চিকিৎসা সংক্রান্ত প্রশ্নগুলো সুশৃঙ্খল বা বহু-নির্বাচনী আকারে করে না। তারা জিজ্ঞাসা করে কোনো চিকিৎসা কার্যকর কি না, কোনো টিকা নিরাপদ কি না, অথবা কী করলে খেলাধুলার নৈপুণ্য উন্নত হতে পারে।

গবেষণায় দেখা গেছে, এ ধরনের নির্দেশনা বটগুলোকে এমন উত্তরের দিকে ঠেলে দিয়েছে, যেখানে জোরালো প্রমাণের সঙ্গে দুর্বল বা বিভ্রান্তিকর দাবিও মিশ্রিত ছিল।

দৃঢ় আত্মবিশ্বাস, নড়বড়ে উৎস

ত্রুটিগুলো শুধু উত্তরগুলোর মধ্যেই সীমাবদ্ধ ছিল না। তথ্যসূত্রের মান ছিল নিম্ন, যার গড় সম্পূর্ণতা স্কোর ছিল ৪০%, এবং কোনো চ্যাটবটই সম্পূর্ণ নির্ভুল তথ্যসূত্র তালিকা তৈরি করতে পারেনি।

এটি চ্যাটবটের উত্তরে মানুষের বিশ্বাসের অন্যতম প্রধান কারণটিকে দুর্বল করে দেয়। একটি উত্তরকে প্রথমে তথ্যসূত্র-নির্ভর ও নির্ভরযোগ্য মনে হতে পারে, কিন্তু উদ্ধৃতিগুলো যাচাই করলেই তা ভেস্তে যায়।

গবেষকরা মনগড়া তথ্যসূত্রগুলোও চিহ্নিত করেছিলেন, তবুও বটগুলো নিশ্চিতভাবে উত্তর দিয়েছিল এবং প্রায় কোনো শর্ত ছাড়াই জবাব দিয়েছিল।

কেন এটি একটি পরীক্ষার বাইরেও গুরুত্বপূর্ণ

এই গবেষণার ফলাফলের কিছু সীমাবদ্ধতা রয়েছে। গবেষণাটিতে মাত্র পাঁচটি চ্যাটবট অন্তর্ভুক্ত ছিল, এই পণ্যগুলো দ্রুত পরিবর্তিত হয়, এবং প্রশ্নগুলো মডেলগুলোর ওপর চাপ সৃষ্টি করার জন্য তৈরি করা হয়েছিল, যা দৈনন্দিন ব্যবহারে ভুল উত্তরের পুনরাবৃত্তিকে বাড়িয়ে দেখাতে পারে।

তবুও, মূল শিক্ষাটি উপেক্ষা করা কঠিন। এই পদ্ধতিগুলো প্রমাণ-ভিত্তিক চিকিৎসা সংক্রান্ত বিষয়ের উপর পরীক্ষা করা হয়েছিল, এবং তারপরেও অর্ধেক উত্তরই ত্রুটিপূর্ণ বা অসম্পূর্ণ ছিল।

আপাতত, চ্যাটবটগুলো তথ্য সংক্ষিপ্ত করতে বা পরবর্তী প্রশ্ন তৈরি করতে সাহায্য করতে পারে, কিন্তু অর্থপূর্ণ চিকিৎসাগত সিদ্ধান্ত নেওয়ার জন্য এগুলোকে এখনও যথেষ্ট নির্ভরযোগ্য বলে মনে হয় না।