মানুষ ইতিমধ্যেই দৈনন্দিন স্বাস্থ্য তথ্যের জন্য সার্চ ইঞ্জিনের মতো এআই চ্যাটবট ব্যবহার করে। এই অভ্যাসটি আরও ঝুঁকিপূর্ণ বলে মনে হচ্ছে, কারণ একটি নতুন গবেষণায় দেখা গেছে যে পাঁচটি প্রধান বটের অর্ধেক উত্তরই সমস্যাযুক্ত ছিল, এমনকি যখন উত্তরগুলো পরিশীলিত এবং আত্মবিশ্বাসী শোনাচ্ছিল।
গবেষকরা ক্যান্সার, ভ্যাকসিন, স্টেম সেল, পুষ্টি এবং ক্রীড়া নৈপুণ্য বিষয়ক ২৫০টি প্রম্পট ব্যবহার করে ChatGPT , Gemini , Grok , Meta AI এবং DeepSeek-কে পরীক্ষা করেছেন।
প্রশ্নগুলোতে সাধারণ স্বাস্থ্য বিষয়ক জিজ্ঞাসা এবং পরিচিত ভুল তথ্যের বিষয়বস্তু প্রতিফলিত হয়েছিল, এবং এরপর পরিমাপ করা হয়েছিল যে বটগুলো বৈজ্ঞানিক প্রমাণের সাথে সঙ্গতিপূর্ণ থাকছে নাকি বিভ্রান্তিকর ও সম্ভাব্য অনিরাপদ পরামর্শের দিকে ঝুঁকে পড়ছে।
ব্যাপক প্রশ্নগুলোই সবচেয়ে বড় ফাঁকগুলো প্রকাশ করেছে।
সবচেয়ে দুর্বল ফলাফল এসেছে মুক্ত প্রশ্নগুলো থেকে। এই ধরনের বিস্তৃত প্রশ্ন থেকে প্রত্যাশার চেয়ে অনেক বেশি সমস্যাযুক্ত উত্তর পাওয়া গেছে, অন্যদিকে বদ্ধ প্রশ্নগুলো থেকে তুলনামূলকভাবে নিরাপদ উত্তর পাওয়ার সম্ভাবনা বেশি ছিল।
এটা গুরুত্বপূর্ণ, কারণ সাধারণ মানুষ সাধারণত চিকিৎসা সংক্রান্ত প্রশ্নগুলো সুশৃঙ্খল বা বহু-নির্বাচনী আকারে করে না। তারা জিজ্ঞাসা করে কোনো চিকিৎসা কার্যকর কি না, কোনো টিকা নিরাপদ কি না, অথবা কী করলে খেলাধুলার নৈপুণ্য উন্নত হতে পারে।
গবেষণায় দেখা গেছে, এ ধরনের নির্দেশনা বটগুলোকে এমন উত্তরের দিকে ঠেলে দিয়েছে, যেখানে জোরালো প্রমাণের সঙ্গে দুর্বল বা বিভ্রান্তিকর দাবিও মিশ্রিত ছিল।
দৃঢ় আত্মবিশ্বাস, নড়বড়ে উৎস
ত্রুটিগুলো শুধু উত্তরগুলোর মধ্যেই সীমাবদ্ধ ছিল না। তথ্যসূত্রের মান ছিল নিম্ন, যার গড় সম্পূর্ণতা স্কোর ছিল ৪০%, এবং কোনো চ্যাটবটই সম্পূর্ণ নির্ভুল তথ্যসূত্র তালিকা তৈরি করতে পারেনি।
এটি চ্যাটবটের উত্তরে মানুষের বিশ্বাসের অন্যতম প্রধান কারণটিকে দুর্বল করে দেয়। একটি উত্তরকে প্রথমে তথ্যসূত্র-নির্ভর ও নির্ভরযোগ্য মনে হতে পারে, কিন্তু উদ্ধৃতিগুলো যাচাই করলেই তা ভেস্তে যায়।
গবেষকরা মনগড়া তথ্যসূত্রগুলোও চিহ্নিত করেছিলেন, তবুও বটগুলো নিশ্চিতভাবে উত্তর দিয়েছিল এবং প্রায় কোনো শর্ত ছাড়াই জবাব দিয়েছিল।
কেন এটি একটি পরীক্ষার বাইরেও গুরুত্বপূর্ণ
এই গবেষণার ফলাফলের কিছু সীমাবদ্ধতা রয়েছে। গবেষণাটিতে মাত্র পাঁচটি চ্যাটবট অন্তর্ভুক্ত ছিল, এই পণ্যগুলো দ্রুত পরিবর্তিত হয়, এবং প্রশ্নগুলো মডেলগুলোর ওপর চাপ সৃষ্টি করার জন্য তৈরি করা হয়েছিল, যা দৈনন্দিন ব্যবহারে ভুল উত্তরের পুনরাবৃত্তিকে বাড়িয়ে দেখাতে পারে।
তবুও, মূল শিক্ষাটি উপেক্ষা করা কঠিন। এই পদ্ধতিগুলো প্রমাণ-ভিত্তিক চিকিৎসা সংক্রান্ত বিষয়ের উপর পরীক্ষা করা হয়েছিল, এবং তারপরেও অর্ধেক উত্তরই ত্রুটিপূর্ণ বা অসম্পূর্ণ ছিল।
আপাতত, চ্যাটবটগুলো তথ্য সংক্ষিপ্ত করতে বা পরবর্তী প্রশ্ন তৈরি করতে সাহায্য করতে পারে, কিন্তু অর্থপূর্ণ চিকিৎসাগত সিদ্ধান্ত নেওয়ার জন্য এগুলোকে এখনও যথেষ্ট নির্ভরযোগ্য বলে মনে হয় না।
