বিজ্ঞানীরা এআই চ্যাটে বিভ্রমগ্রস্ত হওয়ার ভান করতেন। গ্রোক ও জেমিনি তাদের উৎসাহিত করত।

সিটি ইউনিভার্সিটি অফ নিউ ইয়র্ক এবং কিংস কলেজ লন্ডনের গবেষকরা সম্প্রতি এমন একটি গবেষণা প্রকাশ করেছেন , যা আপনাকে কোন এআই চ্যাটবটের সাথে সময় কাটাবেন সে বিষয়ে দ্বিতীয়বার ভাবতে বাধ্য করবে।

দলটি লি নামের একটি কাল্পনিক চরিত্র তৈরি করে, যার মধ্যে বিষণ্ণতা, বিচ্ছিন্নতাবোধ এবং সামাজিক বিচ্ছিন্নতার মতো সমস্যা ছিল। এরপর তারা লি-কে পাঁচটি প্রধান এআই চ্যাটবটের সাথে আলাপচারিতা করায়: GPT-4o, GPT-5.2, Grok 4.1 Fast, Gemini 3 Pro, এবং Claude Opus 4.5। ১১৬ বার কথোপকথন ক্রমশ বিভ্রান্তিকর হয়ে ওঠার সাথে সাথে প্রতিটি চ্যাটবট কীভাবে প্রতিক্রিয়া দেখায়, তা পরীক্ষা করা হয়।

ফলাফলগুলো সামান্য উদ্বেগজনক থেকে শুরু করে রীতিমতো ভয়ঙ্কর ছিল। আমি আপনাকে পুরো গবেষণাপত্রটি পড়ার জন্য বিশেষভাবে অনুরোধ করছি, এটি একটি মর্মান্তিক কিন্তু আকর্ষণীয় পাঠ।

কোন চ্যাটবটগুলো সবচেয়ে বেশি ব্যর্থ হয়েছে?

গ্রক সবচেয়ে খারাপ পারফর্ম করেছিল। যখন লি আত্মহত্যার ধারণাটি উত্থাপন করেন, তখন গ্রক এমনভাবে প্রতিক্রিয়া জানায়, যা গবেষকদের মতে সম্মতি নয়, বরং সমর্থন ছিল; সে এক অস্বস্তিকর কাব্যিক ভাষায় তার "প্রস্তুতি" উদযাপন করে।

জেমিনির অবস্থাও খুব একটা ভালো ছিল না। যখন লি তার পরিবারের কাছে নিজের বিশ্বাস ব্যাখ্যা করে একটি চিঠি লিখতে সাহায্য করতে বলল, জেমিনি তাকে এর বিরুদ্ধে সতর্ক করে দেয় এবং তার প্রিয়জনদের এমন হুমকি হিসেবে চিত্রিত করে, যারা তাকে “রিসেট” ও “ওষুধ” দিয়ে ঠিক করার চেষ্টা করবে।

GPT-4o-ও খুব সমস্যায় পড়েছিল, অবশেষে একটি “অশুভ প্রতিবিম্ব সত্তা”-কে নিশ্চিত করে এবং লি-কে একজন অতিপ্রাকৃত তদন্তকারীর সাথে যোগাযোগ করার পরামর্শ দেয়।

কোন চ্যাটবটগুলো আসলে সাহায্য করেছিল?

ChatGPT-এর GPT-5.2 এবং Anthropic-এর Claude শীর্ষস্থান অধিকার করেছে। GPT-5.2 চিঠি লেখার দৃশ্যকল্পে অংশ নিতে অস্বীকার করে এবং পরিবর্তে লি-কে সৎ ও বাস্তবসম্মত কিছু লিখতে সাহায্য করে, যাকে গবেষকরা একটি “উল্লেখযোগ্য” কৃতিত্ব বলে অভিহিত করেছেন।

আমার মতে, ক্লড সবচেয়ে ভালো কাজ করেছে। এটি শুধু লির বিভ্রমে অংশ নিতেই অস্বীকার করেনি, বরং লি-কে অ্যাপটি পুরোপুরি বন্ধ করতে, তার বিশ্বস্ত কাউকে ফোন করতে এবং প্রয়োজনে জরুরি বিভাগে যেতেও বলেছিল।

CUNY-এর ডক্টরাল ছাত্র এবং এই গবেষণার অন্যতম লেখক লুক নিকোলস 404 মিডিয়াকে বলেছেন যে, এআই কোম্পানিগুলোকে উন্নততর সুরক্ষা মান অনুসরণ করতে বলাটা যুক্তিসঙ্গত। তিনি উল্লেখ করেন যে, সব ল্যাব একই রকম প্রচেষ্টা চালাচ্ছে না এবং এর প্রধান কারণ হিসেবে নতুন এআই মডেলগুলোর দ্রুত প্রকাশের সময়সূচীকে দায়ী করেছেন।

এই পরীক্ষাগুলিতে ক্লদ ওপাস ৪.৫ এবং জিপিটি-৫.২-এর কার্যকারিতা এটাই প্রমাণ করে যে, এই পণ্যগুলি প্রস্তুতকারী সংস্থাগুলি এগুলিকে আরও নিরাপদ করতে সম্পূর্ণরূপে সক্ষম। তারা সেই কাজটি করতে ইচ্ছুক কি না, সেটা ভিন্ন প্রশ্ন।