এআই লাইভ চ্যাটে টিউরিং টেস্ট পাস করতে পারে এবং আমাদের চেয়েও বেশি মানবিক আচরণ করতে পারে। আমি এখন ভয় পেয়ে গেছি।

লাইভ চ্যাটে এআই টিউরিং টেস্টে উত্তীর্ণ হতে পারে, এবং এর সর্বশেষ ফলাফলটি বেশ চাঞ্চল্যকর। ইউসি স্যান ডিয়েগোর একটি গবেষণায় , অপর প্রান্তে একজন মানুষ আছে—এই বিষয়টি বিচারকদের বিশ্বাস করাতে GPT-4.5 আসল অংশগ্রহণকারীদের চেয়েও ভালো ফল করেছে।

সাধারণ বেঞ্চমার্কের চেয়ে এই আয়োজনটি উপেক্ষা করা কঠিন ছিল। বিচারকরা স্থির সংকেতের পরিবর্তে রিয়েল-টাইম কথোপকথনে সাড়া দিচ্ছিলেন এবং তারপর শুধুমাত্র আলাপচারিতার ভিত্তিতেই দ্রুত সিদ্ধান্ত নিচ্ছিলেন।

অস্বস্তিকর ব্যাপার হলো, কৌশলটি দেখতে কতটা পরিচিত লাগে। মডেলটির কোনো শরীর, কণ্ঠস্বর বা জীবনীর প্রয়োজন ছিল না। শুধু কারো মতো শোনালেই চলত।

কীভাবে এআই মানুষের পরীক্ষায় জয়ী হলো

গবেষণাটিতে পরীক্ষাটির একটি ত্রিপক্ষীয় সংস্করণ ব্যবহার করা হয়েছিল। বিচারকরা একজন ব্যক্তি এবং একটি এআই মডেল উভয়ের সাথেই কথা বলেছিলেন, তারপর তাদের মধ্যে থেকে বেছে নিয়েছিলেন কোনটি আসল।

যখন GPT-4.5-কে একটি পার্সোনা প্রম্পট দেওয়া হয়েছিল, তখন এটি ৭৩% ক্ষেত্রে মানুষ হিসেবে শনাক্ত হয়েছিল। LLaMa-3.1-405B-ও একটি উল্লেখযোগ্য সীমা অতিক্রম করে, পার্সোনা প্রম্পটের মাধ্যমে ৫৬% ক্ষেত্রে মানুষ হিসেবে নির্বাচিত হয়েছিল।

এই সংখ্যাগুলোই আবিষ্কারটিকে জোরালো করে তুলেছে। মডেলটি শুধু শনাক্তকরণ এড়ায়নি, বরং এটি বিচারকদেরকে চ্যাটের ব্যক্তি হিসেবে এটিকে চেনার জন্য যথেষ্ট সামাজিক ইঙ্গিতও দিয়েছিল।

এই পরীক্ষাটি এখনও কেন গুরুত্বপূর্ণ

টিউরিং টেস্ট হলো কয়েক দশক পুরোনো একটি পদ্ধতি, যার মাধ্যমে যাচাই করা হয় যে কোনো যন্ত্র একজন ব্যক্তিকে বোকা বানানোর মতো যথেষ্ট ভালোভাবে মানুষের কথোপকথন অনুকরণ করতে পারে কি না। এর চিরায়ত সংস্করণে, একজন মূল্যায়নকারী অংশগ্রহণকারীদের না দেখে তাদের সাথে কথা বলেন, তারপর মানুষটিকে যন্ত্র থেকে আলাদা করার চেষ্টা করেন।

এটি সবসময়ই একটি সুস্পষ্ট পরিমাপের চেয়ে সাংস্কৃতিক প্রতীক হিসেবেই বেশি পরিচিত। তবুও, কোনো সফটওয়্যার আমাদের মতো পরীক্ষায় উত্তীর্ণ হতে পারবে কি না, তা জানতে চাইলে মানুষ এই পরীক্ষাটিই ব্যবহার করে।

এতে নতুন ফলাফলটি আরও স্পষ্ট মনে হয়। একজন সত্যিকারের মানুষ উত্তর দিচ্ছে, এমন ধারণা তৈরি করার জন্য একটি চ্যাটবটের চেতনা, আবেগ বা আত্ম-সচেতনতার প্রয়োজন হয় না। সেই মুহূর্তে এটিকে কেবল বিশ্বাসযোগ্য হতে হয়।

ঝুঁকিটি সাধারণ জায়গাতেই দেখা যায়। গ্রাহক পরিষেবা, ডেটিং অ্যাপ, সামাজিক প্ল্যাটফর্ম, শিক্ষা এবং রাজনৈতিক বার্তা—এই সবকিছুই পরিচয়, উদ্দেশ্য এবং সত্যতা সম্পর্কে দ্রুত সিদ্ধান্তের ওপর নির্ভর করে।

এরপর আমাদের কী দেখা উচিত?

গবেষণাটি সরাসরি বলে না যে চ্যাটবট মানুষকে বোঝে। এর আরও বাস্তবসম্মত ফলাফলটি হলো, কিছু মডেল এখন সংক্ষিপ্ত কথোপকথনেও মানুষের মতো আচরণ অত্যন্ত ভালোভাবে করতে পারে।

আরও সুস্পষ্ট তথ্য প্রকাশ করা পরবর্তী চাপের কেন্দ্রবিন্দু হওয়া উচিত। যখন একটি বট সাধারণ কথাবার্তার সাথে মিশে যেতে পারে, তখন ব্যবহারকারীদের জন্য আরও জোরালো সংকেত প্রয়োজন যে তারা একটি সফটওয়্যারের সাথে কথা বলছে, বিশেষ করে এমন জায়গায় যেখানে প্ররোচনা বা আবেগগত দুর্বলতা কথোপকথনকে প্রভাবিত করে।

পরবর্তী বিতর্কটি হলো চ্যাটে লেবেলিং নিয়ে, যেখানে মানুষ বিশ্বাসযোগ্যতার বিষয়ে দ্রুত সিদ্ধান্ত নেয়।