ওপেনএআই গত সপ্তাহে একটি পেপার প্রকাশ করেছে যা এর o3 এবং o4-মিনি মডেল সম্পর্কে বিভিন্ন অভ্যন্তরীণ পরীক্ষা এবং ফলাফলের বিবরণ দিয়েছে। এই নতুন মডেল এবং ChatGPT-এর প্রথম সংস্করণগুলির মধ্যে প্রধান পার্থক্যগুলি আমরা 2023 সালে দেখেছি তাদের উন্নত যুক্তি এবং মাল্টিমডাল ক্ষমতা। o3 এবং o4-mini ইমেজ তৈরি করতে পারে, ওয়েবে অনুসন্ধান করতে পারে, কাজগুলি স্বয়ংক্রিয় করতে পারে, পুরানো কথোপকথন মনে রাখতে পারে এবং জটিল সমস্যার সমাধান করতে পারে। যাইহোক, মনে হচ্ছে এই উন্নতিগুলি অপ্রত্যাশিত পার্শ্ব প্রতিক্রিয়াও এনেছে।
পরীক্ষা কি বলে?
PersonQA নামক হ্যালুসিনেশন হার পরিমাপের জন্য OpenAI-এর একটি নির্দিষ্ট পরীক্ষা রয়েছে। এটিতে লোকেদের কাছ থেকে "শিখতে" সম্পর্কে তথ্যের একটি সেট এবং সেই ব্যক্তিদের উত্তর দেওয়ার জন্য প্রশ্নের একটি সেট অন্তর্ভুক্ত রয়েছে৷ মডেলের যথার্থতা তার উত্তর দেওয়ার প্রচেষ্টার উপর ভিত্তি করে পরিমাপ করা হয়। গত বছরের o1 মডেলটি 47% এর নির্ভুলতার হার এবং 16% এর হ্যালুসিনেশন হার অর্জন করেছে।
যেহেতু এই দুটি মান 100% পর্যন্ত যোগ করে না, আমরা ধরে নিতে পারি বাকি প্রতিক্রিয়াগুলি সঠিক বা হ্যালুসিনেশন ছিল না। মডেলটি কখনও কখনও বলতে পারে যে এটি তথ্যটি জানে না বা সনাক্ত করতে পারে না, এটি কোনও দাবি নাও করতে পারে এবং পরিবর্তে সম্পর্কিত তথ্য প্রদান করতে পারে, বা এটি একটি সামান্য ভুল করতে পারে যা সম্পূর্ণ-অন হ্যালুসিনেশন হিসাবে শ্রেণীবদ্ধ করা যায় না।

যখন o3 এবং o4-mini এই মূল্যায়নের বিরুদ্ধে পরীক্ষা করা হয়েছিল, তখন তারা o1 এর তুলনায় উল্লেখযোগ্যভাবে উচ্চ হারে হ্যালুসিনেশন করেছিল। ওপেনএআই-এর মতে, এটি o4-মিনি মডেলের জন্য কিছুটা প্রত্যাশিত ছিল কারণ এটি ছোট এবং এর বিশ্ব জ্ঞান কম, যা আরও হ্যালুসিনেশনের দিকে পরিচালিত করে। তারপরও, 48% হ্যালুসিনেশন হার যেটি অর্জন করেছে তা খুব বেশি বলে মনে হচ্ছে o4-mini একটি বাণিজ্যিকভাবে উপলব্ধ পণ্য যা লোকেরা ওয়েবে অনুসন্ধান করতে এবং বিভিন্ন ধরণের তথ্য এবং পরামর্শ পেতে ব্যবহার করছে।
o3, পূর্ণ-আকারের মডেল, পরীক্ষার সময় এর 33% প্রতিক্রিয়ার উপর হ্যালুসিনেশন করেছে, o4-miniকে ছাড়িয়ে গেছে কিন্তু o1 এর তুলনায় হ্যালুসিনেশনের হার দ্বিগুণ করেছে। এটির একটি উচ্চ নির্ভুলতার হারও ছিল, তবে, যা OpenAI সামগ্রিকভাবে আরও দাবি করার প্রবণতার জন্য দায়ী করে। সুতরাং, আপনি যদি এই দুটি নতুন মডেলের যেকোনো একটি ব্যবহার করেন এবং প্রচুর হ্যালুসিনেশন লক্ষ্য করেন তবে এটি কেবল আপনার কল্পনা নয়। (হয়তো আমার সেখানে একটি রসিকতা করা উচিত যেমন "চিন্তা করবেন না, আপনি এমন একজন নন যা হ্যালুসিনেটিং করছে।")
এআই "হ্যালুসিনেশন" কি এবং কেন তারা ঘটবে?
যদিও আপনি সম্ভবত AI মডেলের " হ্যালুসিনেটিং " সম্পর্কে আগে শুনেছেন, তবে এটির অর্থ কী তা সবসময় পরিষ্কার নয়। যখনই আপনি একটি AI পণ্য ব্যবহার করেন, OpenAI বা অন্যথায়, আপনি কোথাও একটি দাবিত্যাগ দেখার নিশ্চয়তা পাবেন যে এটির প্রতিক্রিয়াগুলি ভুল হতে পারে এবং আপনাকে নিজের জন্য সত্য-পরীক্ষা করতে হবে।
ভুল তথ্য সব জায়গা থেকে আসতে পারে — কখনও কখনও একটি খারাপ তথ্য উইকিপিডিয়ায় আসে বা ব্যবহারকারীরা Reddit-এ আজেবাজে কথা বলে, এবং এই ভুল তথ্যটি AI প্রতিক্রিয়াগুলির পথ খুঁজে পেতে পারে। উদাহরণস্বরূপ, Google-এর AI ওভারভিউগুলি অনেক মনোযোগ পেয়েছিল যখন এটি পিজ্জার জন্য একটি রেসিপি প্রস্তাব করেছিল যাতে " অ-বিষাক্ত আঠালো " অন্তর্ভুক্ত ছিল৷ শেষ পর্যন্ত, এটি আবিষ্কৃত হয়েছিল যে Google একটি রেডডিট থ্রেডের একটি কৌতুক থেকে এই "তথ্য" পেয়েছে।
যাইহোক, এগুলি "হ্যালুসিনেশন" নয়, এগুলি খারাপ ডেটা এবং ভুল ব্যাখ্যা থেকে উদ্ভূত ভুলের মতো। অন্যদিকে, হ্যালুসিনেশন হল যখন এআই মডেল কোনো সুস্পষ্ট উৎস বা কারণ ছাড়াই দাবি করে। এটি প্রায়শই ঘটে যখন একটি AI মডেল একটি নির্দিষ্ট প্রশ্নের উত্তর দেওয়ার জন্য প্রয়োজনীয় তথ্য খুঁজে পায় না এবং OpenAI এটিকে "অনিশ্চয়তার মুহুর্তে তথ্য উদ্ভাবনের প্রবণতা" হিসাবে সংজ্ঞায়িত করেছে। অন্যান্য শিল্প পরিসংখ্যান এটিকে "সৃজনশীল শূন্যতা পূরণ" বলে অভিহিত করেছেন।
আপনি ChatGPT-এর প্রধান প্রশ্নগুলি দিয়ে হ্যালুসিনেশনকে উৎসাহিত করতে পারেন যেমন "এই মুহূর্তে সাতটি iPhone 16 মডেল কী কী?" যেহেতু সাতটি মডেল নেই, তাই এলএলএম আপনাকে কিছু সত্যিকারের উত্তর দিতে পারে — এবং তারপর কাজটি শেষ করার জন্য অতিরিক্ত মডেল তৈরি করে।

ChatGPT- এর মতো চ্যাটবটগুলি শুধুমাত্র ইন্টারনেট ডেটাতে প্রশিক্ষিত হয় না যা তাদের প্রতিক্রিয়াগুলির বিষয়বস্তু জানায়, তারা "কীভাবে প্রতিক্রিয়া জানাতে হয়" সে সম্পর্কেও প্রশিক্ষিত। সঠিক ধরনের টোন, মনোভাব এবং ভদ্রতার স্তরকে উত্সাহিত করার জন্য তাদের হাজার হাজার উদাহরণ প্রশ্ন এবং মিলিত আদর্শ প্রতিক্রিয়া দেখানো হয়েছে।
প্রশিক্ষণ প্রক্রিয়ার এই অংশটি হল যে কারণে একটি LLM শব্দটি আপনার সাথে একমত বা আপনি যা বলছেন তা বুঝতে পারে যদিও এর বাকি আউটপুটগুলি সেই বিবৃতিগুলির সম্পূর্ণ বিরোধিতা করে৷ এটা সম্ভব যে এই প্রশিক্ষণটি হ্যালুসিনেশনের ঘন ঘন হওয়ার কারণের অংশ হতে পারে — কারণ একটি আত্মবিশ্বাসী প্রতিক্রিয়া যা প্রশ্নের উত্তর দেয় তা প্রশ্নের উত্তর দিতে ব্যর্থ প্রতিক্রিয়ার তুলনায় আরও অনুকূল ফলাফল হিসাবে শক্তিশালী করা হয়েছে।
আমাদের কাছে, এটা সুস্পষ্ট বলে মনে হয় যে এলোমেলো মিথ্যা কথা বলা উত্তর না জানার চেয়েও খারাপ – কিন্তু এলএলএম "মিথ্যা" বলে না। মিথ্যা কাকে বলে তারা জানে না। কিছু লোক বলে যে AI ভুলগুলি মানুষের ভুলের মতো, এবং যেহেতু "আমরা সব সময় জিনিসগুলি সঠিকভাবে পাই না, তাই আমাদের AI থেকেও আশা করা উচিত নয়।" যাইহোক, এটা মনে রাখা গুরুত্বপূর্ণ যে AI থেকে ভুলগুলি কেবল আমাদের দ্বারা ডিজাইন করা অসম্পূর্ণ প্রক্রিয়ার ফলাফল।
এআই মডেলগুলি মিথ্যা বলে না, ভুল বোঝাবুঝি তৈরি করে না বা আমাদের মতো তথ্য ভুল মনে রাখে না। এমনকি তাদের নির্ভুলতা বা ভুলতার ধারণাও নেই — তারা কেবল সম্ভাব্যতার উপর ভিত্তি করে একটি বাক্যে পরবর্তী শব্দের ভবিষ্যদ্বাণী করে । এবং যেহেতু আমরা কৃতজ্ঞতার সাথে এখনও এমন একটি অবস্থায় আছি যেখানে সবচেয়ে বেশি বলা জিনিসটি সঠিক জিনিস হওয়ার সম্ভাবনা রয়েছে, সেই পুনর্গঠনগুলি প্রায়শই সঠিক তথ্য প্রতিফলিত করে। আমরা যখন "সঠিক উত্তর" পাই তখন এটি এমন শব্দ করে তোলে যে এটি আমাদের তৈরি করা ফলাফলের পরিবর্তে একটি এলোমেলো পার্শ্ব প্রতিক্রিয়া – এবং এটি আসলেই জিনিসগুলি কীভাবে কাজ করে।
আমরা এই মডেলগুলিকে ইন্টারনেটের মূল্যের একটি সম্পূর্ণ তথ্য প্রদান করি — কিন্তু কোন তথ্য ভাল বা খারাপ, সঠিক বা বেঠিক তা আমরা তাদের বলি না — আমরা তাদের কিছুই বলি না। তাদের নিজেদের জন্য তথ্য বাছাই করতে সহায়তা করার জন্য তাদের কাছে বিদ্যমান মৌলিক জ্ঞান বা অন্তর্নিহিত নীতিগুলির একটি সেট নেই। এটি সবই একটি সংখ্যার খেলা — শব্দের প্যাটার্ন যা একটি নির্দিষ্ট প্রসঙ্গে প্রায়শই বিদ্যমান থাকে তা LLM-এর "সত্য" হয়ে ওঠে। আমার কাছে, এটি এমন একটি সিস্টেমের মতো শোনাচ্ছে যা ক্র্যাশ এবং পোড়ার জন্য নির্ধারিত – কিন্তু অন্যরা বিশ্বাস করে যে এটি এমন একটি সিস্টেম যা AGI-এর দিকে নিয়ে যাবে (যদিও এটি একটি ভিন্ন আলোচনা।)
ঠিক কি?

সমস্যা হল, ওপেনএআই এখনও জানে না কেন এই উন্নত মডেলগুলি প্রায়শই হ্যালুসিনেট করতে থাকে। সম্ভবত একটু বেশি গবেষণার মাধ্যমে, আমরা সমস্যাটি বুঝতে এবং সমাধান করতে সক্ষম হব — তবে এমন একটি সুযোগও রয়েছে যে জিনিসগুলি এত সহজে যাবে না। কোম্পানী নিঃসন্দেহে আরও বেশি "উন্নত" মডেল প্রকাশ করতে থাকবে, এবং হ্যালুসিনেশনের হার বাড়তে থাকবে এমন একটি সুযোগ রয়েছে।
এই ক্ষেত্রে, OpenAI-কে একটি স্বল্প-মেয়াদী সমাধান অনুসরণ করার পাশাপাশি মূল কারণ সম্পর্কে গবেষণা চালিয়ে যেতে হবে। সর্বোপরি, এই মডেলগুলি অর্থ উপার্জনকারী পণ্য এবং তাদের ব্যবহারযোগ্য অবস্থায় থাকা দরকার। আমি কোন AI বিজ্ঞানী নই, কিন্তু আমি মনে করি আমার প্রথম ধারনা হবে কিছু ধরণের সামগ্রিক পণ্য তৈরি করা — একটি চ্যাট ইন্টারফেস যা একাধিক ভিন্ন ভিন্ন OpenAI মডেলগুলিতে অ্যাক্সেস রয়েছে।
যখন একটি প্রশ্নের জন্য উন্নত যুক্তির প্রয়োজন হয়, তখন এটি GPT-4o-এ কল করবে এবং যখন এটি হ্যালুসিনেশনের সম্ভাবনা কমাতে চায়, তখন এটি o1-এর মতো একটি পুরানো মডেলকে কল করবে। সম্ভবত কোম্পানীটি আরও শৌখিন হতে এবং একটি একক প্রশ্নের বিভিন্ন উপাদানের যত্ন নিতে বিভিন্ন মডেল ব্যবহার করতে সক্ষম হবে এবং তারপরে শেষ পর্যন্ত এটিকে একসাথে সেলাই করার জন্য একটি অতিরিক্ত মডেল ব্যবহার করবে। যেহেতু এটি মূলত একাধিক এআই মডেলের মধ্যে টিমওয়ার্ক হবে, সম্ভবত কিছু ধরণের ফ্যাক্ট-চেকিং সিস্টেমও প্রয়োগ করা যেতে পারে।
যাইহোক, নির্ভুলতার হার বাড়ানো মূল লক্ষ্য নয়। মূল লক্ষ্য হল হ্যালুসিনেশনের হার কমানো, যার মানে আমাদের এমন প্রতিক্রিয়াগুলিকে মূল্য দিতে হবে যা বলে যে "আমি জানি না" এবং সেইসাথে সঠিক উত্তর সহ প্রতিক্রিয়াগুলিকে মূল্য দিতে হবে।
বাস্তবে, ওপেনএআই কী করবে বা এর গবেষকরা হ্যালুসিনেশনের ক্রমবর্ধমান হার নিয়ে সত্যিই কতটা চিন্তিত তা আমার কোন ধারণা নেই। আমি শুধু জানি যে আরও হ্যালুসিনেশন শেষ ব্যবহারকারীদের জন্য খারাপ – এর মানে আমাদের জন্য এটি উপলব্ধি না করেই বিভ্রান্ত হওয়ার আরও বেশি সুযোগ। আপনি যদি LLM-এ বড় হন, তাহলে সেগুলি ব্যবহার করা বন্ধ করার দরকার নেই — কিন্তু সময় বাঁচানোর আকাঙ্ক্ষাকে বাস্তবতা যাচাই করার প্রয়োজনে জয়ী হতে দেবেন না। সর্বদা সত্য-চেক!