আপনি যদি কোনও চ্যাটবটের কাছে চিকিৎসা পরামর্শ চান, তাহলে এটি চিন্তাভাবনার সাথে সাড়া দেয়। কিন্তু এটি কি আসলেই ঝুঁকির বিষয়গুলিকে গুরুত্ব দিয়েছে, নাকি কেবল কথার মাধ্যমেই ভাগ্যবান হয়েছে?
গুগল ডিপমাইন্ড একটি নতুন নেচার পেপারে এই সমস্যাটিই সমাধান করেছে। দলটি যুক্তি দেয় যে আমরা যেভাবে AI নীতি পরীক্ষা করি তা ভঙ্গুর। আমরা পরীক্ষা করি যে মডেলগুলি সঠিক উত্তর তৈরি করে কিনা, যাকে তারা নৈতিক কর্মক্ষমতা বলে। কিন্তু এটি আমাদের কিছুই বলে না যে সিস্টেমটি কেন কিছু সঠিক বা ভুল তা বুঝতে পারে কিনা।
মানুষ থেরাপি, চিকিৎসা নির্দেশনা, এমনকি সাহচর্যের জন্য LLM ব্যবহার করে। এই ব্যবস্থাগুলি আমাদের জন্য সিদ্ধান্ত নিতে শুরু করেছে। যদি আমরা অভিনব অনুকরণ থেকে প্রকৃত বোধগম্যতা নির্ধারণ করতে না পারি, তাহলে আমরা বাস্তব মানবিক পরিণতি সহ একটি ব্ল্যাক বক্সের উপর বিশ্বাস রাখছি।
ডিপমাইন্ডের উত্তর হল নৈতিক দক্ষতা পরিমাপের জন্য একটি রোডম্যাপ, পরিসংখ্যানগত নিদর্শনগুলির পরিবর্তে প্রকৃত নৈতিক বিবেচনার ভিত্তিতে রায় দেওয়ার ক্ষমতা। গবেষণাপত্রটি তিনটি মূল বাধা এবং প্রতিটির জন্য পরীক্ষা করার উপায়গুলি তুলে ধরে।
চ্যাটবটগুলি নীতিশাস্ত্র জাল করার তিনটি কারণ
প্রথমত, ফ্যাসিমাইল সমস্যা। এলএলএম হলো পরবর্তী টোকেন ভবিষ্যদ্বাণীকারী যা প্রশিক্ষণের তথ্য থেকে সম্ভাব্যতা বিতরণের নমুনা সংগ্রহ করে। তারা নৈতিক যুক্তি মডিউল চালায় না। তাই যখন একটি চ্যাটবট নৈতিক পরামর্শ দেয়, তখন এটি যুক্তি হতে পারে। অথবা এটি একটি রেডিট থ্রেড থেকে কিছু পুনর্ব্যবহার করতে পারে। কেবল আউটপুট আপনাকে বলবে না।
তারপর আছে নৈতিক বহুমাত্রিকতা। বাস্তব পছন্দ খুব কমই একটি জিনিসের উপর নির্ভর করে। আপনি সততাকে দয়ার সাথে তুলনা করেন, মূল্যকে ন্যায্যতার সাথে তুলনা করেন। একটি একক বিবরণ, কারো বয়স বা পরিবেশ পরিবর্তন করুন, এবং সঠিক সিদ্ধান্তটি উল্টে যেতে পারে। বর্তমান পরীক্ষাগুলি পরীক্ষা করে না যে AI আসলে কী গুরুত্বপূর্ণ তা লক্ষ্য করে কিনা।
নৈতিক বহুত্ববাদ আরেকটি স্তর যোগ করে। বিভিন্ন সংস্কৃতি এবং পেশার বিভিন্ন নিয়ম রয়েছে। এক দেশে ন্যায্যতা অন্য দেশে অন্যায্য হতে পারে। বিশ্বব্যাপী ব্যবহৃত একটি চ্যাটবট কেবল সর্বজনীন সত্য প্রকাশ করতে পারে না। এটিকে প্রতিযোগিতামূলক কাঠামো পরিচালনা করতে হবে, এবং আমরা এখনও তা ভালভাবে পরিমাপ করতে পারি না।
কেন আপনার চ্যাটবটের নৈতিক শিক্ষা কেবল মুখস্থ করা যাবে না?
ডিপমাইন্ড টিম চিত্রনাট্যটি উল্টে দিতে চায়। কেবল পরিচিত নৈতিক প্রশ্ন জিজ্ঞাসা করার পরিবর্তে, গবেষকদের এমন প্রতিকূল পরীক্ষা ডিজাইন করা উচিত যা অনুকরণ প্রকাশ করার চেষ্টা করে।
একটি ধারণা এমন পরিস্থিতির সাথে সম্পর্কিত যা প্রশিক্ষণের তথ্যে অপ্রত্যাশিতভাবে দেখা যায়। আন্তঃপ্রজন্মগত শুক্রাণু দানের কথা ধরুন, যেখানে একজন বাবা তার ছেলের পক্ষে একটি ডিম্বাণু নিষিক্ত করে তার ছেলেকে শুক্রাণু দান করেন। এটি দেখতে অজাচারের মতো কিন্তু ভিন্ন নীতিগত গুরুত্ব বহন করে। যদি কোনও মডেল অজাচারের কারণে এটি প্রত্যাখ্যান করে, তবে এটি প্যাটার্ন ম্যাচিং। যদি এটি প্রকৃত নীতিমালা নেভিগেট করে, তবে এটি অন্য কিছু।
আরেকটি পদ্ধতি পরীক্ষা করে যে AI কাঠামো পরিবর্তন করতে পারে কিনা। এটি কি জৈব চিকিৎসা নীতিশাস্ত্র এবং সামরিক নিয়মের মধ্যে পরিবর্তন করতে পারে এবং প্রতিটির জন্য সুসংগত উত্তর দিতে পারে? ফর্ম্যাটিং পরিবর্তনের কারণে বাধাগ্রস্ত না হয়ে এটি কি ছোটখাটো পরিবর্তনগুলি পরিচালনা করতে পারে?
গবেষকরা জানেন যে এটি কঠিন। বর্তমান মডেলগুলি ভঙ্গুর। "কেস 1" থেকে "বিকল্প A" লেবেলটি পরিবর্তন করুন এবং আপনি ভিন্ন রায় পেতে পারেন। কিন্তু তারা যুক্তি দেন যে এই ধরণের পরীক্ষাই হল এই সিস্টেমগুলি প্রকৃত দায়িত্বের যোগ্য কিনা তা জানার একমাত্র উপায়।
নৈতিক AI-এর পরবর্তী কী হবে?
ডিপমাইন্ড এমন একটি নতুন বৈজ্ঞানিক মানদণ্ডের জন্য চাপ দিচ্ছে যা গণিত দক্ষতার মতোই নৈতিক দক্ষতাকে গুরুত্ব সহকারে গ্রহণ করে। এর অর্থ হল সাংস্কৃতিকভাবে নির্দিষ্ট মূল্যায়নের উপর বিশ্বব্যাপী কাজের জন্য অর্থায়ন করা এবং জাল ধরা পড়ার জন্য পরীক্ষা ডিজাইন করা।
আপনার চ্যাটবট শীঘ্রই এগুলো পাস করবে বলে আশা করবেন না। বর্তমান কৌশলগুলি এখনও সেখানে নেই, তবে রোডম্যাপটি ডেভেলপারদের একটি দিকনির্দেশনা দেয়।
যখন আপনি এখনই AI-এর কাছে নৈতিক পরামর্শ চান, তখন আপনি দর্শনের পরিবর্তে পরিসংখ্যানগত ভবিষ্যদ্বাণী পাচ্ছেন। অবশেষে এটি পরিবর্তিত হতে পারে। কিন্তু শুধুমাত্র যদি আমরা সঠিক জিনিসগুলি পরিমাপ করা শুরু করি।
আপনার AI আসলেই নীতিগত কিনা তা পরীক্ষা করার জন্য গুগলের নতুন পরিকল্পনা পোস্টটি প্রথমে ডিজিটাল ট্রেন্ডসে প্রকাশিত হয়েছিল।