যেসব শিক্ষা প্রতিষ্ঠান বর্তমানে শিক্ষার্থী ও গবেষকদের জমা দেওয়া কাজ যাচাই করতে এআই ডিটেক্টর ব্যবহার করছে, তাদের জন্য একটি অস্বস্তিকর বিষয় হলো: এই টুলগুলো ততটা নির্ভরযোগ্যভাবে কাজ করে না, যতটা প্রতিষ্ঠানগুলো মনে করে।
এই সপ্তাহে অনুষ্ঠিত ২০২৬ আইইইই সিম্পোজিয়াম অন সিকিউরিটি অ্যান্ড প্রাইভেসি-তে ফ্লোরিডা বিশ্ববিদ্যালয়ের গবেষকদের দ্বারা উপস্থাপিত একটি গবেষণাপত্রে এই সিদ্ধান্তে উপনীত হওয়া গেছে যে, বাণিজ্যিকভাবে উপলব্ধ এআই-চালিত টেক্সট ডিটেক্টরগুলো “একাডেমিক বা উচ্চ-ঝুঁকিপূর্ণ প্রেক্ষাপটে ব্যবহারের জন্য একেবারেই উপযুক্ত নয়।”
এটাকে ভদ্রভাবে বলতে গেলে, বিশ্ববিদ্যালয়গুলো এমন সব উপকরণের ফলাফলের ওপর ভিত্তি করে ক্যারিয়ার-পরিবর্তনকারী সিদ্ধান্ত নিচ্ছে যা মূলত নির্ভরযোগ্য নয়।
গবেষণায় আসলে কী পাওয়া গেল?
ইউএফ-এর কম্পিউটার ও তথ্য বিজ্ঞান ও প্রকৌশল বিভাগের অধ্যাপক এবং অন্তর্বর্তীকালীন প্রধান ড. প্যাট্রিক ট্রেয়নার একটি দলের নেতৃত্ব দিয়েছেন, যারা বাণিজ্যিকভাবে উপলব্ধ সবচেয়ে জনপ্রিয় পাঁচটি এআই টেক্সট ডিটেক্টর পরীক্ষা করেছে।
ChatGPT আসারও আগে শীর্ষস্থানীয় নিরাপত্তা সম্মেলনগুলোতে জমা দেওয়া প্রায় ৬,০০০ গবেষণা পত্র ব্যবহার করে, তারা এলএলএমদের দিয়ে সেই একই পত্রগুলোর ক্লোন তৈরি করিয়েছিল এবং তারপর উভয় সেটকেই এআই ডিটেক্টরের মাধ্যমে চালনা করেছিল।
ফলাফলে দেখা গেছে, ফলস পজিটিভ রেট ০.০৫% থেকে ৬৮.৬% পর্যন্ত এবং আরও আশ্চর্যজনকভাবে, ফলস নেগেটিভ রেট ০.৩% থেকে ৯৯.৬%-এর মধ্যে। উপরের এই সংখ্যাটি ১০০%-এর কাছাকাছি, যার অর্থ হলো সবচেয়ে খারাপ পারফর্ম করা ডিটেক্টরটি এআই দ্বারা তৈরি প্রায় সমস্ত টেক্সটই শনাক্ত করতে পারেনি।
যদিও পাঁচটি ডিটেক্টরের মধ্যে দুটি প্রাথমিকভাবে ভালো কাজ করেছিল, গবেষকরা যখন এলএলএম-কে আরও জটিল শব্দভান্ডার ব্যবহার করে এর আউটপুটগুলো পুনরায় লিখতে বলেন, তখন সেগুলো মূলত অকেজো হয়ে পড়ে (গবেষণাপত্রটিতে এটিকে ‘লেক্সিক্যাল কমপ্লেক্সিটি অ্যাটাক’ বলা হয়েছে)।
প্রাতিষ্ঠানিক সততার বাইরেও এই বিষয়টি কেন গুরুত্বপূর্ণ?
ট্রেয়নার স্পষ্ট করে বলেছেন: “এই সিদ্ধান্তগুলোর বিচার করার জন্য আমরা এগুলোকে সত্যিই ব্যবহার করতে পারি না। এখানে মানুষের কর্মজীবন ঝুঁকির মুখে।” কোনো জমা দেওয়া লেখায় এআই-সৃষ্ট লেখার অভিযোগ একজন গবেষকের সুনামকে স্থায়ীভাবে ক্ষতিগ্রস্ত করতে পারে, কিন্তু যে টুলগুলো এই ধরনের অভিযোগ করে, তাদের ওপর আমরা অন্ধভাবে বিশ্বাস রাখতে পারি না।
যুক্তিটি হলো, অ্যাকাডেমিক লেখায় কৃত্রিম বুদ্ধিমত্তার ব্যাপক ব্যবহার সংক্রান্ত প্রমাণগুলো নিজেই অবিশ্বস্ত। ট্রেয়নর আরও বলেন, “অ্যাকাডেমিক কাজের একটি নির্দিষ্ট শতাংশ কৃত্রিম বুদ্ধিমত্তা দ্বারা তৈরি বলে দাবি করা যত গবেষণাই আমরা দেখি না কেন, এর কোনোটিই পরিমাপ করার মতো সরঞ্জাম আমাদের কাছে নেই।”
তার গবেষণা শুধু সরঞ্জামগুলোর সমালোচনা করে না; বরং এটি এমন প্রতিটি প্রতিষ্ঠানের যথাযথ সতর্কতা অবলম্বনের পদ্ধতিগত ব্যর্থতা উন্মোচন করে, যারা এগুলোর নির্ভুলতা সম্পর্কে প্রমাণ না চেয়েই এই সরঞ্জামগুলো গ্রহণ করেছে।
