মাইক্রোসফটের সিইও সত্য নাদেলা ভবিষ্যদ্বাণী করেছিলেন যে জেনারেটিভ এআই জ্ঞানের কাজ দখল করবে, প্রায় দুই বছর হয়ে গেছে, কিন্তু আপনি যদি আজ একটি সাধারণ আইন সংস্থা বা বিনিয়োগ ব্যাংকের দিকে তাকান, তাহলে দেখা যাবে যে মানব কর্মী এখনও অনেক দায়িত্বে রয়েছে। "যুক্তি" এবং "পরিকল্পনা" সম্পর্কে সমস্ত প্রচারণা সত্ত্বেও, প্রশিক্ষণ-তথ্য সংস্থা মার্করের একটি নতুন গবেষণায় ব্যাখ্যা করা হয়েছে যে রোবট বিপ্লব কেন স্থগিত রয়েছে: এআই বাস্তব কাজের অগোছালোতা সহ্য করতে পারে না।
"প্রতিস্থাপন" তত্ত্বের বাস্তবতা যাচাই
মার্কর অ্যাপেক্স-এজেন্টস নামে একটি নতুন মানদণ্ড প্রকাশ করেছে, এবং এটি অত্যন্ত নিষ্ঠুর। সাধারণ পরীক্ষার বিপরীতে যেখানে এআইকে কবিতা লিখতে বা গণিতের সমস্যা সমাধান করতে বলা হয়, এটি আইনজীবী, পরামর্শদাতা এবং ব্যাংকারদের কাছ থেকে প্রকৃত প্রশ্ন ব্যবহার করে। এটি মডেলগুলিকে সম্পূর্ণ, বহু-পদক্ষেপের কাজ করতে বলে যার জন্য বিভিন্ন ধরণের তথ্যের মধ্যে ঝাঁপিয়ে পড়তে হয়।
ফলাফল কি? এমনকি বাজারে থাকা সেরা মডেলগুলি – আমরা জেমিনি 3 ফ্ল্যাশ এবং GPT-5.2 – 25% নির্ভুলতা হার অর্জন করতে পারেনি। জেমিনি 24% নিয়ে এগিয়ে ছিল, GPT-5.2 23% নিয়ে তার ঠিক পিছনে ছিল। অন্য বেশিরভাগই কিশোর বয়সে আটকে ছিল।
কেন AI "অফিস পরীক্ষায়" ফেল করছে?
মার্করের সিইও ব্রেন্ডন ফুডি উল্লেখ করেছেন যে সমস্যাটি অপ্রকাশিত বুদ্ধিমত্তার নয়; এটি প্রেক্ষাপটের বিষয়। বাস্তব জগতে, উত্তরগুলি রূপালী থালায় পরিবেশিত হয় না। একজন আইনজীবীকে একটি স্ল্যাক থ্রেড পরীক্ষা করতে হয়, একটি পিডিএফ নীতি পড়তে হয়, একটি স্প্রেডশিট দেখতে হয় এবং তারপরে জিডিপিআর সম্মতি সম্পর্কে একটি প্রশ্নের উত্তর দেওয়ার জন্য সেগুলি সংশ্লেষিত করতে হয়।
মানুষ স্বাভাবিকভাবেই এই প্রেক্ষাপট পরিবর্তন করে। দেখা যাচ্ছে, AI এতে ভয়ানক। যখন আপনি এই মডেলগুলিকে "বিক্ষিপ্ত" উৎস থেকে তথ্য অনুসন্ধান করতে বাধ্য করেন, তখন তারা হয় বিভ্রান্ত হয়ে পড়ে, ভুল উত্তর দেয়, অথবা সম্পূর্ণরূপে হাল ছেড়ে দেয়।
"অবিশ্বস্ত ইন্টার্ন"
যারা তাদের চাকরির নিরাপত্তা নিয়ে চিন্তিত, তাদের জন্য এটি কিছুটা স্বস্তির। গবেষণায় দেখা গেছে যে বর্তমানে, AI একজন অভিজ্ঞ পেশাদারের মতো কম কাজ করে, বরং একজন অবিশ্বস্ত ইন্টার্নের মতো কাজ করে যিনি প্রায় এক-চতুর্থাংশ সময়ই সবকিছু ঠিকঠাক করে ফেলেন।
তবে, অগ্রগতি ভয়াবহভাবে দ্রুত। ফুডি উল্লেখ করেছে যে মাত্র এক বছর আগে, এই মডেলগুলি ৫% থেকে ১০% এর মধ্যে স্কোর করছিল। এখন তারা ২৪% এ পৌঁছেছে। সুতরাং, যদিও তারা এখনও গাড়ি চালানোর জন্য প্রস্তুত নয়, তারা আমাদের প্রত্যাশার চেয়ে অনেক দ্রুত গাড়ি চালানো শিখছে। যদিও আপাতত, "জ্ঞানের কাজ" বিপ্লব স্থগিত রয়েছে যতক্ষণ না বটগুলি মাল্টিটাস্কিং শিখে।
"নতুন গবেষণায় দেখা গেছে যে AI অফিসের কাজের জন্য প্রস্তুত নয়" পোস্টটি প্রথম প্রকাশিত হয়েছিল ডিজিটাল ট্রেন্ডস- এ।
