নতুন গবেষণায় দেখা গেছে যে AI অফিসের কাজের জন্য প্রস্তুত নয়

মাইক্রোসফটের সিইও সত্য নাদেলা ভবিষ্যদ্বাণী করেছিলেন যে জেনারেটিভ এআই জ্ঞানের কাজ দখল করবে, প্রায় দুই বছর হয়ে গেছে, কিন্তু আপনি যদি আজ একটি সাধারণ আইন সংস্থা বা বিনিয়োগ ব্যাংকের দিকে তাকান, তাহলে দেখা যাবে যে মানব কর্মী এখনও অনেক দায়িত্বে রয়েছে। "যুক্তি" এবং "পরিকল্পনা" সম্পর্কে সমস্ত প্রচারণা সত্ত্বেও, প্রশিক্ষণ-তথ্য সংস্থা মার্করের একটি নতুন গবেষণায় ব্যাখ্যা করা হয়েছে যে রোবট বিপ্লব কেন স্থগিত রয়েছে: এআই বাস্তব কাজের অগোছালোতা সহ্য করতে পারে না।

"প্রতিস্থাপন" তত্ত্বের বাস্তবতা যাচাই

মার্কর অ্যাপেক্স-এজেন্টস নামে একটি নতুন মানদণ্ড প্রকাশ করেছে, এবং এটি অত্যন্ত নিষ্ঠুর। সাধারণ পরীক্ষার বিপরীতে যেখানে এআইকে কবিতা লিখতে বা গণিতের সমস্যা সমাধান করতে বলা হয়, এটি আইনজীবী, পরামর্শদাতা এবং ব্যাংকারদের কাছ থেকে প্রকৃত প্রশ্ন ব্যবহার করে। এটি মডেলগুলিকে সম্পূর্ণ, বহু-পদক্ষেপের কাজ করতে বলে যার জন্য বিভিন্ন ধরণের তথ্যের মধ্যে ঝাঁপিয়ে পড়তে হয়।

ফলাফল কি? এমনকি বাজারে থাকা সেরা মডেলগুলি – আমরা জেমিনি 3 ফ্ল্যাশ এবং GPT-5.2 – 25% নির্ভুলতা হার অর্জন করতে পারেনি। জেমিনি 24% নিয়ে এগিয়ে ছিল, GPT-5.2 23% নিয়ে তার ঠিক পিছনে ছিল। অন্য বেশিরভাগই কিশোর বয়সে আটকে ছিল।

কেন AI "অফিস পরীক্ষায়" ফেল করছে?

মার্করের সিইও ব্রেন্ডন ফুডি উল্লেখ করেছেন যে সমস্যাটি অপ্রকাশিত বুদ্ধিমত্তার নয়; এটি প্রেক্ষাপটের বিষয়। বাস্তব জগতে, উত্তরগুলি রূপালী থালায় পরিবেশিত হয় না। একজন আইনজীবীকে একটি স্ল্যাক থ্রেড পরীক্ষা করতে হয়, একটি পিডিএফ নীতি পড়তে হয়, একটি স্প্রেডশিট দেখতে হয় এবং তারপরে জিডিপিআর সম্মতি সম্পর্কে একটি প্রশ্নের উত্তর দেওয়ার জন্য সেগুলি সংশ্লেষিত করতে হয়।

মানুষ স্বাভাবিকভাবেই এই প্রেক্ষাপট পরিবর্তন করে। দেখা যাচ্ছে, AI এতে ভয়ানক। যখন আপনি এই মডেলগুলিকে "বিক্ষিপ্ত" উৎস থেকে তথ্য অনুসন্ধান করতে বাধ্য করেন, তখন তারা হয় বিভ্রান্ত হয়ে পড়ে, ভুল উত্তর দেয়, অথবা সম্পূর্ণরূপে হাল ছেড়ে দেয়।

"অবিশ্বস্ত ইন্টার্ন"

যারা তাদের চাকরির নিরাপত্তা নিয়ে চিন্তিত, তাদের জন্য এটি কিছুটা স্বস্তির। গবেষণায় দেখা গেছে যে বর্তমানে, AI একজন অভিজ্ঞ পেশাদারের মতো কম কাজ করে, বরং একজন অবিশ্বস্ত ইন্টার্নের মতো কাজ করে যিনি প্রায় এক-চতুর্থাংশ সময়ই সবকিছু ঠিকঠাক করে ফেলেন।

তবে, অগ্রগতি ভয়াবহভাবে দ্রুত। ফুডি উল্লেখ করেছে যে মাত্র এক বছর আগে, এই মডেলগুলি ৫% থেকে ১০% এর মধ্যে স্কোর করছিল। এখন তারা ২৪% এ পৌঁছেছে। সুতরাং, যদিও তারা এখনও গাড়ি চালানোর জন্য প্রস্তুত নয়, তারা আমাদের প্রত্যাশার চেয়ে অনেক দ্রুত গাড়ি চালানো শিখছে। যদিও আপাতত, "জ্ঞানের কাজ" বিপ্লব স্থগিত রয়েছে যতক্ষণ না বটগুলি মাল্টিটাস্কিং শিখে।

"নতুন গবেষণায় দেখা গেছে যে AI অফিসের কাজের জন্য প্রস্তুত নয়" পোস্টটি প্রথম প্রকাশিত হয়েছিল ডিজিটাল ট্রেন্ডস- এ।