ওপেনএআই একটি এআই সহকারী তৈরি করেছে , যার নাম ক্রিটিকজিপিটি , তার ভিড়-উৎসিত প্রশিক্ষকদের জিপিটি-4 মডেলকে আরও পরিমার্জিত করতে সাহায্য করার জন্য। এটি সূক্ষ্ম কোডিং ত্রুটিগুলি চিহ্নিত করে যা মানুষ অন্যথায় মিস করতে পারে।
GPT-4-এর মতো একটি বৃহৎ ভাষার মডেল প্রাথমিকভাবে প্রশিক্ষিত হওয়ার পর, এটি পরবর্তীকালে পরিমার্জনের একটি ক্রমাগত প্রক্রিয়ার মধ্য দিয়ে যায়, যা রিইনফোর্সমেন্ট লার্নিং ফ্রম হিউম্যান ফিডব্যাক (RLHF) নামে পরিচিত। মানব প্রশিক্ষকরা সিস্টেমের সাথে যোগাযোগ করে এবং বিভিন্ন প্রশ্নের উত্তর টীকা করে, সেইসাথে একে অপরের বিরুদ্ধে বিভিন্ন প্রতিক্রিয়া রেট দেয়, যাতে সিস্টেম পছন্দের প্রতিক্রিয়া ফিরিয়ে দিতে শেখে এবং মডেলের প্রতিক্রিয়া সঠিকতা বাড়ায়।
সমস্যা হল যে সিস্টেমের কর্মক্ষমতা উন্নত হওয়ার সাথে সাথে এটি তার প্রশিক্ষকের দক্ষতার স্তরকে ছাড়িয়ে যেতে পারে এবং ভুল এবং ত্রুটি সনাক্ত করার প্রক্রিয়াটি ক্রমশ কঠিন হয়ে ওঠে।
এই AI প্রশিক্ষকরা সবসময় বিষয় বিশেষজ্ঞ নয়, মনে রাখবেন। গত বছর, ওপেনএআই কেনিয়ার কর্মীদের প্রচেষ্টায় ভিড় জমায় – এবং তাদের মডেলগুলির কার্যকারিতা উন্নত করতে – এবং তাদের প্রতি ঘন্টায় $2 এর কম অর্থ প্রদান করে ৷
এই সমস্যাটি বিশেষত কঠিন যখন সিস্টেমের কোড জেনারেশন ক্ষমতা পরিমার্জন করা হয়, যেখানে CriticGPT আসে।
“আমরা ChatGPT-এর কোড আউটপুটে ত্রুটি ধরার জন্য GPT-4-এর উপর ভিত্তি করে CriticGPT নামে একটি মডেলকে প্রশিক্ষণ দিয়েছি,” কোম্পানি বৃহস্পতিবার একটি ব্লগ পোস্টে ব্যাখ্যা করেছে। "আমরা দেখেছি যে যখন লোকেরা চ্যাটজিপিটি কোড পর্যালোচনা করতে ক্রিটিকজিপিটি থেকে সহায়তা পায় তখন তারা 60 শতাংশ সময় সাহায্য ছাড়াই সেগুলিকে ছাড়িয়ে যায়।"
আরও কী, সংস্থাটি এই বিষয়ে একটি শ্বেতপত্র প্রকাশ করেছে, যার শিরোনাম “ LLM ক্রিটিক্স হেল্প ক্যাচ এলএলএম বাগস”, যা দেখেছে যে “কোড পর্যালোচনার জন্য যোগ্য মানুষের তুলনায় এলএলএমগুলি যথেষ্ট পরিমাণে বেশি সন্নিবেশিত বাগগুলি ধরে, এবং আরও যে মডেল সমালোচনাগুলি মানব সমালোচনার চেয়ে বেশি পছন্দ করে। সময়ের 80 শতাংশেরও বেশি।"
মজার বিষয় হল, সমীক্ষায় আরও দেখা গেছে যে যখন মানুষ CriticGPT-এর সাথে সহযোগিতা করেছিল, তখন AI এর হ্যালুসিনেটিং প্রতিক্রিয়ার হার CriticGPT একা কাজ করার তুলনায় কম ছিল, কিন্তু হ্যালুসিনেশনের হার তখনও বেশি ছিল যদি একজন মানুষ নিজে নিজে কাজটি করে থাকে।