ChatGPT এবং Claude একসাথে বড় বড় আপডেট পেয়েছে; যারা AI-এর বস হতে পারবে না তাদের বাদ দেওয়া হবে।

এইমাত্র, সিলিকন ভ্যালির এআই সার্কেলে "মঙ্গল ও পৃথিবীর সংঘর্ষ" ঘটেছে।

যেন পূর্বের ব্যবস্থা অনুসারে, OpenAI এবং Anthropic একই সাথে তাদের প্রধান আপডেটগুলি প্রকাশ করেছে: Claude Opus 4.6 এবং GPT-5.3-Codex।

যদি আমরা গত রাত পর্যন্ত "কাজে সহায়তা করার জন্য কীভাবে ভালো প্রম্পট লিখতে হয়" নিয়ে আলোচনা করতাম, তাহলে আজ সকালে আমাদের হয়তো "কীভাবে একজন বস হিসেবে AI কর্মীদের পরিচালনা করতে হয়" তা শিখতে বাধ্য হতে হয়েছিল।

AI AI তৈরি করে, এবং ঘটনাক্রমে আপনার কম্পিউটার দখল করে নেয়।

গতকালই, স্যাম অল্টম্যান X প্ল্যাটফর্মে কোডেক্সের "এক মিলিয়ন সক্রিয় ব্যবহারকারী" মাইলফলক উদযাপন করেছেন। মাত্র একদিন পরে, OpenAI আরেকটি বিস্ফোরক আবিষ্কার করে – GPT-5.3-Codex।

প্রযুক্তিগত ডকুমেন্টেশনে একটি অত্যন্ত তাৎপর্যপূর্ণ বিবৃতি রয়েছে: "এটিই প্রথম মডেল যা আমাদের নিজস্ব সৃষ্টি প্রক্রিয়ায় গুরুত্বপূর্ণ ভূমিকা পালন করেছে।"

সাধারণ মানুষের ভাষায়, এর অর্থ হল এআই নিজস্ব কোড লিখতে শিখেছে, নিজে নিজেই বাগ খুঁজে বের করতে শিখেছে, এমনকি পরবর্তী প্রজন্মের এআই-কে প্রশিক্ষণ দিতেও শুরু করেছে। এই স্ব-বিবর্তনীয় ক্ষমতা সরাসরি বেঞ্চমার্ক স্কোরের একটি সিরিজে প্রতিফলিত হয়।

OSWorld-Verified বেঞ্চমার্ক পরীক্ষাটি মনে আছে যা কম্পিউটারের মানুষের ক্রিয়াকলাপ অনুকরণ করে? পূর্ববর্তী মডেলটির নির্ভুলতা ছিল মাত্র 38.2%, যা পাসিং মার্ক পর্যন্তও ছিল না।

কিন্তু এবার, GPT-5.3-Codex 64.7% এ লাফিয়ে উঠেছে!

এটা লক্ষণীয় যে মানুষের গড় স্তর মাত্র ৭২%। এর মানে হল যে AI মাউস ব্যবহার, স্ক্রিন স্যুইচিং এবং সফটওয়্যার পরিচালনায় আপনার মতো পারদর্শী হতে মাত্র এক চুল দূরে।

টার্মিনাল-বেঞ্চ ২.০ (কমান্ড লাইন অপারেশন) এ, এটি ৭৭.৩% এর উচ্চ স্কোর অর্জন করেছে, যা GPT-5.2 (62.2%) কে ছাড়িয়ে গেছে।

বিখ্যাত SWE-Bench Pro বেঞ্চমার্কটি চারটি প্রোগ্রামিং ভাষাকে অন্তর্ভুক্ত করে, এটি কেবল দূষণ প্রতিরোধীই নয়, বরং বাস্তব-বিশ্বের, হার্ডকোর ইঞ্জিনিয়ারিং চ্যালেঞ্জগুলিও মোকাবেলা করে।

GPT-5.3-Codex এখানে কেবল অত্যাধুনিক (SOTA) কর্মক্ষমতা অর্জন করেনি, বরং পূর্ববর্তী যেকোনো মডেলের তুলনায় কম টোকেন ব্যবহার করেছে। এর অর্থ কী? এর অর্থ হল এটি কেবল অবিশ্বাস্যভাবে দ্রুত কাজ করে না, বরং মানুষের তুলনায় কম সময়ে এবং আরও সাশ্রয়ী উপায়ে সমস্যার সমাধান করে।

ওপেনএআই এমনকি স্বাধীনভাবে নির্মাণের ক্ষমতা প্রদর্শন করেছে:

কয়েক দিনের মধ্যেই, এটি শুরু থেকে একাধিক মানচিত্র সহ একটি রেসিং গেম v2 তৈরি করে এবং একটি গভীর সমুদ্র ডাইভিং গেমও তৈরি করতে সক্ষম হয় যা একটি অক্সিজেন সিস্টেম পরিচালনা করে।

GPT-5.3-Codex-এর অস্পষ্ট উদ্দেশ্য সম্পর্কে ধারণা আমাকে সবচেয়ে বেশি মুগ্ধ করেছে।

"শান্ত KPI" ল্যান্ডিং পৃষ্ঠা তৈরি করার সময়, এটি স্বয়ংক্রিয়ভাবে "বার্ষিক পরিকল্পনা" কে "ছাড়প্রাপ্ত মাসিক মূল্যে" রূপান্তরিত করে এবং এমনকি ভেবেচিন্তে একটি ব্যবহারকারী পর্যালোচনা ক্যারোজেলও যোগ করে—সবকিছুই আপনাকে কোনও নির্দেশনা না দিয়েই।

ওপেনএআই-এর উচ্চাকাঙ্ক্ষা তার মুখের উপর লেখা: মাইক্রোসফ্ট আগে বলত যে এআই মানুষের সহ-পাইলট হবে, কিন্তু এখন এআই এমন ড্রাইভার হতে চায় যে স্টিয়ারিং হুইলের নিয়ন্ত্রণ নিতে পারে এবং এমনকি গাড়ি নিজেই ঠিক করতে পারে।

ওহ, আর একটা মজার বিষয় আছে।

পূর্বে, ব্যাপকভাবে গুজব ছিল যে OpenAI-এর NVIDIA-এর AI চিপ সম্পর্কে আপত্তি ছিল, কিন্তু এবার অফিসিয়াল ব্লগে বিশেষভাবে জোর দেওয়া হয়েছে যে GPT-5.3-Codex-এর নকশা, প্রশিক্ষণ এবং স্থাপনা সবকিছুই NVIDIA GB200 NVL72 সিস্টেমে সম্পন্ন হয়েছে।

এই উচ্চ-EQ "ধন্যবাদ এনভিডিয়া" হুয়াং রেনক্সুনকে সত্যিই অনেক মুখ্য করে তুলেছে।

"সোনার মাছের স্মৃতি" কে বিদায় জানিয়ে, ক্লদ এক নাটকীয় প্রত্যাবর্তন করলেন।

GPT-5.3-Codex প্রকাশের প্রায় একই সময়ে, Anthropic তার নিজস্ব চীনা নববর্ষের উপহার প্যাকেজও উপস্থাপন করে।

খারাপ খবর হল যে বহুল প্রত্যাশিত "মাঝারি" ক্লড সনেট মডেলটি আপডেট করা হয়নি; কিন্তু ভালো খবর হল যে অ্যানথ্রপিক সরাসরি "সুপার-সাইজড" সংস্করণ – ক্লড ওপাস ৪.৬ উপস্থাপন করেছে।

"কর্ম"-এর প্রতি OpenAI-এর আক্রমণাত্মক পদ্ধতির তুলনায়, আজ প্রকাশিত অ্যানথ্রপিকের ক্লড ওপাস ৪.৬, "চিন্তা করার ক্ষমতা" এবং "ব্যবহারযোগ্যতার" উপর আলোকপাত করে।

অনেক এন্টারপ্রাইজ ব্যবহারকারীর একটি সমস্যা থাকে যার নাম কনটেক্সট রট: এটি ২০০,০০০ কনটেক্সট সমর্থন করে বলে দাবি করে, কিন্তু যখন প্রচুর ডেটা রাখা হয়, তখন এআই শুরুতে ফোকাস করতে শুরু করে কিন্তু শেষের দিকে নয়।

এবার, ক্লড ওপাস ৪.৬ দ্বারা উপস্থাপিত তথ্য কেবল একটি "গেম-চেঞ্জার"।

MRCR v2 (Long Text Needle in a Haystack) পরীক্ষায়, Claude Opus 4.6 ৭৬% প্রত্যাহার হার অর্জন করেছে।

বিপরীতে, পূর্ববর্তী প্রজন্মের সনেট ৪.৫-এর ফলাফল ছিল ১৮.৫% হতাশাজনক। এক অর্থে, এটি কার্যত অব্যবহারযোগ্য থেকে "অত্যন্ত নির্ভরযোগ্য" হওয়ার একটি গুণগত উল্লম্ফনের প্রতিনিধিত্ব করে।

এই প্রথমবারের মতো ক্লড ওপাস ৪.৬ একটি সত্যিকার অর্থে ব্যবহারযোগ্য ১M কনটেক্সট উইন্ডো চালু করেছে।

এর অর্থ কী? এর অর্থ হল আপনি শত শত পৃষ্ঠার আর্থিক প্রতিবেদন বা লক্ষ লক্ষ শব্দের কোড সরাসরি এটিতে ছুঁড়ে মারতে পারেন, এবং এটি কেবল সেগুলিই পড়তে পারে না, বরং আপনাকে সঠিকভাবে বলতে পারে যে 342 পৃষ্ঠার পাদটীকার সংখ্যাটিতে কোনও সমস্যা আছে।

শ্রমজীবী মানুষের দৃষ্টি আকর্ষণের মূল কারণ ছিল এর উৎপাদনশীলতা।

একদিকে, অ্যানথ্রপিক এখন ক্লডকে সরাসরি এক্সেল এবং পাওয়ারপয়েন্টের সাথে একীভূত করেছে। এটি এক্সেল ডেটা থেকে সরাসরি পিপিটি তৈরি করতে পারে, কেবল লেআউট স্টাইলই সংরক্ষণ করে না বরং ফন্ট এবং টেমপ্লেটগুলিকেও সারিবদ্ধ করে। ক্লড কাউওয়ার্ক সহযোগিতার পরিবেশে, এটি এমনকি স্বায়ত্তশাসিত মাল্টিটাস্কিংও করতে পারে।

অন্যদিকে, অ্যানথ্রপিক ক্লড কোডে একটি পরীক্ষামূলক এজেন্ট টিমস বৈশিষ্ট্য চালু করার সুযোগ নিয়েছে, যা সাধারণ ডেভেলপারদের "হাজার হাজার সৈন্যের কমান্ডিং" অনুভূতি অনুভব করার সুযোগ করে দিয়েছে:

ভূমিকা বিভাজন: আপনি একজন ক্লড সেশনকে টিম লিড হিসেবে মনোনীত করতে পারেন, যিনি কোনও নোংরা কাজ করেন না এবং বিশেষভাবে কাজগুলি ভেঙে ফেলা, কাজের আদেশ বরাদ্দ করা এবং কোড একত্রিত করার জন্য দায়ী; অন্যান্য সেশনগুলি হল সতীর্থ (টিমমেট), প্রত্যেকে করণীয় কাজ গ্রহণ করে।
স্বাধীন কার্যক্রম: প্রতিটি সতীর্থের একটি স্বাধীন প্রসঙ্গ উইন্ডো থাকে (টোকেন বিস্ফোরণ সম্পর্কে চিন্তা করার দরকার নেই), এবং তারা প্রযুক্তিগত বিশদ আলোচনা করার জন্য আপনার পিছনে একে অপরকে বার্তা পাঠাতে পারে (আন্তঃ-এজেন্ট মেসেজিং), এবং অবশেষে শুধুমাত্র ফলাফলগুলি দলের নেতাকে রিপোর্ট করতে পারে।
সমান্তরাল ঘোড়দৌড়: এর ব্যবহার কী? কল্পনা করুন একটি জেদী বাগ পরীক্ষা করা হচ্ছে কিনা। আপনি ৫টি ভিন্ন অনুমান যাচাই করার জন্য ৫টি এজেন্ট তৈরি করতে পারেন, যেমন সমান্তরালভাবে খনি পরিষ্কার করার জন্য একটি "ঘোড়া দৌড়"; অথবা কোড পর্যালোচনার সময়, আপনি একজন সতীর্থকে দুর্বলতা পরীক্ষা করার জন্য "নিরাপত্তা বিশেষজ্ঞ" হিসেবে কাজ করতে পারেন, এবং অন্যজনকে একে অপরের সাথে হস্তক্ষেপ না করে কর্মক্ষমতা পরীক্ষা করার জন্য "স্থপতি" হিসেবে কাজ করতে পারেন।

ওপাস ৪.৬ এর সীমা প্রদর্শনের জন্য, নৃতাত্ত্বিক গবেষক নিকোলাস কার্লিনি একটি উদ্ভট পরীক্ষা পরিচালনা করেছিলেন: এজেন্ট টিমস।

কোডটি নিজে লেখার পরিবর্তে, তিনি API ক্রেডিট হিসেবে $20,000 দান করেন, যার ফলে Claude Opus 4.6 এর ১৬ জন ব্যবহারকারী একটি "সম্পূর্ণ স্বয়ংক্রিয় সফ্টওয়্যার ডেভেলপমেন্ট টিম" গঠন করতে সক্ষম হন।

মাত্র দুই সপ্তাহের মধ্যে, এই AI গোষ্ঠীটি স্বায়ত্তশাসিতভাবে 2,000 টিরও বেশি প্রোগ্রামিং সেশন পরিচালনা করেছে এবং 100,000 লাইন কোড সহ একটি C ভাষা কম্পাইলার (রাস্টের উপর ভিত্তি করে) লিখেছে।

এই AI-লিখিত কম্পাইলারটি সফলভাবে Linux 6.9 কার্নেল (x86, ARM, এবং RISC-V আর্কিটেকচার কভার করে) কম্পাইল করেছে এবং এমনকি Doom গেমটিও চালাতে পেরেছে।

যদিও এটি নিখুঁত নয় (উদাহরণস্বরূপ, জেনারেট করা কোডটি GCC-এর মতো দক্ষ নয়), এই কেসটি দেখায় যে আমরা আর AI দিয়ে প্রোগ্রামিং করছি না, বরং একটি AI টিমকে স্বায়ত্তশাসিতভাবে সহযোগিতা, ডিবাগ এবং প্রকল্পটি এগিয়ে নেওয়ার দিকে নজর রাখছি।

এছাড়াও, এটি অ্যাডাপ্টিভ থিঙ্কিং শিখেছে, যা এটিকে অসুবিধা স্তরের উপর ভিত্তি করে "কতক্ষণ চিন্তা করতে হবে" তা নির্ধারণ করতে দেয়। একটি নতুন "বুদ্ধিমান তীব্রতা" নিয়ন্ত্রণ যোগ করার সাথে সাথে, আপনি নিম্ন থেকে সর্বোচ্চ পর্যন্ত চারটি স্তরের মধ্যে স্যুইচ করতে পারেন।

মূল্য নির্ধারণের ক্ষেত্রে, অ্যানথ্রপিক এবার বেশ উদার হয়েছে, প্রতি মিলিয়ন টোকেনের ভিত্তি মূল্য $5/$25 বজায় রেখেছে। এন্টারপ্রাইজ বাজারে OpenAI-এর সাথে সরাসরি প্রতিযোগিতা করার জন্য এটি দৃঢ়প্রতিজ্ঞ বলে মনে হচ্ছে।

একজন হলো একজন উগ্র প্রতিভাবান, অন্যজন হলো একজন নির্ভরযোগ্য বৃদ্ধ গরু।

বিখ্যাত এআই পর্যালোচক ড্যান শিপার তাৎক্ষণিকভাবে একটি অন্ধ পরীক্ষা (ভাইব চেক) পরিচালনা করেন এবং তার মূল্যায়ন উল্লেখযোগ্যভাবে নির্ভুল ছিল:

ক্লড ওপাস ৪.৬ "উচ্চ সিলিং, উচ্চ বৈচিত্র্য" দ্বারা চিহ্নিত।

এটি একটি উজ্জ্বল কিন্তু মাঝে মাঝে অদ্ভুত প্রতিভার মতো। পরীক্ষায়, এটি সরাসরি এমন একটি বৈশিষ্ট্য সমস্যার সমাধান করেছে যা iOS টিমকে দুই মাস ধরে স্তব্ধ করে রেখেছিল; এটি LFG বেঞ্চমার্কে 9.25/10 এর উচ্চ স্কোর অর্জন করেছে।

কিন্তু মাঝে মাঝে এটি "অতিরিক্ত আত্মবিশ্বাসী"ও হতে পারে, সরাসরি মুখে বাজে কথা বলে। যদি আপনার একটি যুগান্তকারী অনুপ্রেরণার প্রয়োজন হয়, তাহলে এটি বেছে নিন।

GPT-5.3-কোডেক্স হল "উচ্চ নির্ভরযোগ্যতা, কম বৈচিত্র্য"।

এটি একজন অভিজ্ঞ, নির্ভরযোগ্য প্রকৌশলীর মতো যিনি আপনাকে কখনও হতাশ করেন না। যুক্তির গতি ২৫% উন্নত হয়, এটি প্রায় কোনও মৌলিক ভুল করে না এবং এর স্থায়িত্ব আশ্বস্ত করে।

সৃজনশীল কাজে কিছুটা কম দক্ষ (LFG স্কোর ৭.৫/১০), তবে এটি দৈনন্দিন কোডিং এবং ক্রিয়াকলাপের জন্য সবচেয়ে দক্ষ ওয়ার্কহর্স। যদি আপনার স্থিতিশীল ডেলিভারির প্রয়োজন হয় তবে এটি বেছে নিন।

২০২৬ সালে প্রবেশের সাথে সাথে আমাদের ভূমিকা পরিবর্তন হতে শুরু করে।

এই মুহূর্তে, সাধারণ ব্যবহারকারীদের জন্য সবচেয়ে বড় পরিবর্তন হল: প্রম্পট ইঞ্জিনিয়ারিংয়ের গুরুত্ব হ্রাস পাচ্ছে, অন্যদিকে এজেন্ট ম্যানেজমেন্টের ক্ষমতাগুলি আবির্ভূত হতে শুরু করেছে।

যখন ChatGPT বাগ ঠিক করতে পারে এবং এমনকি আপনার টার্মিনালটি স্বায়ত্তশাসিতভাবে পরিচালনা করতে পারে, এবং যখন ক্লাউড একসাথে ১০ লক্ষ শব্দ প্রক্রিয়া করতে পারে এবং বিশদ বিবরণ সঠিকভাবে নির্ধারণ করতে পারে, তখন আমাদের আর প্রাথমিক বিদ্যালয়ের ছাত্রকে শেখানোর মতো কমান্ডগুলিকে খণ্ডিত নির্দেশাবলীতে বিভক্ত করার প্রয়োজন নেই।

আমাদের যা করতে হবে তা হল লক্ষ্য নির্ধারণ করা, ফলাফল পর্যালোচনা করা এবং কখন এবং কোন কাজটি "ব্যবস্থাপক" হিসেবে কোন "কর্মচারী" কে অর্পণ করতে হবে তা নির্ধারণ করা শিখতে হবে।

এটি ২০২৬ সালের নতুন কর্মক্ষেত্র: আপনার দলে সিলিকন-ভিত্তিক প্রতিভাদের একটি দল অনুপ্রবেশ করেছে, এবং আপনিই একমাত্র কার্বন-ভিত্তিক বস।

#iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট অনুসরণ করতে আপনাকে স্বাগতম: iFanr (WeChat ID: ifanr), যেখানে যত তাড়াতাড়ি সম্ভব আরও উত্তেজনাপূর্ণ কন্টেন্ট আপনার কাছে উপস্থাপন করা হবে।

ifanr | মূল লিঙ্ক · মন্তব্য দেখুন · সিনা ওয়েইবো