এইমাত্র হঠাৎ করে ক্লদ ওপাস ৪.৭ প্রকাশিত হলো: সবচেয়ে শক্তিশালী না হলেও, আল্ট্রাম্যানের আবার অনিদ্রা দেখা দেবে।

এই বছর অ্যানথ্রোপিকের অগ্রযাত্রা অত্যন্ত শক্তিশালী ছিল।

এর জনপ্রিয়তা শুধু তুঙ্গেই থাকেনি, বরং এর সুনামও ক্রমাগত বেড়েই চলেছে, যা একে এআই শিল্পে শীর্ষস্থানীয় হিসেবে দৃঢ়ভাবে প্রতিষ্ঠিত করেছে। এখন, প্রায় প্রতি সকালেই ঘুম থেকে উঠে আমরা নতুন পণ্য বা ফিচারের জন্য তাদের সময়োপযোগী পুশ নোটিফিকেশন দেখতে পাই। সময়ের সাথে সাথে, প্রাথমিক উত্তেজনাটি "প্রত্যাশিতভাবেই আবার তুমি"—এই অলিখিত বোঝাপড়ায় পরিণত হয়েছে।

এইমাত্র বহু প্রতীক্ষিত ক্লদ ওপাস ৪.৭ আনুষ্ঠানিকভাবে মুক্তি পেল, যা সেই চেনা আঙ্গিক এবং উচ্চ স্কোর করার চিরাচরিত কৌশলেই তৈরি।

মজার ব্যাপার হলো, অ্যানথ্রোপিক এই ঘোষণায় বেশ অকপট ছিল, এমনকি কিছুটা গর্বের সাথেও: "এটি আমাদের সবচেয়ে শক্তিশালী মডেল নয়।" কিংবদন্তিতুল্য, ভয়ংকর শক্তিশালী ক্লদ মিথোস প্রিভিউটি এখনও গোপন রাখা হয়েছে।

কিন্তু ওপাস ৪.৭ সবচেয়ে শক্তিশালী না হওয়া সত্ত্বেও, এটি যথেষ্ট মনোযোগ আকর্ষণ করেছিল। এর কারণ হলো, এটি বুদ্ধিমত্তার চেয়েও গুরুত্বপূর্ণ একটি সমস্যার সমাধান করেছিল: নির্ভরযোগ্যতা। সেই ধরনের নির্ভরযোগ্যতা নয় যেখানে এটি আপনার সব কথা মেনে চলে, বরং সেই ধরনের, যেখানে আপনি কোনো নির্বোধ সমাধান দিলে এটি আপনার বিরোধিতা করার সাহস দেখায় এবং তারপর নিজের ভুল শুধরে নেয়।

যখন নির্ভরযোগ্যতা বুদ্ধিমত্তার চেয়েও বিরল গুণ হয়ে ওঠে

বেঞ্চমার্ক ফলাফল থেকে দেখা যায় যে, ইন্ডাস্ট্রিতে স্বীকৃত সবচেয়ে হার্ডকোর SWE-bench Pro-তে, 4.7-এর স্কোর পূর্ববর্তী প্রজন্মের 53.4% থেকে বেড়ে 64.3% হয়েছে, যা এক প্রজন্মের মধ্যেই প্রায় 11 শতাংশ পয়েন্টের আপগ্রেড এবং এর ফলে GPT-5.4 (57.7%) ও Gemini 3.1 Pro (54.2%) পেছনে পড়েছে।

ভিজ্যুয়াল ইনফারেন্সের জন্য CharXiv-এর বেঞ্চমার্ক ৬৯.১% থেকে বেড়ে ৮২.১% হয়েছে, যা এর নতুন অর্জিত ২৫৭৬-পিক্সেল দীর্ঘ-পার্শ্ব শনাক্তকরণ ক্ষমতার পরিচায়ক—যা এর পূর্বসূরীর চেয়ে তিন গুণেরও বেশি স্পষ্ট।

বিষয়টি শুধু 'জিনিসপত্র আরও স্পষ্টভাবে দেখা'-র মধ্যে সীমাবদ্ধ নয়। উচ্চতর রেজোলিউশন সরাসরি আউটপুটের গুণমানে ধারাবাহিক উন্নতির কারণ হয়: ইন্টারফেস তৈরি, স্লাইড নির্মাণ এবং ডকুমেন্টের বিন্যাস—সবকিছুই বিস্তারিত বিবরণ ও নির্ভুলতার দিক থেকে উন্নত হয়।

একটি বৃহৎ মূল্যায়ন সরঞ্জাম, এমসিপি-অ্যাটলাস বেঞ্চমার্কে, সংস্করণ ৪.৭ ৭৭.৩% স্কোর অর্জন করেছে, যা জিপিটি-৫.৪-এর ৬৮.১% এবং জেমিনির ৭৩.৯%-কে ছাড়িয়ে গেছে। আইনি এআই প্ল্যাটফর্ম হার্ভি দ্বারা পরিচালিত পরীক্ষায়, সংস্করণ ৪.৭ বিগ-ল বেঞ্চমার্কে ৯০.৯% স্কোর অর্জন করেছে এবং 'ট্রান্সফার ক্লজ' ও 'চেঞ্জ অফ কন্ট্রোল ক্লজ'-এর মধ্যে সঠিকভাবে পার্থক্য করতে পেরেছে, যা ঐতিহাসিকভাবে অত্যাধুনিক মডেলগুলোর একটি দুর্বলতা ছিল।

তবে, 4.7 পুরোপুরি এগিয়ে নেই। Agentic Search-এর BrowseComp পরীক্ষায়, 4.7 পূর্ববর্তী প্রজন্মের 83.7% থেকে কমে 79.3%-এ নেমে এসেছে এবং GPT-5.4 (89.3%) ও Gemini (85.9%)-এর কাছে পিছিয়ে পড়েছে।

এই পশ্চাদপসরণটি আকস্মিক নয়। যে এজেন্ট কোনো অসম্পূর্ণ তথ্য পেলে সরাসরি ত্রুটি জানায় এবং মনগড়া উত্তর দিতে অস্বীকার করে, মূল্যায়নের মানদণ্ড যখন উত্তর দেওয়া হয়েছে কি না তার ওপর ভিত্তি করে করা হয়, তখন সে স্বাভাবিকভাবেই অসুবিধায় পড়বে।

তথ্যের বাইরেও একটি আরও গুরুত্বপূর্ণ প্রশ্ন হলো: বাস্তব কর্মক্ষেত্রে এই 'নির্ভরযোগ্যতা'র প্রকৃত অর্থ কী?

গত এক বছর ধরে, বড় কোড মডেল নিয়ে ইন্ডাস্ট্রির প্রত্যাশা সাধারণত "একটি ফাংশন লেখা এবং একটি বাগ খুঁজে বের করা"-র পর্যায়েই সীমাবদ্ধ ছিল, কিন্তু প্রাথমিক পরীক্ষায় ক্লড ৪.৭ সম্পূর্ণ ভিন্ন একটি চরিত্র দেখিয়েছে।

একটি সুপরিচিত ক্লাউড ডেভেলপমেন্ট প্ল্যাটফর্ম রিপ্লিট-এর প্রধান এটিকে এভাবে বর্ণনা করেছেন: "এটি প্রযুক্তিগত আলোচনায় আমার ভুল ধরিয়ে দিত এবং আমাকে আরও ভালো সিদ্ধান্ত নিতে সাহায্য করত। সত্যিই এটিকে একজন আরও ভালো সহকর্মী বলে মনে হতো।"

এটি আর অন্ধভাবে আদেশ পালন করে না, কিংবা শুধু ডেডলাইন পূরণের জন্য ডেটা জালিয়াতিও করে না। ডেটা সায়েন্স প্ল্যাটফর্ম হেক্স (Hex)-এ করা পরীক্ষায়, সংস্করণ ৪.৭ অনুপস্থিত ডেটার সম্মুখীন হলে তার পূর্বসূরীর মতো আপাতদৃষ্টিতে যুক্তিসঙ্গত কিন্তু সম্পূর্ণ ভুল কোনো বিকল্প মান দেখানোর পরিবর্তে সরাসরি একটি ত্রুটি রিপোর্ট করে। হেক্স টিম এমনকি সরাসরি বলেছে: "কম রিসোর্স ব্যবহারে ৪.৭ সংস্করণটি, মাঝারি রিসোর্স ব্যবহারে ৪.৬ সংস্করণের সমতুল্য।"

প্রচলিত রীতির বিরোধিতা করার এই বৈশিষ্ট্যটিই উন্নত সফটওয়্যার ইঞ্জিনিয়ারিংয়ে সবচেয়ে দুর্লভ।

অবশ্যই, সবকিছুরই দুটি দিক থাকে। পুরোনো মডেলের জন্য লেখা কোনো নির্দেশ সংস্করণ ৪.৭-এ অপ্রত্যাশিত ফলাফল তৈরি করতে পারে। সেইসব অস্পষ্ট নির্দেশাবলী, যা মডেলটি আগে "বুঝতে পারত", সংস্করণ ৪.৭-এ আক্ষরিকভাবে কার্যকর করা হবে। এর মানে এও যে, যারা নিজেদের প্রয়োজন স্পষ্টভাবে প্রকাশ করতে বেশি পারদর্শী, তারা সংস্করণ ৪.৭ থেকে আরও ভালো ফলাফল পাবেন।

শুধু তর্কপ্রবণ হওয়াই যথেষ্ট নয়; প্রতিকূলতার সম্মুখীন হলে যে এআই ধর্মঘট করে, সে একজন ভালো সহকর্মীও নয়। সংস্করণ ৪.৭-এর আরেকটি বড় পরিবর্তন হলো টাস্ক রেজিলিয়েন্স।

পূর্বে, একাধিক ধাপের কাজে টুল কল ব্যর্থতার সম্মুখীন হলে বড় মডেলগুলো প্রায়শই ক্র্যাশ করত এবং ত্রুটি দেখাত। নোশন টিমের পরীক্ষায় দেখা গেছে যে, সংস্করণ ৪.৭-এ টুলের ত্রুটির হার আগের তুলনায় এক-তৃতীয়াংশে নেমে এসেছে। আরও গুরুত্বপূর্ণ বিষয় হলো, টুলচেইন ক্র্যাশ করলেও এটি বাধা এড়িয়ে কাজটি সম্পন্ন করতে পারে।

যখন এআই তোষামোদ করা বন্ধ করবে, তখন প্রকৃত উৎপাদনশীলতা দ্রুতগতিতে বাড়তে শুরু করবে।

অ্যানথ্রোপিক কর্তৃক প্রকাশিত একটি ব্যতিক্রমী ক্ষেত্রে, সংস্করণ ৪.৭ কোনো মানুষের হস্তক্ষেপ ছাড়াই একেবারে গোড়া থেকে একটি সম্পূর্ণ রাস্ট টেক্সট-টু-স্পিচ ইঞ্জিন তৈরি করেছিল—এর মধ্যে নিউরাল নেটওয়ার্ক মডেল, সিমডি কার্নেল এবং ব্রাউজার ডেমো লেখা, এমনকি যাচাইয়ের জন্য আউটপুট একটি স্পিচ রিকগনাইজারে পাঠানো এবং টেস্টিংও সম্পন্ন করা অন্তর্ভুক্ত ছিল।

ফ্রন্ট-এন্ড ফ্রেমওয়ার্কের জগতে এক বিশাল প্রতিষ্ঠান ভার্সেল এমন একটি আচরণ আবিষ্কার করেছে যা আগে কখনও দেখা যায়নি: এর ৪.৭ সংস্করণটি সিস্টেম-স্তরের কোড লেখার আগে গাণিতিক প্রমাণ সম্পাদন করে। এটি কেবল কোড লেখার সীমা ছাড়িয়ে কঠোর প্রকৌশল নকশার জগতে প্রবেশ করে।

এআই 'সিনিয়র বিশেষজ্ঞ' নিয়োগের খরচ

খুঁটিনাটি বিষয় সামলানোর ক্ষমতা যাচাই করার জন্য, আমি তিনটি ফ্রন্ট-এন্ড ইন্টারঅ্যাকশন সিনারিও তৈরি করেছিলাম, যার মানদণ্ড ছিল একটাই: খুঁটিনাটি বিষয়গুলো দায়সারা গোছের ছিল কি না, তা যেন সঙ্গে সঙ্গেই স্পষ্ট হয়ে যায়।

প্রথম কাজটি ছিল একটি রেকর্ড প্লেয়ার ইন্টারফেসের উপর থেকে নিচের দৃশ্য তৈরি করা, যার মূল চ্যালেঞ্জ ছিল এর 'ধাতব আভা' এবং 'শ্বাসপ্রশ্বাসের বলয়' ফুটিয়ে তোলা। সংস্করণ ৪.৭ গতানুগতিক রঙের গ্রেডিয়েন্ট ব্যবহার না করে, বরং জটিল CSS স্টাইল ওভারলে-র মাধ্যমে ধাতব টেক্সচারটিকে বাস্তবসম্মতভাবে ফুটিয়ে তুলেছে।

দ্বিতীয় কাজটি ছিল জাভাস্ক্রিপ্ট ছাড়া, শুধুমাত্র CSS ব্যবহার করে একটি পুরোনো ধাঁচের বৈদ্যুতিক পাখা তৈরি করা। এই কঠোরভাবে সীমাবদ্ধ কাজের সম্মুখীন হয়ে কিছু মডেল গোপনে JS ব্যবহার করে নিয়ম লঙ্ঘন করলেও, সংস্করণ ৪.৭ নিয়মগুলো মেনে চলেছিল। এটি সম্পূর্ণ CSS ব্যবহার করে পাখাটির ত্রিমাত্রিক কাঠামো তৈরি করেছিল, যেখানে কম, মাঝারি এবং উচ্চ গতির সেটিংগুলোর মধ্যে মসৃণ রূপান্তর ছিল। এর ভিত্তির দৃষ্টিকোণ এবং ছায়ার ব্যবহারও এটিকে একটি বাস্তবসম্মত অনুভূতি দিয়েছিল। এটি নিয়মের মধ্যেই একটি খুব ভালো সমাধান খুঁজে পেয়েছিল।

তৃতীয় দৃশ্যকল্পটিতে একটি রেট্রো ক্যাসেট প্লেয়ার তৈরি করা হয়, যাতে ভিডিওটেপের পুরোনো, কোলাহলপূর্ণ প্রভাব রয়েছে। ক্যাসেট টেপ ঘোরার বিস্তারিত বিবরণও এতে উপস্থিত থাকে।

অবশ্যই, আরও স্মার্ট হওয়ার জন্য মূল্য দিতে হয়। Opus 4.7 এখন Claude-এর সমস্ত প্রোডাক্ট ও এপিআই, Amazon Bedrock, Google Cloud-এর Vertex AI, এবং Microsoft Foundry প্ল্যাটফর্মে উপলব্ধ।

প্রতি মিলিয়ন ইনপুটের জন্য ৫ ডলার এবং প্রতি মিলিয়ন আউটপুটের জন্য ২৫ ডলার—এই মূল মূল্য অপরিবর্তিত রয়েছে। তবে, সংস্করণ ৪.৭-এ একটি সম্পূর্ণ নতুন টোকেনাইজার যুক্ত করা হয়েছে, যা একই টেক্সটকে আগের চেয়ে ১.০ থেকে ১.৩৫ গুণ বেশি টোকেনে বিভক্ত করবে।

এছাড়াও, উচ্চ-তীব্রতার কাজ করার সময় এটি একটু বেশি সময় ধরে চিন্তা করে, তাই এর প্রকৃত শক্তি খরচ প্রায় অনিবার্যভাবেই বেড়ে যায়।

এছাড়াও, অ্যানথ্রোপিক বিদ্যমান বিকল্পগুলিতে একটি সম্পূর্ণ নতুন 'xhigh' কঠিনতার স্তর যুক্ত করেছে। এই স্তরে, জটিল সমস্যার সম্মুখীন হলে ক্লদ ৪.৭ আরও বেশি টোকেন খরচ করবে এবং 'চিন্তা' করতে আরও বেশি সময় ব্যয় করবে। ক্লদ কোড ইতিমধ্যেই সমস্ত প্যাকেজের ডিফল্ট প্রচেষ্টার স্তরকে 'xhigh'-এ উন্নীত করেছে।

অ্যানথ্রোপিকের কার্যকলাপ প্রমাণ করে যে, প্রকৃত কোডিংয়ের কাজের ক্ষেত্রে সম্পদ ব্যবহারে কৃপণতা করার চেয়ে সবকিছু ভালোভাবে ভেবেচিন্তে করা শ্রেয়।

এই কর্মপ্রবাহের সাথে সামঞ্জস্য রাখতে, ক্লড কোড দুটি অসাধারণ ফিচার চালু করেছে:

/আলট্রারিভিউ (গভীর পর্যালোচনা): একটি বিশেষ পর্যালোচনা সেশন শুরু করুন এবং একজন অত্যন্ত বিচক্ষণ সিনিয়র পর্যালোচকের মতো সমস্ত কোড পরিবর্তন পুঙ্খানুপুঙ্খভাবে পড়ুন, এবং এর গভীরে থাকা আর্কিটেকচারাল ডিজাইনের ত্রুটি ও বাগগুলো নির্ভুলভাবে শনাক্ত করুন। প্রো এবং ম্যাক্স ব্যবহারকারীরা এটি বিনামূল্যে তিনবার ব্যবহার করতে পারবেন।

অটো মোড এখন ম্যাক্স ব্যবহারকারীদের জন্য সম্প্রসারিত: এটি 'এক এক করে অনুমতি দেওয়া' এবং 'সব অনুমতি এড়িয়ে যাওয়া'-র মাঝামাঝি একটি নতুন অনুমতি মোড। ক্লদ আপনার অনুমোদনের আওতায় স্বায়ত্তশাসিতভাবে সিদ্ধান্ত নেবে, যা দীর্ঘ ও ক্লান্তিকর কাজ সম্পন্ন করতে পারে এবং সম্পূর্ণ বিকেন্দ্রীকরণের চেয়ে বেশি নিরাপদ।

এই 'অতিরিক্ত চিন্তাভাবনাকারী' এআই যাতে অ্যাকাউন্টের ব্যালেন্স পূর্ণ করে ফেলতে না পারে, সেজন্য এপিআই 'টাস্ক বাজেট' ফিচারের একটি পাবলিক বিটা সংস্করণও চালু করেছে, যা ডেভেলপারদের দীর্ঘ কাজগুলোতে ক্লডের টোকেন খরচের অগ্রাধিকারগুলো সুস্পষ্টভাবে পরিকল্পনা করার সুযোগ দেয়।

অবশ্যই, ৪.৭ অ্যানথ্রোপিকের সবচেয়ে শক্তিশালী তাস নয়।

আরও শক্তিশালী ক্লড মিথোস প্রিভিউটি এই মাসেই 'প্রজেক্ট গ্লাসউইং' নামে সাইবার নিরাপত্তা গবেষণার জন্য কয়েকটি কোম্পানির কাছে প্রকাশ করা হয়েছে। মিথোস এখনও সর্বসাধারণের জন্য প্রকাশ করা হয়নি, কারণ এর সাইবার আক্রমণ ও প্রতিরক্ষা ক্ষমতা অত্যন্ত শক্তিশালী এবং অ্যানথ্রোপিক মনে করে যে, এটি নিরাপদে সকলের কাছে পৌঁছে দেওয়ার উপায় তারা এখনও বের করতে পারেনি।

৪.৭ সিস্টেমটি নিজেই কিছু পূর্বপ্রস্তুতিমূলক ব্যবস্থা গ্রহণ করেছে, যেমন প্রশিক্ষণ পর্বে নেটওয়ার্ক আক্রমণ ও প্রতিরক্ষার সক্ষমতা হ্রাস করা এবং উচ্চ-ঝুঁকিপূর্ণ অনুরোধগুলোকে সরাসরি ব্লক করার জন্য একটি অন্তর্নির্মিত স্বয়ংক্রিয় ব্লকিং প্রক্রিয়া অন্তর্ভুক্ত করা। যেসব নিরাপত্তা গবেষকের সম্মতিমূলক প্রয়োজনীয়তা রয়েছে, তারা প্রাতিষ্ঠানিক চ্যানেলের মাধ্যমে স্বতন্ত্রভাবে আবেদন করতে পারেন।

আপনার সবচেয়ে শক্তিশালী তাসগুলো খেলতে তাড়াহুড়ো না করা এবং ক্রমাগত নতুন তাস যোগ করার পেছনের যুক্তি একই। প্রকৃতপক্ষে, অ্যানথ্রোপিকের আসল শক্তি হলো এর কার্য সম্পাদনের গতি।

এই বছরের ১লা ফেব্রুয়ারি থেকে ২৪শে মার্চ পর্যন্ত, মাত্র ৫২ দিনে, অ্যানথ্রোপিক মোট ৭৪টি প্রোডাক্ট আপডেট করেছে, যার গড় প্রতি দুই দিনে একটারও কম। কোওয়ার্ক, প্লাগইন… এই পদক্ষেপগুলো কর্মক্ষেত্রের অফিস কাজের অসুবিধাগুলো কার্যকরভাবে সমাধান করেছে।

আজ, ক্লড ইকোসিস্টেম ‘চ্যাটবট’-এর সাধারণ ধারণাটিকে অনেক আগেই ছাড়িয়ে গেছে। যেসব দল তাদের প্রকৃত কর্মপ্রবাহে এআই-কে গভীরভাবে একীভূত করতে আগ্রহী, তাদের জন্য এই স্থিতিশীল, ঘন ঘন এবং অনুমানযোগ্য আপডেট চক্রটিই সবচেয়ে বড় ভরসা।

আজ ক্লদ ৪.৭-এর মুক্তি এই ধারার সর্বশেষ ভারসাম্য রক্ষাকারী পাথর। এবং মিথোস প্রিভিউ শীঘ্রই বা দেরিতে আসবে। ততদিনে, আমরা এখন যাকে একটি অত্যন্ত শক্তিশালী ৪.৭ বলে মনে করছি, তা হয়তো কেবল শুরু মাত্র।

iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট iFanr (WeChat ID: ifanr) ফলো করুন, যেখানে যত তাড়াতাড়ি সম্ভব আপনার জন্য আরও আকর্ষণীয় কন্টেন্ট উপস্থাপন করা হবে।