প্রোগ্রামিং পরীক্ষা মানুষকে চূর্ণবিচূর্ণ করে! ক্লড ওপাস ৪.৫ গভীর রাতে এক আকস্মিক আক্রমণ শুরু করে, যা এআই প্রোগ্রামিংয়ের “অতিমানব যুগের” সূচনা করে।

সম্প্রতি, একের পর এক বড় আকারের মডেল বাজারে এসেছে, যেমন ডাম্পলিংগুলো পাত্রে ফেলা হচ্ছে।

জেমিনি ৩ প্রো স্পটলাইট কেড়ে নেওয়ার মাত্র দুই সপ্তাহ পরে, ক্লড ওপাস ৪.৫ আনুষ্ঠানিকভাবে প্রকাশিত হয়েছিল, এখনও প্রোগ্রামিংয়ের উপর মনোযোগ কেন্দ্রীভূত করে, এখনও সেই পরিচিত অনুভূতি নিয়ে।

অ্যানথ্রপিক আনুষ্ঠানিকভাবে দাবি করেছে যে ওপাস ৪.৫ সামগ্রিকভাবে আরও স্মার্ট এবং ব্যবহারকারী-বান্ধব। প্রোগ্রামিং, এজেন্ট সেট আপ এবং কম্পিউটার নিয়ন্ত্রণের মতো "সিস্টেম-স্তরের কাজের" জন্য এটি বিশ্বের সেরাদের মধ্যে রয়ে গেছে। গবেষণা, পাওয়ারপয়েন্ট উপস্থাপনা তৈরি এবং স্প্রেডশিট প্রক্রিয়াকরণের মতো দৈনন্দিন ডেস্ক কাজের জন্যও এটি উল্লেখযোগ্যভাবে উন্নত হয়েছে।

আজ থেকে, Opus 4.5 সম্পূর্ণরূপে উন্মুক্ত এবং অ্যাপ্লিকেশন, API এবং তিনটি প্রধান ক্লাউড প্ল্যাটফর্মের মাধ্যমে ব্যবহার করা যেতে পারে। ডেভেলপারদের Claude API-তে শুধুমাত্র claude-opus-4-5-20251101 কল করতে হবে।

রিলিজের সাথে সাথে পুরো টুলচেইনে একটি আপগ্রেড আসে। এর মধ্যে রয়েছে ডেভেলপার প্ল্যাটফর্ম, ক্লড কোড, ক্রোম এক্সটেনশন, এক্সেল, ডেস্কটপ ক্লায়েন্ট পুনর্গঠন এবং মসৃণ দীর্ঘ কথোপকথন। অ্যাপ্লিকেশন থেকে API, ক্লাউড প্ল্যাটফর্ম, এটি একটি সত্যিকারের পূর্ণ-স্কেল রোলআউট।

অ্যানথ্রপিকের নতুন ক্লড ওপাস ৪.৫ কোডিং ক্রাউন পুনরুদ্ধার করেছে – নতুন স্ট্যাক

বৃহৎ আকারের মডেলগুলি সকলেই নতুন মডেল বাজারে আনছে, যার মধ্যে Opus 4.5 একটি শক্তিশালী ফাইনালে উঠছে।

অফিসিয়াল উৎস এবং পরীক্ষক উভয়ের কাছ থেকে পাওয়া প্রতিক্রিয়ার ভিত্তিতে, Claude Opus 4.5 "অস্পষ্ট প্রয়োজনীয়তা" সম্পর্কে তার বোধগম্যতা উল্লেখযোগ্যভাবে উন্নত করেছে এবং জটিল বাগ সনাক্ত করার ক্ষমতা আরও নির্ভরযোগ্য। অনেক প্রাথমিক গ্রহণকারী মনে করেন যে Opus 4.5 সত্যিই তারা যা চায় তা "বোঝে"।

বাস্তব-বিশ্বের সফটওয়্যার ইঞ্জিনিয়ারিং পরীক্ষায় SWE-Bench Verified-এ, এটিই প্রথম মডেল যা ৮০% এর বেশি স্কোর অর্জন করেছে।

Opus 4.5 কোড মানের ক্ষেত্রে একটি ব্যাপক আপগ্রেড বৈশিষ্ট্যযুক্ত, SWE-bench Multilingual দ্বারা আচ্ছাদিত আটটি প্রোগ্রামিং ভাষার মধ্যে সাতটিতে প্রথম স্থান অধিকার করে, যা একটি অসাধারণ অর্জন।

উদাহরণস্বরূপ, অ্যানথ্রপিক টিম ওপাস ৪.৫ কে পারফরম্যান্স ইঞ্জিনিয়ার নিয়োগের সময় ব্যবহৃত একটি চ্যালেঞ্জিং পরীক্ষায় ফেলেছে। নির্ধারিত দুই ঘন্টার মধ্যে, ক্লড ওপাস ৪.৫ সমস্ত মানব প্রার্থীর চেয়ে বেশি স্কোর করেছে।

যদিও প্রোগ্রামিং পরীক্ষাগুলি কেবল সময়ের চাপের মধ্যে প্রযুক্তিগত দক্ষতা এবং বিচার-বিবেচনা পরিমাপ করতে পারে, তবুও বহু বছর ধরে সঞ্চিত অন্তর্দৃষ্টি এবং যোগাযোগ এবং সহযোগিতার দক্ষতার মতো সমান গুরুত্বপূর্ণ গুণাবলী মূল্যায়নে অন্তর্ভুক্ত করা হয় না।

সফটওয়্যার ইঞ্জিনিয়ারিংয়ের বাইরেও, ক্লড ওপাস ৪.৫ তার সামগ্রিক ক্ষমতার ক্ষেত্রে ব্যাপক উন্নতি দেখেছে, দৃষ্টিভঙ্গি, যুক্তি এবং গণিতে তার পূর্বসূরীদের ছাড়িয়ে গেছে এবং বেশ কয়েকটি গুরুত্বপূর্ণ ক্ষেত্রে শিল্প-নেতৃস্থানীয় স্তর অর্জন করেছে:

আরও গুরুত্বপূর্ণ বিষয় হল, মডেলটির ক্ষমতা এমনকি কিছু বিদ্যমান মূল্যায়ন মানকেও ছাড়িয়ে যেতে শুরু করেছে।

এজেন্টের ক্ষমতার τ²-বেঞ্চ পরীক্ষায়, এমন একটি পরিস্থিতি দেখা দেয়: পরীক্ষার সেটিংটি ছিল মডেলটিকে একজন বিমান সংস্থার গ্রাহক পরিষেবা প্রতিনিধির ভূমিকা পালন করতে, একজন উদ্বিগ্ন যাত্রীকে সাহায্য করতে।

নিয়ম অনুসারে, বেসিক ইকোনমি ক্লাসের টিকিট পরিবর্তন করা যায় না, তাই প্রত্যাশিত মডেলটি যাত্রীর অনুরোধ প্রত্যাখ্যান করবে। এরপর ওপাস ৪.৫ একটি চতুর সমাধান বের করে: প্রথমে যাত্রীর ক্লাসকে বেসিক ইকোনমি থেকে রেগুলার ইকোনমিতে উন্নীত করুন এবং তারপর ফ্লাইট পরিবর্তন করুন।

এই পদ্ধতিটি সম্পূর্ণরূপে বিমান সংস্থার নীতিমালা মেনে চলে, কিন্তু এটি পরীক্ষার প্রত্যাশিত পরিসরের বাইরে ছিল। টেকনিক্যালি, এটি একটি পরীক্ষামূলক ব্যর্থতা ছিল, কিন্তু সমস্যা সমাধানের এই সৃজনশীল উপায়টি Opus 4.5 এর স্বতন্ত্রতাকে সুনির্দিষ্টভাবে প্রদর্শন করে।

অবশ্যই, অন্যান্য পরিস্থিতিতে, এই ধরণের "লুপহোল শোষণ" কম কাম্য হতে পারে। মডেলগুলিকে অপ্রত্যাশিত উপায়ে তাদের উদ্দেশ্য থেকে বিচ্যুত হওয়া থেকে বিরত রাখা অ্যানথ্রপিকের নিরাপত্তা পরীক্ষার একটি মূল লক্ষ্য।

ক্লড সর্বত্র আছে – ডেস্কটপ, ব্রাউজার এবং এক্সেলে একত্রিত।

ওপাস ৪.৫ প্রকাশের সাথে সাথে, ক্লড কোড দুটি বড় আপডেট পেয়েছে।

প্ল্যান মোড এখন আরও সুনির্দিষ্ট কার্যকরীকরণ পরিকল্পনা তৈরি করতে পারে। ক্লড অপারেশনের আগে সক্রিয়ভাবে স্পষ্টীকরণমূলক প্রশ্ন জিজ্ঞাসা করবে, তারপর একটি ব্যবহারকারী-সম্পাদনাযোগ্য plan.md ফাইল তৈরি করবে এবং তারপর এই পরিকল্পনা অনুসারে কাজটি সম্পাদন করবে।

এছাড়াও, ক্লাউড কোড এখন ডেস্কটপ অ্যাপ্লিকেশনগুলিতে উপলব্ধ। আপনি একসাথে একাধিক স্থানীয় বা দূরবর্তী সেশন চালাতে পারেন; উদাহরণস্বরূপ, একজন এজেন্ট কোড ত্রুটিগুলি ঠিক করতে পারে, অন্যজন GitHub-এ তথ্য অনুসন্ধান করতে পারে এবং তৃতীয়জন প্রকল্প ডকুমেন্টেশন আপডেট করতে পারে।

ক্লড অ্যাপ ব্যবহারকারীদের জন্য, দীর্ঘ কথোপকথন আর বাধাগ্রস্ত হবে না। প্রয়োজনে ক্লড স্বয়ংক্রিয়ভাবে প্রাথমিক প্রসঙ্গ সারসংক্ষেপ করবে, যার ফলে কথোপকথন চালিয়ে যাওয়া যাবে।

একটি সাক্ষাৎকারে, অ্যানথ্রপিকের গবেষণা পণ্য ব্যবস্থাপনার প্রধান ডায়ান না পেন বলেছেন:

"Opus 4.5 এর প্রশিক্ষণের সময়, আমরা দীর্ঘ প্রেক্ষাপটের জন্য সামগ্রিক প্রক্রিয়াকরণ ক্ষমতা উন্নত করেছি, কিন্তু কেবল দীর্ঘ প্রেক্ষাপট উইন্ডো থাকা যথেষ্ট নয়। কোন তথ্য মনে রাখার যোগ্য তা জানাও সমানভাবে গুরুত্বপূর্ণ।"

এই উন্নতিগুলি ক্লড ব্যবহারকারীদের দীর্ঘদিনের অনুরোধের একটি বৈশিষ্ট্যও বাস্তবায়ন করে: "অন্তহীন কথোপকথন"। এই বৈশিষ্ট্যটি অর্থপ্রদানকারী ব্যবহারকারীদের কন্টেক্সট উইন্ডো সীমা অতিক্রম করলেও কথোপকথন চালিয়ে যেতে দেয়; মডেলটি ব্যবহারকারীকে সতর্ক না করেই স্বয়ংক্রিয়ভাবে প্রসঙ্গ মেমরি সংকুচিত করে।

ক্রোমের জন্য ক্লড এখন সমস্ত ম্যাক্স ব্যবহারকারীদের জন্য উপলব্ধ, যার ফলে ক্লড একাধিক ব্রাউজার ট্যাব জুড়ে সরাসরি কাজ সম্পাদন করতে পারবেন।

Claude for Excel-এর বিটা টেস্টিং ম্যাক্স, টিম এবং এন্টারপ্রাইজ ব্যবহারকারীদের অন্তর্ভুক্ত করার জন্য সম্প্রসারিত করা হয়েছে।

ক্লড এবং ক্লড কোড ব্যবহারকারী যারা ওপাস ৪.৫ ব্যবহার করতে পারেন, তাদের জন্য অ্যানথ্রপিক ওপাসের সাথে সম্পর্কিত ব্যবহারের সীমা সরিয়ে দিয়েছে।
ম্যাক্স এবং টিম প্রিমিয়াম ব্যবহারকারীদের জন্য, অ্যানথ্রপিক সামগ্রিক ব্যবহারের সীমাও বাড়িয়েছে, ব্যবহারকারীদের জন্য উপলব্ধ ওপাস টোকেনের সংখ্যা সনেট ব্যবহারের সময় প্রায় একই থাকবে। ভবিষ্যতে আরও শক্তিশালী মডেল আবির্ভূত হওয়ার সাথে সাথে, কোটা সেই অনুযায়ী আপডেট করা হবে।

মডেলগুলিকে "আরও স্মার্ট এবং আরও শক্তি-সাশ্রয়ী" করার জন্য ওপাস ৪.৫ একটি প্রধান অন্তর্নিহিত আপগ্রেড নিয়ে এসেছে।

মডেলগুলি যত বেশি বুদ্ধিমান হবে, তারা কম ধাপে সমস্যার সমাধান করতে পারবে: ট্রায়াল অ্যান্ড এরর কমানো, অপ্রয়োজনীয় যুক্তি কমানো এবং চিন্তার প্রক্রিয়া সংক্ষিপ্ত করা।

পূর্বসূরীদের তুলনায়, Claude Opus 4.5 একই বা আরও ভালো ফলাফল অর্জনের জন্য উল্লেখযোগ্যভাবে কম টোকেন ব্যবহার করে।

অবশ্যই, বিভিন্ন কাজের জন্য বিভিন্ন ভারসাম্য প্রয়োজন।

কখনও কখনও ডেভেলপাররা চান মডেলরা গভীরভাবে এবং ধারাবাহিকভাবে চিন্তা করুক, আবার কখনও কখনও তাদের দ্রুত এবং আরও নমনীয় প্রতিক্রিয়ার প্রয়োজন হয়।

অতএব, API-তে `effort` নামে একটি নতুন প্যারামিটার যোগ করা হয়েছে, যা আপনাকে আপনার চাহিদার উপর ভিত্তি করে বেছে নিতে দেয়: হয় সময় এবং খরচ সাশ্রয়কে অগ্রাধিকার দিন, অথবা মডেলের ক্ষমতা সর্বাধিক করুন। পছন্দটি আপনার।
মাঝারি প্রচেষ্টার স্তরে সেট করা হলে, Opus 4.5 SWE-বেঞ্চ যাচাইকৃত পরীক্ষায় সনেট 4.5 এর মতো একই সেরা ফলাফল অর্জন করেছে, তবে আউটপুট টোকেনের সংখ্যা 76% হ্রাস পেয়েছে।

সর্বোচ্চ প্রচেষ্টার স্তরে, Opus 4.5 সনেট 4.5-কে 4.3 শতাংশ পয়েন্ট ছাড়িয়ে গেছে এবং আউটপুট 48% কমিয়েছে।

প্রচেষ্টা নিয়ন্ত্রণ, প্রেক্ষাপট সংকোচন এবং উন্নত সরঞ্জাম আহ্বান ক্ষমতা সহ, ক্লড ওপাস ৪.৫ দীর্ঘ সময় ধরে চলতে পারে, আরও বেশি কাজ সম্পাদন করতে পারে এবং কম মানুষের হস্তক্ষেপের প্রয়োজন হয়।

অধিকন্তু, প্রকৃত এআই এজেন্টদের শত শত এমনকি হাজার হাজার সরঞ্জামের মাধ্যমে নির্বিঘ্নে সহযোগিতা করতে হবে।

কল্পনা করুন এমন একটি IDE সহকারী যা Git, ফাইল ব্যবস্থাপনা, পরীক্ষার কাঠামো এবং স্থাপনা প্রক্রিয়াগুলিকে একীভূত করে, অথবা একটি অপারেশনাল এজেন্ট যা Slack, GitHub, Google Drive, Jira এবং কয়েক ডজন MCP সার্ভারের সাথে একসাথে সংযোগ স্থাপন করে।

সমস্যা হলো, ঐতিহ্যবাহী পদ্ধতিতে সকল টুলের সংজ্ঞা একসাথে প্রসঙ্গে অন্তর্ভুক্ত করা হয়। উদাহরণস্বরূপ, পাঁচটি সার্ভার সংযুক্ত করার জন্য একটি সিস্টেমের জন্য GitHub-এর জন্য ২৬ হাজার, স্ল্যাকের জন্য ২১ হাজার এবং সেন্ট্রি, গ্রাফানা এবং স্প্লঙ্কের জন্য ৮ হাজার টোকেন প্রয়োজন হবে।

কথোপকথনটি এখনও শুরুই হয়নি, এবং এটি ইতিমধ্যেই ৫৫,০০০ টোকেন দখল করে নিয়েছে। আপনি যদি জিরা যোগ করেন, তাহলে এটি সহজেই ১০০,০০০ টোকেন ছাড়িয়ে যাবে। আরও সমস্যা হল যখন টুলগুলির একই নাম থাকে, তখন মডেলটি ভুল টুল নির্বাচন করার বা ভুল প্যারামিটারগুলি পাস করার প্রবণতা রাখে।

এই সমস্যাগুলি সমাধানের জন্য অ্যানথ্রপিক তিনটি নতুন বৈশিষ্ট্য চালু করেছে।

টুল সার্চ টুল ক্লডকে চাহিদা অনুযায়ী গতিশীলভাবে টুল আবিষ্কার করতে সাহায্য করে, শুধুমাত্র বর্তমান কাজের জন্য প্রয়োজনীয় যন্ত্রাংশ লোড করে, টোকেনের ব্যবহার প্রায় ৮৫% কমিয়ে দেয়।

প্রোগ্রাম্যাটিক টুল কলিং ক্লডকে কোডের মধ্যে থেকে সরাসরি টুল কল করার সুযোগ দেয়, প্রতিবার কোনও টুল কল করার সময় একটি সম্পূর্ণ যুক্তি প্রক্রিয়ার প্রয়োজন এড়ায়।

টুল ব্যবহারের উদাহরণগুলি একটি ঐক্যবদ্ধ মান প্রদান করে, যা JSON স্কিমার পরিবর্তে উদাহরণের মাধ্যমে টুলের সঠিক ব্যবহার প্রদর্শন করে।

অভ্যন্তরীণ পরীক্ষায় দেখা গেছে যে টুল সার্চ টুল সক্ষম করার পর, MCP পরীক্ষায় Opus 4 এর নির্ভুলতা 49% থেকে 74% এবং Opus 4.5 এর নির্ভুলতা 79.5% থেকে 88.1% এ উন্নীত হয়েছে।
ক্লড ফর এক্সেল প্রোগ্রাম্যাটিক টুল কলিং ব্যবহার করে হাজার হাজার সারি ডেটা প্রক্রিয়া করে প্রসঙ্গ উইন্ডো ওভারলোড না করে।

অ্যানথ্রপিকের প্রসঙ্গ ব্যবস্থাপনা এবং স্মৃতি ক্ষমতা এজেন্ট কার্যে মডেলের কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে।

ওপাস ৪.৫ দক্ষতার সাথে একাধিক সাবএজেন্ট পরিচালনা করতে পারে, যা জটিল এবং সু-সমন্বিত মাল্টি-এজেন্ট সিস্টেম তৈরিতে সহায়তা করে। পরীক্ষাগুলিতে, এই প্রযুক্তিগুলির সমন্বয় গভীর গবেষণা মূল্যায়নে ওপাস ৪.৫ এর কর্মক্ষমতা প্রায় ১৫ শতাংশ পয়েন্ট উন্নত করেছে।

ডেভেলপার প্ল্যাটফর্মগুলিও আরও কম্পোজেবল হয়ে উঠছে, যার লক্ষ্য নমনীয় "মডুলার বিল্ডিং" ক্ষমতা প্রদান করা, যা আপনাকে আপনার নির্দিষ্ট চাহিদা অনুসারে আপনার মডেলগুলির দক্ষতা, সরঞ্জামগুলির ব্যবহার এবং প্রসঙ্গ ব্যবস্থাপনা অবাধে নিয়ন্ত্রণ করতে এবং আপনার আদর্শ বুদ্ধিমান সিস্টেম তৈরি করতে দেয়।

যদিও Opus 4.5-এর আপগ্রেড চিত্তাকর্ষক, একটি ক্রমবর্ধমান স্পষ্ট প্রবণতা উদ্ভূত হচ্ছে: বিভিন্ন মডেলের "ব্যক্তিত্বের" পার্থক্যগুলি আরও প্রশস্ত করা হচ্ছে।

ক্লডের অতীতের পণ্য লাইনের দিকে তাকালে, ওপাস এবং অনুরূপ "সুপার-সাইজড" মডেলগুলি এখনও প্রোগ্রামিং, সিস্টেম-স্তরের ক্রিয়াকলাপ এবং কাঠামোগত যুক্তির জন্য সবচেয়ে উপযুক্ত; তবে, কপিরাইটিং কাজের জন্য, সনেটের কর্মক্ষমতা এবং খরচ-কার্যকারিতা প্রায়শই বেশি উপযুক্ত।

এই প্রকাশনাটি এই বিষয়টিকে আরও নিশ্চিত করে।

ভবিষ্যতে, একটি মডেল নির্বাচন করার সময়, আমাদের কেবল বেঞ্চমার্ক স্কোরগুলিই দেখতে হবে না, বরং এর "করণীয়" পদ্ধতিটি আমাদের নিজস্ব পদ্ধতির সাথে সামঞ্জস্যপূর্ণ কিনা তাও দেখতে হবে। অন্য কথায়, একটি মডেল নির্বাচন করা ক্রমশ একজন সহকর্মী নির্বাচন করার মতো হয়ে উঠছে।

এখানে অফিসিয়াল ব্লগ ঠিকানা:
https://www.anthropic.com/news/claude-opus-4-5

#iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট অনুসরণ করতে আপনাকে স্বাগতম: iFanr (WeChat ID: ifanr), যেখানে যত তাড়াতাড়ি সম্ভব আরও উত্তেজনাপূর্ণ কন্টেন্ট আপনার কাছে উপস্থাপন করা হবে।

ifanr | মূল লিঙ্ক · মন্তব্য দেখুন · সিনা ওয়েইবো