একই দিনে দুইবার ক্লদ ওপাস ৪.৬-কে ছাড়িয়ে যাওয়া হয়েছিল, এবং এবার তা করেছিল দেশীয়ভাবে উৎপাদিত একটি মডেল।

কয়েকদিন আগে অ্যাপসো জানিয়েছিল যে, এই বড় মডেলটি তার ইতিহাসের সবচেয়ে কঠিন মাসের মুখোমুখি হতে চলেছে, এবং অবশেষে সেই মাসটি এসে গেছে।

দুর্ভাগ্যবশত, ক্লদ অপাস ৪.৬ পটভূমিতে পরিণত হয়েছিল, কারণ একদিনে এটিকে দুবার অতিক্রম করা হয়েছিল।

আজ সকালে, অ্যানথ্রোপিক ক্লড মিথোস প্রিভিউ প্রকাশ করেছে, যা SWE-bench Pro-তে ৭৭.৮% স্কোর করেছে এবং ওপাস ৪.৬-কে ৫৭.৩% স্কোর নিয়ে অনেক পিছনে ফেলে দিয়েছে। এই স্কোরের অর্থ হলো, এটি বাস্তব গিটহাব রিপোজিটরিগুলোতে থাকা জটিল ইঞ্জিনিয়ারিং বাগ খুঁজে বের করে সমাধান করতে পারে, যা অধিকাংশ মানব প্রোগ্রামারের চেয়েও উন্নত।

তবে, মিথোস প্রিভিউ এখনও সাধারণ ব্যবহারকারীদের জন্য উপলব্ধ নয়। এরই মধ্যে, ওপাস ৪.৬-কে ছাড়িয়ে যাওয়া আরেকটি মডেলের আবির্ভাব ঘটেছে – ঝিপু জিএলএম-৫.১-কে ওপেন-সোর্স করেছে।

SWE-bench Pro-তে GLM-5.1 ৫৮.৪% স্কোর করেছে, যা Opus 4.6-এর ৫৭.৩% এবং GPT-5.4-এর ৫৭.৭%-কে ছাড়িয়ে গেছে। HuggingFace-এর সিইও ক্লেমেন্ট ডেলাংও টুইট করে অভিনন্দন জানিয়েছেন: "SWE-Bench Pro-এর সেরা পারফর্মিং মডেলটি এখন HuggingFace-এ ওপেন সোর্স! GLM 5.1-কে স্বাগতম!"

বিশ্বব্যাপী তৃতীয়, ওপেন সোর্সে প্রথম। যদিও আমরা এখনও DeepSeek V4 দেখিনি, ওপেন সোর্সে এক নতুন নেতার আগমন ঘটেছে, এবং এটিও চীনে তৈরি একটি বৃহৎ আকারের মডেল।

সত্যি বলতে, আমার প্রথম প্রতিক্রিয়া ছিল যে বড় মডেলদের সেই ‘চার্ট উন্মাদনা’ আবার শুরু হচ্ছে। প্রতিটি প্রেস কনফারেন্সই যেন এক ‘মহাকাব্যিক অগ্রগতি’, যেখানে প্রত্যেক মডেল বেশ কয়েক ঘণ্টা ধরে চার্টের শীর্ষে থাকে। এবারের ব্যাপারটা আলাদা কী?

GLM-5.1-এর প্রযুক্তিগত বিবরণ এবং ব্যবহারকারীর অভিজ্ঞতা পর্যালোচনা করার পর, APPSO আপনাকে দেখাবে এই মডেলটি কোন স্তরের।

একটানা ৮ ঘণ্টা কাজ করে ২০ ধাপ থেকে ১৭০০ ধাপ পর্যন্ত।

GLM-5.1 সম্পর্কে সবচেয়ে আশ্চর্যজনক বিষয় এর বেঞ্চমার্ক স্কোর নয়, বরং এটি কতক্ষণ টিকে থাকতে পারে।

ঝিপু-র একটি ঘটনা আমার মনে গভীর ছাপ ফেলেছিল। তারা ৮ ঘণ্টায় একেবারে শূন্য থেকে একটি লিনাক্স ডেস্কটপ সিস্টেম তৈরি করেছিল। এটি এমন কোনো 'বিল্ড' ছিল না যেখানে কয়েকটি ডেমো ফাইল লেখা হয়; বরং এটি ছিল একেবারে শূন্য থেকে শুরু করার একটি প্রকৃত প্রক্রিয়া, যেখানে আর্কিটেকচারের নকশা আঁকা, কোড লেখা, পরীক্ষা চালানো এবং বাগ সংশোধন করা হয়েছিল। এতে ঠিক ৮ ঘণ্টা সময় লেগেছিল, ১,২০০-রও বেশি ধাপ ছিল এবং অবশেষে একটি সম্পূর্ণ কার্যকরী লিনাক্স ডেস্কটপ সিস্টেম তৈরি হয়েছিল।

এতে একটি সম্পূর্ণ ডেস্কটপ, উইন্ডো ম্যানেজার, স্ট্যাটাস বার, অ্যাপ্লিকেশন, ভিপিএন ম্যানেজার, চীনা ফন্ট সাপোর্ট, গেম লাইব্রেরি এবং ৪.৮ মেগাবাইটের আনুষঙ্গিক ফাইল অন্তর্ভুক্ত রয়েছে। এটি চারজনের একটি দলের এক সপ্তাহের কাজের সমতুল্য।

পুরো প্রক্রিয়া জুড়ে কোড পরীক্ষা বা পর্যালোচনায় কেউ অংশগ্রহণ করেনি। এমনকি GLM-5.1 তার নিজের কোডের জন্য রিগ্রেশন টেস্টও লিখেছিল, এবং সেই টেস্টগুলো পাস করেছিল।

ঝিহু-এর প্রোগ্রামার ব্লগার তোয়ামা নাও আরও কঠোর একটি পরীক্ষা পরিচালনা করেন। তিনি GLM-5.1-এ তিনটি প্রজেক্ট দেন: সুইফটে লেখা একটি ম্যাকওএস ওপেনজিএল রেন্ডারার, গোল্যাং-এ সার্ভার-সাইড কম্পোনেন্টসহ ফ্লাটারে তৈরি একটি পূর্ণাঙ্গ চ্যাট অ্যাপ্লিকেশন, এবং ব্যবহারকারীর নির্বাচিত টেকনোলজি স্ট্যাক ব্যবহার করে তৈরি একটি ওয়েব-ভিত্তিক ভিডিও এডিটিং অ্যাপ্লিকেশন। প্রতিটি প্রজেক্ট ১০-১২ রাউন্ড ধরে চলেছিল, যেখানে প্রতি রাউন্ডে ১৫০০-২০০০ শব্দ ছিল।

ফলস্বরূপ, GLM-5.1 তার সমস্ত পরীক্ষা প্রকল্পে উত্তীর্ণ হওয়া প্রথম দেশীয়ভাবে উৎপাদিত মডেলে পরিণত হয় এবং আনুষ্ঠানিকভাবে Sonnet 4.5 Thinking-কে ছাড়িয়ে যাওয়া প্রথম দেশীয়ভাবে উৎপাদিত মডেলেও পরিণত হয়।

তার মূল্যায়ন ছিল: "জিএলএম-৫.১ প্রোগ্রামিং অ্যাপ্লিকেশনের পরিধি ব্যাপকভাবে প্রসারিত করেছে। এটি এখন আর শুধু ফ্রন্ট-এন্ডের জন্য একটি শক্তিশালী টুল নয়, কিংবা এটি শুধু একবার দেখানোর মতো কোনো জিনিসও নয়। জটিল পরিস্থিতিতে এটি প্রধান প্রোগ্রামিং টুল হিসেবে কাজ করতে পারে।" তবে, তিনি সমস্যাগুলোও তুলে ধরেছেন: "অত্যন্ত দীর্ঘ কনটেক্সটের ক্ষেত্রে, সহজেই বিভ্রমের বিস্ফোরণ ঘটতে পারে। যদি এমন কোনো সমস্যার সম্মুখীন হন যা দুই দফায় সমাধান করা যায় না, তবে ঝুঁকি না নিয়ে আবার শুরু করুন।"

গত বছরের শেষে, একটি এআই এজেন্ট মাত্র প্রায় ২০টি ধাপ সম্পন্ন করতে পারত। জিএলএম-৫.১ এখন ১,৭০০টি ধাপ সম্পন্ন করতে পারে। মডেলটি সত্যিই 'স্বাধীনভাবে কাজ করতে' পারে কি না, সেই প্রশ্নের জন্য এটি একটি যুগান্তকারী মুহূর্ত।

তাদের প্রযুক্তিগত প্রতিবেদনে ঝিপু মূল সাফল্যের কারণ ব্যাখ্যা করেছে: জিএলএম-৫ সহ পূর্ববর্তী মডেলগুলো প্রাথমিক পর্যায়ে দ্রুত অগ্রগতি অর্জনের পর একটি প্রতিবন্ধকতায় পৌঁছে যেত। তারা বারবার পরিচিত অপ্টিমাইজেশন কৌশলগুলো চেষ্টা করলেও, যখন একটি পদ্ধতি অকার্যকর হয়ে পড়ত, তখন সক্রিয়ভাবে কৌশল পরিবর্তন করতে পারত না।

GLM-5.1-এর প্রশিক্ষণের লক্ষ্য হলো এই প্রতিবন্ধকতাটি অতিক্রম করা, যা মডেলটিকে একটি নির্দিষ্ট কৌশলের মধ্যে ক্রমবর্ধমান সমন্বয় সাধনে সক্ষম করে। যখন অগ্রগতি স্থবির হয়ে পড়ে, তখন এটি সক্রিয়ভাবে বেঞ্চমার্ক লগগুলো বিশ্লেষণ করে, বর্তমান প্রতিবন্ধকতাটি শনাক্ত করে এবং তারপর কাঠামোগতভাবে ভিন্ন একটি সমাধানে চলে যায়।

ভেক্টর ডেটাবেস অপ্টিমাইজেশনের ক্ষেত্রটি একটি "ধাপ-সদৃশ" অপ্টিমাইজেশন গতিপথের একটি আদর্শ উদাহরণ। GLM-5.1 কোয়েরি থ্রুপুট ৩১০৮ QPS থেকে ২১৪৭২ QPS-এ বৃদ্ধি করতে ৬৫৫টি ইটারেশন ব্যবহার করেছে, যা একটি ৬.৯-গুণ উন্নতি।

এই প্রক্রিয়ায়, মডেলটি নিজেই সম্পূর্ণ অপটিমাইজেশন চেইনটি সম্পন্ন করে, যার মধ্যে রয়েছে পূর্ণাঙ্গ ডেটাবেস স্ক্যানিং থেকে শুরু করে আইভিএফ বাকেটিং রিকল, হাফ-প্রিসিশন কম্প্রেশন চালু করা, কোয়ান্টাইজেশন কোর্স র‍্যাঙ্কিং যোগ করা, দুই-স্তরের রাউটিং সম্পাদন করা এবং সবশেষে প্রি-প্রুনিং। প্রতিটি ধাপের সাথে রিকলে একটি সংক্ষিপ্ত পতন ঘটে, কারণ মডেলটি নতুন দিক অন্বেষণ করার সময় সাময়িকভাবে সীমাবদ্ধতা ভঙ্গ করে এবং তারপর আবার আগের অবস্থায় ফিরে আসে। এই "ভঙ্গ-সংশোধন" চক্রটি নিজেই কার্যকর অপটিমাইজেশনের একটি লক্ষণ।

KernelBench লেভেল 3 অপটিমাইজেশন বেঞ্চমার্কে, GLM-5.1 মডেলটি ৫০টি বাস্তব মেশিন লার্নিং কম্পিউটেশনাল লোডের উপর ২৪ ঘণ্টারও বেশি সময় ধরে অবিচ্ছিন্নভাবে পুনরাবৃত্তির মধ্য দিয়ে গিয়ে অবশেষে ৩.৬ গুণ জ্যামিতিক গড় গতিবৃদ্ধি অর্জন করেছে, যা torch.compile max-autotune মোডের ১.৪৯ গুণ গতিবৃদ্ধির চেয়ে উল্লেখযোগ্যভাবে বেশি। এই মডেলে কাস্টম Triton Kernel এবং CUDA Kernel রয়েছে, যা cuBLASLt এপিলগ ফিউশন ব্যবহার করে এবং শেয়ার্ড মেমরি টাইলিং ও CUDA গ্রাফ অপটিমাইজেশন বাস্তবায়ন করে। এটি উচ্চ-স্তরের অপারেটর ফিউশন থেকে শুরু করে মাইক্রোআর্কিটেকচার-স্তরের টিউনিং পর্যন্ত সম্পূর্ণ প্রযুক্তি স্ট্যাককে অন্তর্ভুক্ত করে।

আরও একটি আকর্ষণীয় পরীক্ষাও রয়েছে: ভেন্ডিং বেঞ্চ ২। এই বেঞ্চমার্কে মডেলটিকে এক বছর ধরে একটি ভেন্ডিং মেশিন ব্যবসা পরিচালনার অনুকরণ করতে হয়, যার জন্য দীর্ঘমেয়াদী পরিকল্পনা এবং সম্পদ ব্যবস্থাপনার প্রয়োজন হয়। GLM-5.1 $৪,৪৩২-এর চূড়ান্ত হিসাব ব্যালেন্স অর্জন করে ওপেন-সোর্স মডেলগুলোর মধ্যে প্রথম স্থান অধিকার করেছে এবং ক্লদ ওপাস ৪.৫-এর স্তরের কাছাকাছি পৌঁছেছে।

744B স্পেসিফিকেশন, কোনো এনভিডিয়া চিপ নেই, খরচ ৯৭% হ্রাস।

GLM-5.1-এর প্রযুক্তিগত বৈশিষ্ট্যগুলো খতিয়ে দেখা প্রয়োজন: একটি ৭৪৪-বাইট হাইব্রিড এক্সপার্ট মডেল (MoE) যেখানে প্রতি টোকেনে ৪০-বাইট প্যারামিটার সক্রিয় থাকে, ট্রেনিং ডেটার জন্য ২৮.৫ টেরাবাইট টোকেন, এবং দীর্ঘ কনটেক্সট সক্ষমতা বজায় রেখে ডেপ্লয়মেন্ট খরচ কমানোর জন্য ডিপসিক স্পার্স অ্যাটেনশন (DSA)-এর সংযোজন। এতে একটি ২০০কে কনটেক্সট উইন্ডো এবং সর্বোচ্চ ১,৩১,০৭২টি টোকেন আউটপুট দেওয়ার ক্ষমতা রয়েছে।

আরও গুরুত্বপূর্ণ বিষয় হলো, সম্পূর্ণ মডেলটি এনভিডিয়া জিপিইউ-এর অংশগ্রহণ ছাড়াই হুয়াওয়ের অ্যাসেন্ড ৯১০বি চিপ ব্যবহার করে প্রশিক্ষণ দেওয়া হয়েছিল। কম্পিউটিং ক্ষমতার সীমাবদ্ধতা থাকা সত্ত্বেও, দেশীয়ভাবে তৈরি এই মডেলটি বিশ্বব্যাপী তৃতীয় সর্বোচ্চ এবং ওপেন-সোর্স মডেলগুলোর মধ্যে সর্বোচ্চ র‍্যাঙ্কিং অর্জন করেছে।

ডেভেলপার বিউ জনসন তার ওপেনক্ল ডেপ্লয়মেন্টের মডেলটি ক্লদ ওপাস ৪.৬ থেকে জিএলএম-৫.১-এ পরিবর্তন করেছেন। ব্যবহারকারীর অভিজ্ঞতা একই ছিল, কিন্তু খরচ ১০০০ ডলার থেকে কমে প্রায় ৩০ ডলারে নেমে আসে, যা ৯৭% হ্রাস। জিএলএম-৫.১-এর ইনপুট খরচ ক্লদ ওপাসের ১/৫ ভাগ এবং এর আউটপুট খরচ ১/৮ ভাগ। সংক্ষেপে: ২০% দামে প্রায়-ওপাস-এর সমতুল্য সক্ষমতা।

তাছাড়া, GLM-5.1 একটি ওপেন সোর্স সফটওয়্যার এবং এটি MIT লাইসেন্সের অধীনে লাইসেন্সপ্রাপ্ত, যা সবচেয়ে উদার ওপেন-সোর্স লাইসেন্সগুলোর মধ্যে অন্যতম। আপনি এটিকে পরিবর্তন করতে, বাণিজ্যিকভাবে ব্যবহার করতে এবং এর সাথে আপনার যা ইচ্ছা তা করতে পারেন। এটি vLLM, SGLang, এবং xLLM-এর মতো প্রধান ইনফারেন্স ফ্রেমওয়ার্কগুলোকে সমর্থন করে এবং সরাসরি স্থানীয়ভাবে স্থাপন করা যায়।

অবশ্যই, GLM-5.1-এর উন্নতির সুযোগ একেবারে নেই তা নয়। কিছু ডেভেলপার জানিয়েছেন যে GLM-5.1-এর ইনফারেন্স স্পিড মাত্র ৪৪.৩ টোকেন/সেকেন্ড, যা একই ধরনের অন্যান্য প্রোডাক্টের তুলনায় তেমন সুবিধাজনক নয়। জটিল কাজ সম্পন্ন হতে এমনকি কমপক্ষে এক ঘণ্টাও লেগে যেতে পারে, এবং সেক্ষেত্রে ক্লাউডের চেয়ে ১৫ গুণ বেশি ক্রেডিট লিমিট থাকা সত্ত্বেও প্রো প্ল্যানটি যথেষ্ট নাও হতে পারে।

এই সমস্যাগুলো বাস্তব। GLM-5.1 নিখুঁত নয়, কিন্তু তা এটিকে একটি মাইলফলক হতে বাধা দেয় না।

GLM-5.1-এর তাৎপর্য এই নয় যে এটি Opus 4.6-এর চেয়ে কতটা বেশি শক্তিশালী, বরং এটি প্রমাণ করে যে কম্পিউটিং শক্তি সীমিত থাকলেও দেশীয়ভাবে তৈরি মডেলগুলো শীর্ষ-স্তরের ওপেন-সোর্স পারফরম্যান্স অর্জন করতে পারে। অধিকন্তু, এটি ওপেন-সোর্স; যে কেউ এটি ব্যবহার করতে পারে এবং যে কেউ এটি পরিবর্তনও করতে পারে।

আপনার ৮ ঘণ্টার ঘুম এখন এআই-এর ৮ ঘণ্টার কাজ হতে পারে। এবং এই এআই ওপেন সোর্স, দেশীয়ভাবে তৈরি এবং যে কেউ ব্যবহার করতে পারে।

অভিজ্ঞতার পদ্ধতিগুলো সংযুক্ত করা হলো।

১. অফিসিয়াল এপিআই ইন্টিগ্রেশন
– বিগমডেল ওপেন প্ল্যাটফর্ম: https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1
– Z.ai: https://docs.z.ai/guides/llm/glm-5.1

২. পণ্যের অভিজ্ঞতা
GLM-5.1 শীঘ্রই Z.ai-তে পাওয়া যাবে: https://chat.z.ai

৩. ওপেন সোর্স লিঙ্ক
– গিটহাব: https://github.com/zai-org/GLM-5
– হাগিং ফেস: https://huggingface.co/zai-org/GLM-5.1
– মডেলস্কোপ: https://modelscope.cn/models/ZhipuAI/GLM-5.1

iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট iFanr (WeChat ID: ifanr) ফলো করুন, যেখানে যত তাড়াতাড়ি সম্ভব আপনার জন্য আরও আকর্ষণীয় কন্টেন্ট উপস্থাপন করা হবে।