এটা এখন আনুষ্ঠানিক! DeepSeek V4-ই হবে প্রথম প্রযুক্তি যা হুয়াওয়ের চিপ ব্যবহার করবে! দেশীয় কৃত্রিম বুদ্ধিমত্তা এনভিডিয়ার ‘একচেটিয়া আধিপত্য’ ভাঙতে শুরু করেছে।

সাধারণত সপ্তাহান্তের ভ্রমণের পরিকল্পনা করার জন্য শুক্রবার দুপুরই সেরা সময়। কিন্তু DeepSeek অপ্রত্যাশিতভাবে এইমাত্র V4 সিরিজের মডেল প্রিভিউটি আনুষ্ঠানিকভাবে প্রকাশ ও ওপেন-সোর্স করে পরিস্থিতিকে আরও জটিল করে তুলেছে।

এটি খেলার ইতিহাসে সর্বোচ্চ বিনিয়োগের মাধ্যমে শুরু হয়েছিল, এবং দুজনের কাছেই লক্ষ লক্ষ টোকেন ছিল। প্রেক্ষাপট:

  • DeepSeek-V4-Pro (৪৯ বাইট অ্যাক্টিভেশন প্যারামিটার)-এর প্যারামিটার সংখ্যা হলো ১.৬ টেরাবাইট।
  • DeepSeek-V4-Flash ২৮৪ বাইট প্যারামিটার সহ (১৩ বাইট অ্যাক্টিভেশন প্যারামিটার)

আজ থেকে, আপনি এটি অফিসিয়াল ওয়েবসাইট chat.deepseek.com অথবা অফিসিয়াল অ্যাপে উপভোগ করতে পারবেন। এপিআই (API) পরিষেবাও এখন উপলব্ধ।

DeepSeek V4 এসে গেছে, যা এজেন্ট প্লেয়ারদের জন্য নিয়ে এসেছে এক বিশাল উৎসব।

এই আপগ্রেডের মূল লক্ষ্য হলো এজেন্টের সক্ষমতা বৃদ্ধি করা।

V4-Pro ইতিমধ্যে DeepSeek-এর মধ্যে একটি এজেন্টিক কোডিং টুল হিসেবে দৈনন্দিন ব্যবহৃত হচ্ছে।

কর্মচারীদের মতামত থেকে জানা যায় যে, এটি সনেট ৪.৫-এর চেয়ে ব্যবহার করা সহজ এবং চিন্তাহীন অবস্থায় এর উপস্থাপনার মান ওপাস ৪.৬-এর কাছাকাছি, কিন্তু চিন্তাশীল অবস্থায় তা এখনও ওপাস ৪.৬-এর চেয়ে পিছিয়ে আছে।

প্রাতিষ্ঠানিক অভ্যন্তরীণ গবেষণা ও উন্নয়ন (R&D) প্রোগ্রামিং বেঞ্চমার্ক পরীক্ষাতেও অনুরূপ ফলাফল পাওয়া গেছে। ৫০ জনেরও বেশি প্রকৌশলীর করা প্রায় ২০০টি বাস্তব কাজের পরীক্ষায়, V4-Pro-Max-এর পাসের হার ৬৭%, Sonnet 4.5-এর জন্য ৪৭%, Opus 4.5 Thinking-এর জন্য ৭৩% এবং Opus 4.6 Thinking-এর জন্য ৮০%।

অভ্যন্তরীণ সমীক্ষায় অংশগ্রহণকারী ৮৫ জন অভিজ্ঞ ডেভেলপার ও গবেষকের মধ্যে ৯০ শতাংশেরও বেশি বিশ্বাস করতেন যে, ভি৪-প্রো ইতিমধ্যেই একটি পছন্দের বা প্রায়-পছন্দের প্রোগ্রামিং মডেল।

এই মডেলটি বিশেষভাবে Claude Code, OpenClaw, OpenCode, এবং CodeBuddy-এর মতো মূলধারার এজেন্ট প্রোডাক্টগুলোর জন্য অভিযোজিত করা হয়েছে, যার ফলে কোড টাস্ক এবং ডকুমেন্টেশন জেনারেশন উভয় ক্ষেত্রেই উন্নতি সাধিত হয়েছে।

টুল কলের ক্ষেত্রে, V4 সিরিজ একটি নতুন XML-ফরম্যাটের টুল-কল স্কিমা চালু করেছে, যা কলের সীমানা নির্ধারণ করতে বিশেষ টোকেন "|DSML|" ব্যবহার করে। আনুষ্ঠানিক বিবৃতিতে দাবি করা হয়েছে যে এই ডিজাইনটি কার্যকরভাবে এস্কেপিং ব্যর্থতা এবং টুল কল ত্রুটি হ্রাস করে, যা এটিকে পূর্ববর্তী প্রজন্মের চেয়ে আরও নির্ভরযোগ্য করে তোলে।

জ্ঞান ও যুক্তির দিক থেকে, বৈশ্বিক জ্ঞান মূল্যায়নে V4-Pro অন্যান্য ওপেন-সোর্স মডেলগুলোকে উল্লেখযোগ্যভাবে ছাড়িয়ে যায়।

SimpleQA-Verified ৫৭.৯ স্কোর করেছে, যা এর নিকটতম ওপেন-সোর্স প্রতিযোগীর চেয়ে প্রায় ২০ শতাংশ পয়েন্ট বেশি এবং Gemini-3.1-Pro-এর ৭৫.৬ স্কোরের চেয়ে সামান্য কম। এটি গণিত, STEM এবং প্রতিযোগিতা কোড বিভাগে সর্বজনীনভাবে মূল্যায়িত সমস্ত ওপেন-সোর্স মডেলকে ছাড়িয়ে শীর্ষ-স্তরের ক্লোজড-সোর্স মডেলের পর্যায়ে পৌঁছেছে।

বেস মডেল স্তরে, V4-Pro-Base যথাক্রমে MMLU 5-shot, MMLU-Pro 5-shot, Simple-QA Verified 25-shot, এবং LongBench-V2 long text মূল্যায়নে ৯০.১, ৭৩.৫, ৫৫.২, এবং ৫১.৫ স্কোর করেছে, যা প্রায় একই সংখ্যক প্যারামিটার থাকা সত্ত্বেও V3.2-Base-কে (যেটি যথাক্রমে ৮৭.৮, ৬৫.৫, ২৮.৩, এবং ৪০.২ স্কোর করেছিল) উল্লেখযোগ্যভাবে ছাড়িয়ে গেছে।

উল্লেখ্য যে, কম প্যারামিটার থাকা সত্ত্বেও V4-Flash-Base বেশিরভাগ বেঞ্চমার্ক পরীক্ষায় V3.2-Base-কে ছাড়িয়ে গেছে, যা ইঙ্গিত দেয় যে স্থাপত্যগত উন্নতিগুলোই কর্মদক্ষতায় একটি উল্লেখযোগ্য বৃদ্ধি এনেছে।

ইনস্ট্রাকশন মডেলগুলোর তুলনামূলক পরীক্ষায়, V4-Pro Max LiveCodeBench Pass@1-এ ৯৩.৫ স্কোর এবং Codeforces Rating-এ ৩২০৬ অর্জন করেছে, যা পরীক্ষিত মডেলগুলোর মধ্যে সর্বোচ্চ ছিল।

কোডফোর্সেস হিউম্যান লিডারবোর্ডে V4-Pro-Max বর্তমানে ২৩তম স্থানে রয়েছে। এর IMO AnswerBench Pass@1 স্কোর ৮৯.৮, যা কেবল GPT-5.4-এর ৯১.৪ স্কোরের পরেই দ্বিতীয় স্থানে আছে। এর HMMT 2026 Feb Pass@1 স্কোর ৯৫.২, যা Opus-4.6 Max-এর ৯৬.২ এবং GPT-5.4-এর ৯৭.৭ স্কোরের খুব কাছাকাছি। এর Apex Shortlist Pass@1 স্কোর ৯০.২, যা এর সাথে তুলনাকৃত অন্য সব মডেলকে ছাড়িয়ে গেছে।

এজেন্ট মূল্যায়নের ক্ষেত্রে, SWE Verified Resolved ৮০.৬ স্কোর করেছে, যা মূলত Opus-4.6 Max-এর ৮০.৮ স্কোরের সমান।

BrowseComp Pass@1 ৮৩.৪ স্কোর করেছে এবং MCPatlas Public Pass@1 ৭৩.৬ স্কোর করেছে, উভয়ই পরীক্ষিত মডেলগুলোর মধ্যে শীর্ষস্থানে রয়েছে। এই শেষোক্ত দুটি পরিসংখ্যান প্রমাণ করে যে, V4-এর MCP টুল ইকোসিস্টেমের সাথে শক্তিশালী সামঞ্জস্য রয়েছে এবং এর কর্মক্ষমতা কেবল এর অভ্যন্তরীণ ফ্রেমওয়ার্কের মধ্যেই সীমাবদ্ধ নয়।

দীর্ঘ টেক্সট পরীক্ষায়, MRCR 1M MMR-এর স্কোর ৮৩.৫ এবং CorpusQA 1M ACC-এর স্কোর ৬২.০, যা যথাক্রমে Gemini-3.1-Pro-এর ৭৬.৩ এবং ৫৩.৮-কে ছাড়িয়ে গেলেও, MRCR-এ Claude Opus 4.6-এর ৯২.৯-এর চেয়ে এখনও পিছিয়ে আছে।

খণ্ডিত ডেটার উপর ভিত্তি করে, ১২৮কেবি-এর মধ্যে ডেটা পুনরুদ্ধারের ক্ষমতা বেশ স্থিতিশীল, কিন্তু ১২৮কেবি-এর পর তা উল্লেখযোগ্যভাবে কমতে শুরু করে। তবে, ১এম-এ এর পারফরম্যান্স এখনও বেশিরভাগ অনুরূপ মডেলকে ছাড়িয়ে যায়।

চীনা লিখনও ভি৪-প্রো-এর অন্যতম একটি শক্তি।

চীনা লেখার জন্য অফিসিয়াল বেঞ্চমার্ক মডেল হলো জেমিনি-৩.১-প্রো। ৩,১৭০টি নমুনার ওপর করা একটি কার্যকরী লেখার মূল্যায়নে, ভি৪-প্রো-এর জয়ের হার ছিল ৬২.৭%, যেখানে জেমিনির জয়ের হার ছিল ৩৪.১%।

সৃজনশীল লেখায়, লেখার মানের দিক থেকে V4-Pro ৭৭.৫% সাফল্যের হার অর্জন করেছে। তবে, কঠিন নির্দেশনা বা একাধিক পর্বের লেখার পরিস্থিতিতে, Claude Opus 4.5 এখনও এগিয়ে আছে, যেখানে সাফল্যের হার ৫২.০% বনাম ৪৫.৯%।

ফ্ল্যাশকে কোনো 'সাধারণ' সংস্করণ হিসেবে গণ্য করবেন না; সঠিক মানসিকতা তৈরি করাই মূল বিষয়।

প্রো এবং ফ্ল্যাশ ট্রিমগুলো দেখে অনেকেই সঙ্গে সঙ্গে ভাবেন, "ফ্ল্যাশ হলো এর একটি নিম্নমানের সংস্করণ মাত্র।"

ভুল, পুরোপুরি ভুল। DeepSeek-এর লোকালাইজেশন লজিক আরও জটিল, V4-Flash-এ প্যারামিটার ও অ্যাক্টিভেশন অনেক কম, এবং এর API-এর মূল্যও বেশি প্রতিযোগিতামূলক। এর ইনফারেন্স ক্ষমতা Pro-এর খুব কাছাকাছি, কিন্তু এর ওয়ার্ল্ড নলেজ বেস কিছুটা নিম্নমানের।

সহজ এজেন্ট টাস্কের ক্ষেত্রে দুটির মধ্যে তেমন কোনো পার্থক্য নেই। আসল পার্থক্যটা নিহিত থাকে উচ্চ-কঠিন টাস্ক এবং চিন্তার ধরণ নির্বাচনের ক্ষেত্রে।

Think Max মোডে, V4-Flash-এর ইনফারেন্স পারফরম্যান্স Pro-এর কাছাকাছি পৌঁছে যেতে পারে: LiveCodeBench Flash Max-এ স্কোর দাঁড়ায় ৯১.৬, Codeforces Flash Max Rating-এ ৩০৫২, GPQA Diamond Pass@1-এ ৮৮.১ এবং IMOAnswerBench Pass@1-এ ৮৮.৪, যেখানে Pro Max-এর সাথে এর ব্যবধান খুবই সীমিত।

দৈনন্দিন কাজের জন্য ফ্ল্যাশ এবং আরও কঠিন কাজের জন্য থিঙ্কম্যাক্স ব্যবহার করা হয়, যা অর্থের সেরা মূল্য প্রদান করে।

বিভিন্ন ভার্সনের মধ্যকার পার্থক্যের চেয়ে মোডগুলোর মধ্যে পারফরম্যান্সের পার্থক্য অনেক বেশি। উদাহরণস্বরূপ V4-Pro-এর কথা ধরলে, HLE Pass@1 নন-থিংকিং মোডের ৭.৭ থেকে ম্যাক্স মোডে ৩৭.৭-এ উন্নীত হয়েছে, Apex Pass@1 ০.৪ থেকে ৩৮.৩-এ পৌঁছেছে এবং BrowseComp Pass@1 পরিমাপ-অযোগ্য অবস্থা থেকে লাফিয়ে ৮৩.৪-এ দাঁড়িয়েছে। জটিল কাজের ক্ষেত্রে, কোন ভার্সনটি বেছে নেওয়া হবে তা নিয়ে চিন্তা করার চেয়ে সঠিক থিংকিং ইনটেনসিটি নির্বাচন করা অনেক বেশি গুরুত্বপূর্ণ।

উভয় মডেলই তিনটি ইনফারেন্স ইনটেনসিটি সমর্থন করে, যেগুলো reasoning_effort প্যারামিটার ব্যবহার করে পরিবর্তন করা যায়।

নন-থিংকিং মোড দ্রুত প্রতিক্রিয়া সময় প্রদান করে, যা দৈনন্দিন হালকা কাজের জন্য উপযুক্ত; থিঙ্ক হাই সুস্পষ্ট যৌক্তিক যুক্তি সক্ষম করে, যা জটিল সমস্যা এবং পরিকল্পনার জন্য উপযুক্ত; থিঙ্ক ম্যাক্স যুক্তির ক্ষমতাকে সর্বোচ্চ করে তোলে, যা মডেলের সর্বোচ্চ সীমা অন্বেষণের জন্য উপযুক্ত। অফিসিয়াল সুপারিশ হলো কনটেক্সট উইন্ডোকে কমপক্ষে ৩৮৪কে টোকেনে সেট করা, এবং জটিল এজেন্ট সিনারিওর জন্য এটিকে সরাসরি ম্যাক্সে সেট করা।

ThinkMax মোডে, সিস্টেম প্রম্পটের শুরুতে একটি অতিরিক্ত নির্দেশনা যুক্ত করা হয়, যা মডেলটিকে "সর্বোচ্চ শক্তি দিয়ে যুক্তি দিতে এবং কোনো শর্টকাট ব্যবহার না করতে" বাধ্য করে এবং যুক্তির প্রতিটি ধাপ ও প্রতিটি প্রত্যাখ্যাত অনুমানকে স্পষ্টভাবে লিখে প্রকাশ করতে বাধ্য করে।

ডেটা থেকে এই ডিজাইনের প্রভাব বেশ স্পষ্ট, যা এটাও ব্যাখ্যা করে যে কেন একই মডেল বিভিন্ন মোডে এত ভিন্নভাবে কাজ করে।

লক্ষ লক্ষ দীর্ঘ প্রেক্ষাপট, প্রতিটি টোকেন থেকে শেষ বিন্দু পর্যন্ত নিংড়ে নিচ্ছে

অনেক মডেলই দশ লক্ষ টোকেনের প্রেক্ষিতের কথা ফলাও করে প্রচার করছে, কিন্তু এই মাপকাঠি সমর্থন করার প্রকৌশলগত খরচ সম্পূর্ণ ভিন্ন।

DeepSeek V4-এর স্থাপত্যে উল্লেখযোগ্য পরিবর্তন আনা হয়েছে। এই পরিবর্তনের মূলে রয়েছে অ্যাটেনশন মেকানিজম। প্রচলিত অ্যাটেনশন কম্পিউটেশন সিকোয়েন্সের দৈর্ঘ্যের সাথে বর্গীয় হারে বৃদ্ধি পায়, ফলে কনটেক্সট দীর্ঘ হলে এটিই প্রধান কম্পিউটেশনাল প্রতিবন্ধকতা হয়ে দাঁড়ায়।

V4 দুই ধরনের কম্প্রেসড অ্যাটেনশন চালু করেছে এবং সেগুলোকে পর্যায়ক্রমে ব্যবহার করে। CSA প্রতিটি m টোকেনের KV ক্যাশকে একটিতে সংকুচিত করে, এবং তারপর মূল গণনার জন্য সেগুলোর মধ্যে থেকে কেবল k সংখ্যক টোকেন নির্বাচন করতে স্পার্স অ্যাটেনশন ব্যবহার করে; HCA একটি দীর্ঘ ব্যবধানের টোকেনগুলোকে একটিতে সংকুচিত করার জন্য আরও আগ্রাসী কম্প্রেশন রেট ব্যবহার করে, কিন্তু ডেন্স অ্যাটেনশন বজায় রাখে।

সিএসএ-তে একটি লাইটনিং ইনডেক্সারও অন্তর্ভুক্ত রয়েছে, যা কম প্রিসিশনের FP4 ব্যবহার করে প্রতিটি কোয়েরি টোকেন এবং প্রতিটি কম্প্রেসড ব্লকের মধ্যে প্রাসঙ্গিকতার স্কোর দ্রুত গণনা করে এবং তারপর পরবর্তী অ্যাটেনশনে অংশগ্রহণের জন্য শীর্ষ-k ব্লক নির্বাচন করে, যা কম্পিউটেশনাল লোড আরও কমিয়ে দেয়। কম্প্রেশনের সময় স্থানীয় বিবরণের ক্ষতি এড়াতে, উভয় অ্যাটেনশন পদ্ধতিতেই একটি স্লাইডিং উইন্ডো ব্রাঞ্চ চালু করা হয়েছে, যা প্রতিটি টোকেনকে তার নিকটতম প্রতিবেশী টোকেনগুলো দেখতে দেয়।

ফলাফলগুলো তাৎপর্যপূর্ণ। একটি ১ মিলিয়ন কনটেক্সট সিনারিওতে, V4-Pro-এর একক-টোকেন ইনফারেন্স কম্পিউটেশন V3.2-এর মাত্র ২৭%, এবং এর KV ক্যাশে ব্যবহার V3.2-এর ১০%-এ নেমে আসে। V4-Flash আরও বেশি কার্যকর; একই সিনারিওতে এর ইনফারেন্স কম্পিউটেশন V3.2-এর মাত্র ১০% এবং এর KV ক্যাশে ব্যবহার ৭%-এ নেমে আসে।

আনুষ্ঠানিক বিবৃতিতে জানানো হয়েছে যে, এখন থেকে সমস্ত আনুষ্ঠানিক DeepSeek পরিষেবা জুড়ে দশ লক্ষ কনটেক্সট স্ট্যান্ডার্ড হিসেবে অন্তর্ভুক্ত হবে।

এটা আসলেই অনেক লম্বা, লম্বা, লম্বা, লম্বা, লম্বা, লম্বা, লম্বা।

অ্যাটেনশন মেকানিজমের পাশাপাশি, V4 রেসিড্যুয়াল কানেকশনগুলোকে উন্নত করার জন্য ম্যানিফোল্ড-কনস্ট্রেইন্ড হাইপারকানেকশন (mHC) প্রবর্তন করে।

প্রচলিত রেসিড্যুয়াল কানেকশনগুলো সরাসরি স্তরগুলোর মধ্যে সিগন্যাল যুক্ত করে, অন্যদিকে এমএইচসি রেসিড্যুয়াল ফ্লো-এর প্রস্থকে কয়েকগুণ বাড়িয়ে দেয় এবং তারপর তিন সেট শিখনীয় লিনিয়ার ম্যাপিংয়ের মাধ্যমে গতিশীলভাবে সিগন্যালের মিশ্রণ নিয়ন্ত্রণ করে।

রেসিডুয়াল ট্রান্সফরমেশনের জন্য দায়ী ম্যাট্রিক্সটিকে এক সেট ডাবল র‍্যান্ডম ম্যাট্রিক্সের মধ্যে সীমাবদ্ধ রাখা হয়, যাতে স্পেকট্রাল নর্ম ১-এর বেশি না হয় এবং এর ফলে ক্রস-লেয়ার সিগন্যাল প্রোপাগেশন আরও স্থিতিশীল হয়।

ট্রেনিং লেয়ারে মিউওন অপটিমাইজার ব্যবহৃত হয়, যা গ্রেডিয়েন্ট ম্যাট্রিক্সকে পুনরাবৃত্তিমূলকভাবে অর্থোগোনালাইজ করার মাধ্যমে প্যারামিটার আপডেট করে, ফলে কনভার্জেন্স ত্বরান্বিত হয় এবং স্ট্যাবিলিটি উন্নত হয়। এটি অ্যাডামডব্লিউ (AdamW)-এর সাথে একত্রে ব্যবহৃত হয়: বেশিরভাগ মডিউল মিউওন ব্যবহার করলেও, এমবেডিং লেয়ার, প্রেডিকশন হেড এবং আরএমসনর্ম ওয়েটসে এখনও অ্যাডামডব্লিউ ব্যবহৃত হয়।

প্রশিক্ষণের সময় আমরা লস স্পাইক সমস্যার সম্মুখীন হয়েছিলাম।

DeepSeek দুটি কার্যকর পদ্ধতি আবিষ্কার করেছে। প্রথমটিকে বলা হয় "অ্যান্টিসিপেটরি রাউটিং", যা ট্রেনিং ধাপ t-এর সময় রাউটিং ইনডেক্স গণনা করার জন্য ধাপ t-Δt থেকে পুরোনো প্যারামিটার ব্যবহার করে, ব্যাকবোন নেটওয়ার্ক এবং রাউটিং নেটওয়ার্কের আপডেটগুলোকে বিচ্ছিন্ন করে, ফলে তাদের মধ্যকার দুষ্টচক্রটি ভেঙে দেয়।

দ্বিতীয় পদ্ধতিটিতে SwiGLU অ্যাক্টিভেশন ফাংশনের রৈখিক উপাদানকে ছেঁটে ফেলা হয়, যার ফলে এর সাংখ্যিক পরিসর [-10, 10]-এর মধ্যে সীমাবদ্ধ থাকে এবং সরাসরি আউটলায়ার দমন করা হয়। তবে, বর্তমানে উভয় পদ্ধতিই কার্যকর বলে জানা গেলেও, এদের অন্তর্নিহিত কার্যপ্রণালী এখনও সম্পূর্ণরূপে বোঝা যায়নি। DeepSeek তার গবেষণাপত্রে স্বীকার করেছে যে এই বিষয়টি নিয়ে আরও তদন্তের প্রয়োজন হবে।

এছাড়াও, উভয় মডেলকে ৩২ টেরাবাইটেরও বেশি উচ্চ-মানের ডেটার উপর প্রি-ট্রেইন করা হয়েছিল, যার মধ্যে গণিত, কোড, ওয়েব পেজ এবং দীর্ঘ ডকুমেন্টের মতো একাধিক বিভাগ অন্তর্ভুক্ত ছিল। মধ্যবর্তী প্রশিক্ষণ পর্বে, কোডের সক্ষমতা বাড়ানোর জন্য অতিরিক্ত এজেন্সির ডেটা যোগ করা হয়েছিল।

প্রশিক্ষণ-পরবর্তী পর্যায়ে একটি দ্বি-পদক্ষেপ পদ্ধতি অনুসরণ করা হয়। প্রথমত, গণিত, কোড, এজেন্ট এবং নির্দেশনা অনুসরণের মতো একাধিক দিক অন্তর্ভুক্ত করে SFT এবং GRPO রিইনফোর্সমেন্ট লার্নিং-এর মাধ্যমে ডোমেইন বিশেষজ্ঞদের স্বাধীনভাবে প্রশিক্ষণ দেওয়া হয়। তারপর, অনলাইন ডিস্টিলেশন (OPD) প্রতিটি ডোমেইনের সক্ষমতাকে একটি একক মডেলে একীভূত করে।

OPD টোকেন-স্তরের KL এস্টিমেশনের পরিবর্তে পূর্ণ-শব্দভান্ডার লজিট ডিস্টিলেশন ব্যবহার করে, যার ফলে আরও স্থিতিশীল গ্রেডিয়েন্ট এস্টিমেশন এবং আরও সম্পূর্ণ জ্ঞান স্থানান্তর সম্ভব হয়। এর জন্য ইঞ্জিনিয়ারিং বাস্তবায়নের জটিলতা উল্লেখযোগ্যভাবে বেড়ে যায়—দশটিরও বেশি টিচার মডেলের ওয়েটগুলো কেন্দ্রীয়ভাবে সংরক্ষণ করা হয় এবং চাহিদা অনুযায়ী লোড করা হয়, এবং মেমোরি এক্সপ্লোশন এড়ানোর জন্য হিডেন লেয়ারের স্টেটগুলোও বিশেষভাবে ক্যাশ করা থাকে।

অবশ্যই, উৎস ঈশ্বর এখনও সেই একই উৎস ঈশ্বরই আছেন!

চারটি ওয়েটেড ভার্সনই এখন ওপেন সোর্স এবং HuggingFace বা ModelScope থেকে ডাউনলোড করা যাবে।

বেস ভার্সনটি FP8 মিক্সড প্রিসিশন ব্যবহার করে, ইন্সট্রাকশন ভার্সনটি FP4 এবং FP8 প্রিসিশনের মিশ্রণ ব্যবহার করে, MoE এক্সপার্ট প্যারামিটারগুলো FP4 ব্যবহার করে এবং অন্যান্য প্যারামিটারগুলো FP8 ব্যবহার করে।

FP4 থেকে FP8-এ ডিকোয়ান্টাইজেশন লসলেস, কারণ FP8 (E4M3)-এ FP4 (E2M1)-এর চেয়ে দুটি অতিরিক্ত এক্সপোনেন্ট বিট রয়েছে। এর ফলে একটি বৃহত্তর ডাইনামিক রেঞ্জ পাওয়া যায় এবং এটি FP4 থেকে কোয়ান্টাইজেশন তথ্য সম্পূর্ণরূপে গ্রহণ করতে সক্ষম হয়। লোকাল ডেপ্লয়মেন্টের জন্য, স্যাম্পলিং প্যারামিটার temperature=1.0 এবং top_p=1.0-এ সেট করার পরামর্শ দেওয়া হয়।

এই রিলিজে কোনো জিনজা ফরম্যাটের চ্যাট টেমপ্লেট প্রদান করা হয়নি। অফিসিয়াল ডকুমেন্টেশনের 'encoding' ফোল্ডারে পাইথন স্ক্রিপ্ট এবং টেস্ট কেস দেওয়া আছে, যেখানে ব্যাখ্যা করা হয়েছে কীভাবে OpenAI-উপযোগী মেসেজগুলোকে মডেলের ইনপুট স্ট্রিং-এ এনকোড করতে হয় এবং কীভাবে মডেলের টেক্সট আউটপুট পার্স করতে হয়।

এপিআই অ্যাক্সেসের ক্ষেত্রে, V4-Pro এবং V4-Flash একই সাথে চালু করা হয়েছে, যা OpenAI ChatCompletions এবং Anthropic উভয় ইন্টারফেসকেই সমর্থন করে। মূল্য পূর্বের মতোই; কল করার সময়, base_url অপরিবর্তিত রাখুন এবং model প্যারামিটারটি deepseek-v4-pro অথবা deepseek-v4-flash-এ পরিবর্তন করুন।

deepseek-chat এবং deepseek-reasoner নামের পুরোনো এপিআইগুলো তিন মাসের মধ্যে (২৪শে জুলাই, ২০২৬) বন্ধ করে দেওয়া হবে। বর্তমানে, এগুলো যথাক্রমে V4-Flash-এর নন-থিংকিং মোড এবং থিংকিং মোডকে নির্দেশ করে। ডেভেলপারদের অবশ্যই নির্ধারিত সময়সীমার আগে মাইগ্রেশন সম্পন্ন করতে হবে। মনে হচ্ছে এই সপ্তাহান্তটা বেশ ব্যস্ততার মধ্যে কাটবে।

প্রযুক্তিগত কাঠামোর পাশাপাশি, DeepSeek V4-এর আরও একটি উল্লেখযোগ্য পরিবর্তন হলো যে, Nvidia আর একমাত্র বিকল্প নয়।

অন্য কথায়, ডিপসিক এনভিডিয়া বা এএমডি-কে আগে থেকে অপ্টিমাইজ এবং মানিয়ে নেওয়ার সুযোগ দেয়নি, বরং একচেটিয়াভাবে দেশীয় চিপ প্রস্তুতকারকদের জন্য প্রাথমিক অ্যাক্সেস উন্মুক্ত করে দিয়েছে। এর মানে হলো, দেশীয় মডেলগুলো তাদের পণ্যকে "এনভিডিয়া-মুক্ত" করার ক্ষেত্রে একটি গুরুত্বপূর্ণ পদক্ষেপ নিয়েছে।

ছবি
V4 নোডে এটি করার জন্য DeepSeek-এর সিদ্ধান্তটি অত্যন্ত সুনির্দিষ্ট ছিল।

V4-এর পারফরম্যান্স ইতিমধ্যেই শীর্ষস্থানীয় ক্লোজড-সোর্স মডেলগুলোর সমতুল্য। যদি এটি শুধুমাত্র এনভিডিয়া চিপে চলত, তাহলে ‘চীনের সবচেয়ে শক্তিশালী ওপেন-সোর্স মডেল’ তকমাটি সবসময়ই অসম্পূর্ণ মনে হতো। এখন যেহেতু এটি অ্যাসেন্ড-এ চলে, এই বিবরণটি আরও সম্পূর্ণ হয়েছে: অ্যালগরিদমটি আমাদের নিজস্ব, কোডটি ওপেন সোর্স, এবং চিপটি দেশীয়ভাবে উৎপাদিত।

প্রসঙ্গত, জেনসেন হুয়াং সম্প্রতি টেক পডকাস্ট 'দ্বারকেশ প্যাটেল'-কে দেওয়া এক সাক্ষাৎকারে বলেছেন যে ডিপসিক কোনো সাধারণ উদ্ভাবন নয়।

তিনি এমন একটি পরিস্থিতিরও অনুমান করেছেন যেখানে ডিপসিক-এর নতুন মডেলটি হুয়াওয়ের প্ল্যাটফর্মে আত্মপ্রকাশ করবে। হুয়াং রেনশুন বলেছেন যে এই দিনটি মার্কিন যুক্তরাষ্ট্রের জন্য একটি ভয়াবহ পরিণতি হবে, কারণ এর অর্থ হবে যে এআই মডেলগুলোকে চীনা এআই হার্ডওয়্যারে সেরা পারফরম্যান্সের জন্য অপ্টিমাইজ করা হয়েছে, এবং একবার এই মডেলগুলো বিশ্বব্যাপী ছড়িয়ে পড়লে, সেগুলো চীনা প্রযুক্তিকে বিশ্বমানে পরিণত করবে।

ডিপসিকের ট্রিলিয়ন-প্যারামিটার মডেলের মাধ্যমে শীর্ষ-স্তরের লার্জ-স্কেল মডেল ইনফারেন্স সামলানোর ক্ষেত্রে অ্যাসেন্ডের সক্ষমতার প্রদর্শনটি সমগ্র দেশীয় কম্পিউটিং পাওয়ার ইকোসিস্টেমের জন্য একটি উল্লেখযোগ্য অগ্রগতি। প্রধান দেশীয় নির্মাতারা ইতিমধ্যেই তাদের অ্যাসেন্ড চিপ সংগ্রহ বাড়াচ্ছিল, এবং V4-এর সফল অভিযোজন এই সিদ্ধান্তের জন্য আরও প্রযুক্তিগত সমর্থন যোগায়। ক্যামব্রিকন এবং হাইগনের মতো অন্যান্য দেশীয় চিপ নির্মাতারাও তাদের নিজস্ব লার্জ-স্কেল মডেল অভিযোজনের প্রক্রিয়াকে ত্বরান্বিত করতে বাধ্য হবে।

শীর্ষস্থানীয় ওপেন-সোর্স মডেলের ওপর ভিত্তি করে তৈরি চিপ বেছে নেওয়ার বিষয়টি সমগ্র শিল্প শৃঙ্খলে একটি বড় ধরনের রদবদল ঘটাচ্ছে।

DeepSeek-V4 মডেলের ওপেন সোর্স লিঙ্ক:
https://huggingface.co/collections/deepseek-ai/deepseek-v4
https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4
ডিপসিক-ভি৪ প্রযুক্তিগত প্রতিবেদন:
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট iFanr (WeChat ID: ifanr) ফলো করুন, যেখানে যত তাড়াতাড়ি সম্ভব আপনার জন্য আরও আকর্ষণীয় কন্টেন্ট উপস্থাপন করা হবে।