মাস্ক এতে সম্মতি দিয়েছেন! কিমির গবেষণাপত্রটি বৃহৎ আকারের মডেলের ‘পূর্বপুরুষদের ভিত্তি’ নাড়িয়ে দিয়েছে।

একই কম্পিউটিং ক্ষমতা এবং একই ডেটা থাকা সত্ত্বেও ফলাফল ভিন্ন কেন? বেশিরভাগ মানুষের সাধারণ ধারণা হলো: বৃহত্তর মডেল, উন্নত ডেটা এবং অধিক দক্ষ প্রকৌশলী। কিন্তু কিমি একটি অপ্রত্যাশিত উত্তর দিয়েছেন।

১৬ই মার্চ, কিমি, দ্য ডার্ক সাইড অফ দ্য মুন, 'অ্যাটেনশন রেসিডুয়ালস' শিরোনামে একটি গুরুত্বপূর্ণ প্রযুক্তিগত প্রতিবেদন প্রকাশ করেছে।

এই কৌশলটি প্রায় সকল আধুনিক বৃহৎ মডেলে ব্যবহৃত রেসিড্যুয়াল কানেকশন কাঠামোকে পরিবর্তন করে, এবং পরীক্ষায় দেখা গেছে যে, একই পরিমাণ কম্পিউটিং শক্তিতে, নতুন পদ্ধতিতে প্রশিক্ষিত মডেলটি বেসলাইন মডেলের মতোই ফল লাভ করে, যার জন্য ১.২৫ গুণ বেশি কম্পিউটিং শক্তির প্রয়োজন হয়।

স্বাভাবিকভাবেই, প্রতিবেদনটি প্রকাশের পর সিলিকন ভ্যালির অনেক শীর্ষস্থানীয় এআই ব্যক্তিত্বের কাছ থেকে প্রশংসা ও সমর্থন লাভ করে।

▲গিটহাব ওপেন-সোর্স ঠিকানা: github.com/MoonshotAI/Attention-Residuals

উদাহরণস্বরূপ, মাস্ক সোশ্যাল মিডিয়ায় বলেছেন যে "কিমির চিত্তাকর্ষক কাজ" একটি গুরুত্বপূর্ণ সাফল্য ছিল। ওপেনএআই ও১-এর প্রধান উদ্ভাবক জেরি টোরেক এটিকে "ডিপ লার্নিং ২.০"-এর সূচনা বলে অভিহিত করেছেন।

ওপেনএআই-এর প্রাক্তন সহ-প্রতিষ্ঠাতা আন্দ্রেজ কার্পাথি বলেছেন, "মনে হচ্ছে আমরা এখনও 'মনোযোগই যথেষ্ট' কথাটির আক্ষরিক অর্থ পুরোপুরি উপলব্ধি করতে পারিনি।" কিন্তু এই প্রশংসার চেয়েও বেশি উল্লেখযোগ্য হলো প্রযুক্তিগত গবেষণাপত্রগুলোর পেছনের ইঙ্গিত: ডিপ লার্নিং-এর সবচেয়ে মৌলিক ধারণাটিই বদলে যাচ্ছে।

যে ভিত্তিটিতে দশ বছর ধরে হাত দেওয়া হয়নি, সেটি সরানো হলো।

গত দুই বছরে, বড় মডেলগুলোর মধ্যে প্রতিযোগিতা মূলত ‘উপরি কাঠামো’তেই কেন্দ্রীভূত হয়েছে: উন্নততর অ্যাটেনশন ভ্যারিয়েন্ট, আরও স্মার্ট MoE রাউটিং কৌশল এবং আরও অত্যাধুনিক অ্যালাইনমেন্ট পদ্ধতি। প্রত্যেকেই যেন ট্রান্সফরমার ভবনের উচ্চ-স্তরের অভ্যন্তরীণ সজ্জার কাজ করছে।

২০১৫ সালে ResNet গবেষণাপত্রটি প্রকাশিত হওয়ার পর থেকে একটি বিষয় প্রায় অপরিবর্তিত রয়েছে: রেসিড্যুয়াল কানেকশন।

এই প্রযুক্তিটি বুঝতে হলে, প্রথমে বড় মডেলটির ভেতরের মৌলিক কাঠামো সম্পর্কে জানতে হবে।

আধুনিক বৃহৎ মডেলগুলো আসলে কয়েক ডজন থেকে শত শত স্তর পর্যন্ত বিস্তৃত নিউরাল নেটওয়ার্কের অনেকগুলো স্তর দিয়ে গঠিত। নিচ থেকে তথ্য গ্রহণ করে তা স্তর পর স্তর ওপরে পাঠানো হয়, যেখানে প্রতিটি স্তর তথ্য প্রক্রিয়াকরণ করে এবং অবশেষে একেবারে ওপরে ফলাফলটি প্রদান করে।

আপনি এটিকে একটি অ্যাসেম্বলি লাইনের কর্মীদের মতো করে ভাবতে পারেন: প্রথম প্রক্রিয়া থেকে কাঁচামাল আসে, প্রত্যেক কর্মী সেগুলো প্রক্রিয়াজাত করে, তারপর সেগুলো পরের জনের কাছে পাঠানো হয় এবং অবশেষে চূড়ান্ত পণ্যটি তৈরি হয়। সমস্যা হলো, অ্যাসেম্বলি লাইন যত দীর্ঘ হয়, কর্মীদের প্রশিক্ষণ দেওয়া তত কঠিন হয়ে পড়ে।

ধরা যাক, ৫০তম প্রক্রিয়ার একজন কর্মী একটি ভুল করেছে এবং আপনি সেটি সংশোধন করতে চান। এই 'সংশোধন সংকেত'টি প্রথম কর্মীর কাছে পৌঁছানোর আগে ৪৯ জন কর্মীর মধ্য দিয়ে ফেরত পাঠাতে হয়। সংকেতটি প্রেরিত হওয়ার সাথে সাথেই অদৃশ্য হয়ে যায় এবং নিচের স্তরের কর্মীরা বুঝতে পারে না সমস্যাটি কোথায় ঘটেছে।

এই ধরনের ডিপ নেটওয়ার্কের প্রশিক্ষণ সম্ভব করার জন্য, প্রখ্যাত গবেষক কাইমিং হে-র দল ২০১৫ সালে "Deep Residual Learning for Image Recognition" শিরোনামে একটি গবেষণাপত্র প্রকাশ করে, যেখানে রেসিডুয়াল কানেকশনস (Residual Connections) নামক একটি মূল নকশা প্রবর্তন করা হয়।

প্রতিটি স্তর তথ্য প্রক্রিয়াকরণ করার সময় একটি "সরল পথ" বজায় রাখে, যা মূল ইনপুটকে কোনো পরিবর্তন ছাড়াই প্রক্রিয়াকৃত ফলাফলের সাথে যুক্ত করে এবং তারপর সেটিকে নিচের স্তরে প্রেরণ করে। এই সরল পথটি ব্যাকপ্রোপাগেশনের সময় গ্রেডিয়েন্টকে মধ্যবর্তী রূপান্তরগুলো এড়িয়ে সরাসরি সর্বনিম্ন স্তরে প্রবাহিত হতে সাহায্য করে, যা ডিপ নেটওয়ার্কগুলোকে প্রশিক্ষণ দেওয়ার কঠিন সমস্যার একটি মৌলিক সমাধান করে।

সহজ কথায়, এর মানে হলো প্রতিটি প্রক্রিয়াকরণ ধাপের পাশে একটি 'সরাসরি পথ' যোগ করা, যা কাঁচামালকে সেই ধাপটি এড়িয়ে যেতে এবং লাইনের পরবর্তী ধাপে যাওয়ার আগে সরাসরি প্রক্রিয়াজাত ফলাফলের সাথে মিশে যেতে সাহায্য করে। এইভাবে, ত্রুটি সংশোধনের সংকেতগুলো হারিয়ে না গিয়ে সরাসরি পথ ধরে মসৃণভাবে নিচের স্তরে ফিরে যেতে পারে।

এই গবেষণাপত্রটি পরবর্তীকালে কম্পিউটার ভিশন এবং এমনকি ডিপ লার্নিং-এর সমগ্র ক্ষেত্রের অন্যতম সর্বাধিক উদ্ধৃত গবেষণাপত্রে পরিণত হয়। রেসিডুয়াল কানেকশন আজও ব্যবহৃত হয় এবং প্রায় সকল বৃহৎ মডেলের ভিত্তিপ্রস্তর।

যদিও রেসিডুয়াল কানেকশনগুলো কার্যকর, তবে এদের তথ্য একত্রীকরণের পদ্ধতিটি খুবই অপরিশীলিত: এরা পূর্ববর্তী সমস্ত লেয়ারের আউটপুটগুলোকে কোনো পার্থক্য ছাড়াই সমান গুরুত্ব দিয়ে একসাথে যোগ করে।

চলুন, আবার একটি অ্যাসেম্বলি লাইনের উপমা ব্যবহার করা যাক। ৫১তম ধাপে এসে কর্মীটি পূর্ববর্তী ৫০টি ধাপের উৎপাদিত পণ্যের সমান পরিমাণ পায়, যেখানে প্রতিটি ধাপের উৎপাদিত পণ্য একটি নির্দিষ্ট অংশকে বোঝায়, এর বেশিও নয়, কমও নয়। সে বলতে পারে না, “আমি ৩য় ধাপ থেকে আরও কাঁচামাল চাই,” কিংবা সে এটাও বলতে পারে না যে, “২০তম ধাপের উৎপাদিত পণ্য আমার কোনো কাজে আসবে না, আমাকে কম দিন।”

এর ফলে প্রি-নর্ম ডাইলুশন নামক একটি বাস্তব সমস্যা দেখা দেয়: নেটওয়ার্ক যত গভীর হয় এবং সঞ্চিত তথ্যের পরিমাণ যত বাড়ে, বিশাল মোট পরিমাণের মধ্যে প্রতিটি স্তরের অবদান ততই নগণ্য হয়ে পড়ে। স্তর যত পরের দিকে থাকে, তার আউটপুটকে "শোনা" যাওয়ার জন্য তত বড় হতে হয়, নতুবা তা চাপা পড়ে যায়।

এর ফলে, অনেক মধ্যবর্তী স্তর আসলে তাদের কাজ সঠিকভাবে করে না। বিদ্যমান গবেষণায় দেখা গেছে যে, বড় মডেল থেকে উল্লেখযোগ্য সংখ্যক স্তর অপসারণ করলেও কর্মক্ষমতার ক্ষেত্রে প্রায় কোনো পার্থক্য হয় না, যা ইঙ্গিত দেয় যে এই স্তরগুলির অবদান আসলে অত্যন্ত সীমিত।

বেশিরভাগ দলই দীর্ঘদিন ধরে এই সমস্যা সম্পর্কে অবগত এবং এটিকে এড়িয়ে চলার পথ বেছে নিয়েছে; এর পরিবর্তে তারা তাদের বিদ্যমান আর্কিটেকচারে আরও ভালো ডেটা রেশিও, আরও পরিশীলিত প্রশিক্ষণ কৌশল এবং দীর্ঘতর কনটেক্সট উইন্ডো যুক্ত করেছে। এই কাজটি নিঃসন্দেহে মূল্যবান, কিন্তু এটি মূলত একটি বিদ্যমান প্রযুক্তিগত কাঠামোর মধ্যে ক্রমবর্ধমান অপ্টিমাইজেশন।

কিমি আরও একাকী ও কঠিন একটি পথ বেছে নিয়েছিলেন: সবচেয়ে মৌলিক কাঠামোতে ফিরে যাওয়া এবং প্রথম নীতিগুলো ব্যবহার করে সেই ‘স্বাভাবিক বলে ধরে নেওয়া’ নকশাগুলোকে পুনরায় পরীক্ষা করা।

আজ ভোরে, GTC 2026-এ দেওয়া তাঁর ভাষণে কিমি-র প্রতিষ্ঠাতা ইয়াং ঝিলিন উল্লেখ করেন: "বর্তমানে শিল্পে ব্যবহৃত অনেক প্রযুক্তিগত মান মূলত আট-নয় বছর আগের উদ্ভাবন, এবং এগুলো ক্রমান্বয়ে ব্যবসার প্রসারের ক্ষেত্রে প্রতিবন্ধকতা হয়ে দাঁড়াচ্ছে।"

ইয়াং ঝিলিন বিশ্বাস করেন যে, বৃহৎ মডেলের বুদ্ধিমত্তার ঊর্ধ্বসীমা ক্রমাগত অতিক্রম করার জন্য অপটিমাইজার, অ্যাটেনশন মেকানিজম এবং রেসিড্যুয়াল কানেকশনের মতো অন্তর্নিহিত ভিত্তি পুনর্গঠন করা প্রয়োজন।

একটি সুন্দর "ঘূর্ণন"

কিমির দলের গবেষণাপত্রের মূল যুগান্তকারী সাফল্যটি আসলে একটি চমৎকার সাদৃশ্য আবিষ্কার থেকে এসেছে।

প্রাথমিক রিকারেন্ট নিউরাল নেটওয়ার্ক (আরএনএন)-গুলোর টেক্সট সিকোয়েন্স প্রক্রিয়াকরণের ক্ষেত্রে একই ধরনের আরেকটি অতিরিক্ত সমস্যা ছিল: দুর্বল স্মৃতিশক্তি। একটি সম্পূর্ণ অনুচ্ছেদ পড়ার পর, আগের পড়া বিষয়বস্তু পরের বিষয়বস্তু দ্বারা ক্রমাগত মুছে যেত এবং শেষ শব্দে পৌঁছানোর আগেই আগের কয়েকটি বাক্যের বিষয়বস্তু অস্পষ্ট হয়ে যেত।

পরবর্তীতে, ট্রান্সফর্মার একটি অ্যাটেনশন মেকানিজমের মাধ্যমে এই সমস্যার সমাধান করে, যা মডেলটিকে একটি 'সম্পূর্ণ টেক্সট নোট' দেওয়ার সমতুল্য। প্রতিটি শব্দ প্রসেস করার সময়, এটি পূর্বে ব্যবহৃত যেকোনো শব্দ খুঁজে দেখতে পারে, এবং কোথায় ও কতগুলো শব্দ খুঁজতে হবে তা বর্তমান কন্টেন্ট দ্বারাই নির্ধারিত হয়।

গবেষকরা আবিষ্কার করেছেন যে, গভীরতার দিকে রেসিড্যুয়াল কানেকশনগুলোর সম্মুখীন হওয়া সমস্যা এবং সময়ের দিকে RNN-গুলোর সম্মুখীন হওয়া সমস্যার গাণিতিক কাঠামো হুবহু একই। অন্য কথায়, ট্রান্সফর্মারটিকে একটি দ্বি-মাত্রিক মেশ হিসেবে কল্পনা করুন:

অনুভূমিক অক্ষটি একটি বাক্যের প্রতিটি শব্দের ক্রমিক দিক নির্দেশ করে, যা বাম থেকে ডানে বিস্তৃত; উল্লম্ব অক্ষটি নেটওয়ার্কের সর্বনিম্ন স্তর থেকে সর্বোচ্চ স্তর পর্যন্ত গভীরতার দিক নির্দেশ করে। প্রচলিত অ্যাটেনশন মেকানিজমগুলো অনুভূমিক অক্ষ বরাবর কাজ করে এবং একটি নির্দিষ্ট শব্দ প্রক্রিয়াকরণের সময় একই স্তরের অন্যান্য শব্দের তথ্য যাচাই করে।

অ্যাটেনশন রেসিডুয়ালস যা করে তা হলো, এটি হুবহু একই প্রক্রিয়াটিকে উল্লম্ব অক্ষের উপর ঘুরিয়ে দেয়। কোনো একটি নির্দিষ্ট লেয়ার প্রসেস করার সময়, এটি পূর্ববর্তী সমস্ত লেয়ারের আউটপুট দেখে নির্ধারণ করে যে কোন লেয়ারগুলোকে এবং কতগুলো লেয়ারকে রেফার করতে হবে। অপারেশনের উদ্দেশ্য 'একই লেয়ারের বিভিন্ন শব্দ' থেকে পরিবর্তিত হয়ে 'বিভিন্ন লেয়ারে একই শব্দের অবস্থা'-তে পরিণত হয়। প্রক্রিয়াটি হুবহু একই থাকে, যেন এর দিকটি ৯০ ডিগ্রি ঘোরানো হয়েছে।

যেহেতু অ্যাটেনশন মেকানিজম সিকোয়েন্সের অভিমুখের সমস্যার সমাধান করে, তাই এটিকে ডেপথ ডিরেকশনে ঘোরালেও একই রকম কার্যকর হয়।

এখানে উল্লেখ করার মতো একটি গভীরতর তাত্ত্বিক আবিষ্কার রয়েছে। গবেষকরা গাণিতিক বিশ্লেষণের মাধ্যমে আবিষ্কার করেছেন যে, গত দশকে রেসিড্যুয়াল কানেকশনের সমস্ত উন্নতি—যার মধ্যে স্ট্যান্ডার্ড রেসিড্যুয়াল, হাইওয়ে নেটওয়ার্ক, এমএইচসি এবং এর বিভিন্ন রূপ অন্তর্ভুক্ত—আসলে একই জিনিসের গাণিতিকভাবে ভিন্ন ভিন্ন রূপ, যা সবই এক ধরনের ‘ডেপথ-ওরিয়েন্টেড লিনিয়ার অ্যাটেনশন’-এর সমতুল্য। অন্য কথায়, সবাই একই দিকে কাজ করে যাচ্ছিল, কিন্তু আমরা সেই সময়ে তা বুঝতে পারিনি।

AttnRes-এর মূল ধারণাটি হলো অ্যাটেনশন মেকানিজমকে 'টেক্সট সিকোয়েন্স প্রসেসিং'-এর মাত্রা থেকে 'নেটওয়ার্ক ডেপথ অতিক্রম করা'-র মাত্রায় প্রতিস্থাপন করা।

নির্দিষ্ট পদ্ধতিটি হলো প্রতিটি স্তরকে একটি ছোট 'কোয়েরি ভেক্টর' দিয়ে সজ্জিত করা, অনেকটা প্রতিটি প্রক্রিয়ার কর্মীদের একটি চাহিদার তালিকা দেওয়ার মতোই। কাজ শুরু করার আগে, কর্মীরা চাহিদার তালিকাটি ব্যবহার করে পূর্ববর্তী সমস্ত প্রক্রিয়ার উৎপাদিত পণ্য পর্যালোচনা করেন, প্রাসঙ্গিকতার ভিত্তিতে ব্যবহারের অনুপাতের একটি সেট গণনা করেন এবং তারপর এই অনুপাত অনুযায়ী প্রয়োজনীয় কাঁচামাল মিশ্রিত করেন।

এইভাবে, প্রতিটি লেয়ার আর নিষ্ক্রিয়ভাবে পূর্ববর্তী সমস্ত লেয়ারের আউটপুটগুলোর সমান গুরুত্বের যোগফল গ্রহণ করে না, বরং সক্রিয়ভাবে এবং বেছে বেছে সিদ্ধান্ত নেয় যে কোন লেয়ার থেকে কী পরিমাণ তথ্য আহরণ করা হবে, এবং বর্তমান কাজের বিষয়বস্তু অনুযায়ী এই অনুপাতগুলোও গতিশীলভাবে পরিবর্তিত হয়। প্রতিটি লেয়ার কেবল একটি ভেক্টর এবং একটি নর্মালাইজেশন অপারেশন যোগ করে, এবং পুরো মডেলটির জন্য প্যারামিটারের সংখ্যা বৃদ্ধি প্রায় নগণ্য।

প্রশিক্ষণের প্রাথমিক পর্যায়ে স্থিতিশীলতা নিশ্চিত করতে, এই কোয়েরি ভেক্টরটিকে অবশ্যই সব শূন্য দিয়ে শুরু করতে হবে। এর অর্থ হলো, শুরুতে কর্মীদের কোনো পছন্দ না রাখা এবং পূর্ববর্তী সমস্ত আউটপুটকে সমানভাবে বিবেচনা করা, যাতে প্রশিক্ষণ অগ্রসর হওয়ার সাথে সাথে তারা ধীরে ধীরে নিজেদের বিচার-বিবেচনা তৈরি করতে পারে।

উল্লেখ্য যে, গবেষকরা এর একটি আরও আমূল সংস্করণও পরীক্ষা করেছিলেন: নির্দিষ্ট প্যারামিটার ব্যবহারের পরিবর্তে, প্রতিটি লেয়ারে বর্তমান ইনপুটের উপর ভিত্তি করে কোয়েরি ভেক্টরটি গতিশীলভাবে তৈরি করা হয়েছিল। এই সংস্করণটি প্রকৃতপক্ষে আরও ভালো ফল দিয়েছিল এবং এর লস ভ্যালু আরও কমে গিয়েছিল।

তবে, এই পদ্ধতিটি শেষ পর্যন্ত গ্রহণ করা হয়নি, কারণ এর জন্য ইনফারেন্সের সময় অনুক্রমিক মেমরি অ্যাক্সেসের প্রয়োজন হয়, যা ল্যাটেন্সি বাড়িয়ে দিত। এই আপসটি পুরো গবেষণাপত্র জুড়ে থাকা প্রকৌশল দর্শনকেই প্রতিফলিত করে: তাত্ত্বিকভাবে একটি উন্নততর সমাধানই যে বাস্তবে বেছে নেওয়ার মতো হবে, এমনটা জরুরি নয়।

বৃহৎ আকারের মডেলের জন্য সকল নতুন প্রযুক্তিকে শেষ পর্যন্ত এই বাধাটি অতিক্রম করতে হয়।

Full AttnRes ছোট আকারের পরীক্ষায় ভালোভাবে কাজ করে, কিন্তু বড় আকারের প্রশিক্ষণের ক্ষেত্রে এটি সমস্যায় পড়ে।

এর জন্য প্রতিটি লেয়ারকে তার পূর্ববর্তী সমস্ত লেয়ারের আউটপুট অ্যাক্সেস করতে হয়। মডেলটিতে একশোরও বেশি লেয়ার রয়েছে, এবং প্রতিটি লেয়ারের আউটপুট মেমরিতে সংরক্ষণ করে বিভিন্ন কম্পিউটিং নোডের মধ্যে আদান-প্রদান করতে হয়। লেয়ারের সংখ্যার সাথে মেমরি এবং কমিউনিকেশন ওভারহেড রৈখিকভাবে বৃদ্ধি পায়, যা বড় মডেলের জন্য একেবারেই অসহনীয়।

কিমির দলের সমাধানটি খুবই বাস্তবসম্মত: ব্লক অ্যাটেনশন রেসিডুয়াল কানেকশন (Block AttnRes)। তারা নেটওয়ার্কের সমস্ত লেয়ারকে কয়েকটি ব্লকে ভাগ করে (৪৮বি মডেলে ৮-৯টি ব্লক, প্রতিটি ব্লকে প্রায় ৬টি লেয়ার থাকে)। প্রতিটি ব্লকের মধ্যে প্রচলিত রেসিডুয়াল কানেকশন ব্যবহার করা হয়, আর ব্লকগুলোর মধ্যে সফটম্যাক্স অ্যাটেনশন ব্যবহার করা হয়। সহজ কথায় বলতে গেলে—প্রতিটি ফ্লোরে লিফটের প্রয়োজন নেই; গুরুত্বপূর্ণ ফ্লোরগুলোর মধ্যে একটি দ্রুত যাতায়াতের পথই যথেষ্ট।

এইভাবে, সংরক্ষণ ও প্রেরণের জন্য প্রয়োজনীয় ডেটার পরিমাণ 'মোট লেয়ার সংখ্যা' থেকে 'ব্লক সংখ্যা'-তে হ্রাস পায়, যা ওভারহেড উল্লেখযোগ্যভাবে কমিয়ে দেয়। পরীক্ষায় দেখা গেছে যে, ডেটাকে প্রায় ৮টি ব্লকে ভাগ করলে পূর্ণাঙ্গ পদ্ধতির কর্মক্ষমতার উন্নতির বেশিরভাগই বজায় থাকে।

সুনির্দিষ্ট প্রকৌশলগত বাস্তবায়নের ক্ষেত্রে, দলটি দুটি অপ্টিমাইজেশনও করেছে।

ট্রেনিং পর্যায়টি একটি ক্রস-স্টেজ ক্যাশিং মেকানিজম দিয়ে ডিজাইন করা হয়েছে। পাইপলাইন প্যারালাল ট্রেনিং-এ, প্রতিবার একটি স্টেজ পরিবর্তন করার সময় সম্পূর্ণ হিস্ট্রি পুনরায় পাঠানোর পরিবর্তে, শুধুমাত্র নতুন যোগ করা ছোট ডেটা ব্লকটি পাঠানো হয়। প্রকৃত পরীক্ষায়, সামগ্রিক ট্রেনিং ওভারহেড ৪%-এর বেশি হয় না।

ইনফারেন্স পর্যায়টি একটি দ্বি-পর্যায়ের গণনা কৌশল দিয়ে ডিজাইন করা হয়েছে, যা একীভূত প্রক্রিয়াকরণের জন্য সমস্ত কোয়েরিকে একটি ব্লকে একটি একক ম্যাট্রিক্স অপারেশনে প্যাকেজ করে এবং বারবার মেমরি অ্যাক্সেসের ব্যয়ভার হ্রাস করে, যাতে চূড়ান্ত ইনফারেন্স ল্যাটেন্সি ২%-এর বেশি বৃদ্ধি না পায়।

তাহলে পরীক্ষাটি কেমন হলো? গবেষকরা বিভিন্ন আকারের পাঁচটি মডেল পরীক্ষা করেছিলেন।

ফলাফল থেকে দেখা যায় যে, Block AttnRes সকল স্কেলে কম ভ্যালিডেশন লস সহ বেসলাইনকে ছাড়িয়ে যায়, এবং স্কেল বাড়ার সাথে সাথে এই উন্নতি স্থিতিশীল থাকে। ফিটেড কার্ভগুলোর উপর ভিত্তি করে, Block AttnRes বেসলাইন মডেলের সমান কম্পিউটেশনাল খরচ অর্জন করে, যার জন্য ১.২৫ গুণ বেশি কম্পিউটেশনাল পাওয়ার প্রয়োজন হয়।

৪৮ বিলিয়ন প্যারামিটার (৩ বিলিয়ন অ্যাক্টিভেশন) বিশিষ্ট একটি কিমি লিনিয়ার আর্কিটেকচারের পরীক্ষায়, ব্লক অ্যাটেনরেস শক্তিশালী জেনারালাইজেশন প্রদর্শন করেছে: এটি ১৫টি মূলধারার বেঞ্চমার্কের সবকটিতেই প্রি-নর্ম বেসলাইন মডেলের সমান বা তার চেয়ে ভালো পারফর্ম করেছে।

উদাহরণস্বরূপ, এটি ডক্টরেট-স্তরের বৈজ্ঞানিক যুক্তিবিদ্যা GPQA-Diamond-এ ৭.৫% উল্লম্ফন অর্জন করেছে এবং Math (+৩.৬%) ও HumanEval (+৩.১%) কোড জেনারেশন টাস্কগুলিতেও উল্লেখযোগ্য অগ্রগতি নথিভুক্ত করেছে।

প্রশিক্ষণ প্রক্রিয়া থেকে দেখা যায় যে, বেসলাইন মডেলের প্রতিটি লেয়ারের আউটপুট মান গভীরতার সাথে একরৈখিকভাবে বৃদ্ধি পায়, যা PreNorm-এর ডাইলুশন সমস্যাকে নিশ্চিত করে; অপরদিকে, AttnRes-এর প্রতিটি লেয়ারের আউটপুট মান ব্লক সীমানায় রিসেট হয়ে যায়, যা পর্যায়ক্রমিক পরিবর্তন প্রদর্শন করে এবং প্রতিটি লেয়ারের গ্রেডিয়েন্ট বিন্যাস আরও সুষম হয়, যা নির্দেশ করে যে আরও বেশি লেয়ার কার্যকর শিক্ষণে সত্যিই জড়িত।

এছাড়াও, গবেষকরা প্রশিক্ষিত মডেল দ্বারা শেখা অ্যাটেনশন ওয়েটগুলোকে দৃশ্যমান করে বেশ কিছু আকর্ষণীয় প্যাটার্ন আবিষ্কার করেছেন।

প্রতিটি স্তর এখনও তার ঠিক পূর্ববর্তী স্তরের আউটপুটের উপর ব্যাপকভাবে নির্ভর করে, এবং স্থানিকতাই তথ্য প্রবাহের প্রাথমিক মাধ্যম হিসেবে রয়ে গেছে। তবে, কিছু লিপফ্রগ সংযোগের উদ্ভব ঘটেছে, যেমন কিছু স্তর স্থিতিশীলভাবে একেবারে পূর্ববর্তী স্তরগুলিতে ফিরে যায়, এবং অন্যগুলি প্রাথমিক ওয়ার্ড এমবেডিং আউটপুটের প্রতি বিশেষ মনোযোগ দেয়।

আরেকটি বৈশিষ্ট্য হলো, অ্যাটেনশন লেয়ার এবং এমএলপি লেয়ারের "লুক-ব্যাক" প্যাটার্ন ভিন্ন হয়: অ্যাটেনশন লেয়ারগুলো একটি বৃহত্তর ঐতিহাসিক প্রেক্ষাপটের উপর মনোযোগ দেয়, অপরদিকে এমএলপি লেয়ারগুলো নিকটতম প্রতিবেশী লেয়ারগুলোর উপর বেশি নির্ভর করে। এটি মডেলের মধ্যে তাদের কার্যকরী শ্রম বিভাজনের সাথে সামঞ্জস্যপূর্ণ।

AttnRes ভবিষ্যৎ মডেল ডিজাইনের জন্য একটি মূল্যবান তথ্যও প্রদান করেছে। গবেষকরা, একটি নির্দিষ্ট মোট গণনাগত ব্যয় এবং প্যারামিটার সংখ্যা ব্যবহার করে, ২৫টি ভিন্ন গভীরতা-প্রস্থের সমন্বয় গণনা করেছেন এবং বেসলাইন মডেলের সাথে AttnRes-এর পছন্দের সর্বোত্তম স্থাপত্যের তুলনা করেছেন।

ফলাফল থেকে দেখা যায় যে, স্ট্যান্ডার্ড রেসিডুয়াল কানেকশনগুলো "প্রশস্ততর প্রস্থ এবং কম স্তর" যুক্ত মডেলগুলোকে সমর্থন করে, অপরদিকে AttnRes-এর অপটিমাল পয়েন্টগুলো "সংকীর্ণতর প্রস্থ এবং অধিক স্তর" যুক্ত মডেলগুলোকে সমর্থন করে। এটি নির্দেশ করে যে AttnRes গভীরতাকে আরও কার্যকরভাবে ব্যবহার করতে পারে, এবং এটি নিশ্চিত করে যে প্রতিটি অতিরিক্ত স্তর সত্যিই মূল্য তৈরি করে, গভীরতাকে ক্রমহ্রাসমান প্রান্তিক প্রতিদানসহ নিছক একটি সঞ্চয়ে পরিণত না করে।

এই আবিষ্কারের তাৎপর্য এর চেয়েও সুদূরপ্রসারী। এর অর্থ হলো, AttnRes কেবল বিদ্যমান আর্কিটেকচারের একটি সাময়িক সমাধান নয়, বরং এটি নেটওয়ার্ক ডেপথ ব্যবহারের দক্ষতায় একটি মৌলিক পরিবর্তন এবং ভবিষ্যতে বড় মডেল ডিজাইন করার সময় ডেপথ ও উইডথ রিসোর্স কীভাবে বরাদ্দ করতে হবে, তার জন্য একটি নতুন নির্দেশিকা প্রদান করে।

ইয়াং ঝিলিন একবার উল্লেখ করেছিলেন যে, দশ বছর আগে ব্যাপারটা এমন ছিল না যে ভালো ধারণার অভাব ছিল, বরং সেগুলো যাচাই করার মতো কম্পিউটিং ক্ষমতা ছিল না। এখন, পর্যাপ্ত সম্পদ এবং একটি ‘ক্রমবিকাশমান ধাপ’ থাকায়, সেই স্থগিত প্রশ্নগুলোর অবশেষে গুরুত্ব সহকারে উত্তর দেওয়া সম্ভব হচ্ছে।

প্রভাবশালী ব্যক্তিদের পছন্দের আড়ালে রয়েছে সময়ের এক সন্ধিক্ষণ।

কোনো চীনা দলের পক্ষে তাদের মৌলিক স্থাপত্য উদ্ভাবনের জন্য সিলিকন ভ্যালির শীর্ষস্থানীয় ব্যক্তিদের কাছ থেকে উল্লেখযোগ্য স্বীকৃতি পাওয়া অত্যন্ত বিরল। তাদের এই স্বীকৃতি শুধু গবেষণাপত্রটির জন্যই নয়, বরং এই কারণেও যে কিমির গবেষণাপত্রটি একটি সম্পূর্ণ নতুন দিকের ইঙ্গিত দেয়: অপটিমাইজেশন এখন অ্যাটেনশন এবং MoE-এর মতো উচ্চ-স্তরের মডিউল থেকে সরে এসে সবচেয়ে মৌলিক রেসিডুয়াল কানেকশনের দিকে ঝুঁকেছে।

তার GTC 2026 উপস্থাপনায়, ইয়াং ঝিলিন বেশ কিছু অন্তর্নিহিত প্রযুক্তিগত উদ্ভাবনও প্রকাশ করেছেন: MuonClip অপটিমাইজারটি AdamW-এর তুলনায় গণনাগত দক্ষতায় ২ গুণ উন্নতি সাধন করে—উল্লেখ্য যে, Adam অপটিমাইজারটি ২০১৪ সাল থেকে কার্যত অপ্রতিদ্বন্দ্বী রয়েছে এবং ডিপ লার্নিং-এর ক্ষেত্রে একটি "অস্পর্শনীয়" প্রযুক্তি হিসেবে বিবেচিত হয়; Kimi Linear (KDA আর্কিটেকচার) ১২৮ হাজার থেকে লক্ষ লক্ষ অক্ষর পর্যন্ত বিস্তৃত অতি-দীর্ঘ প্রেক্ষাপটে ৫-৬ গুণ ডিকোডিং গতি অর্জন করে; এবং Vision RL-এর ক্রস-মোডাল প্রশিক্ষণ এমনকি প্লেইন টেক্সট বেঞ্চমার্ককে প্রায় ২.১% উন্নত করেছে।

ইয়াং ঝিলিন এই উদ্ভাবনগুলোকে একটি ত্রি-মাত্রিক স্কেলিং কাঠামোতে সংক্ষিপ্ত করেছেন: টোকেন দক্ষতা × দীর্ঘ প্রেক্ষাপট × এজেন্ট সোয়ার্ম।

বর্তমান স্কেলিং এখন আর কেবল সম্পদ জড়ো করার বিষয় নয়, বরং একই সাথে কম্পিউটিং দক্ষতা, দীর্ঘমেয়াদী মেমরি এবং স্বয়ংক্রিয় সহযোগিতার ক্ষেত্রে ব্যয় সাশ্রয় খুঁজে বের করা।

যে কোম্পানি অপটিমাইজার, রেসিডুয়াল কানেকশন, অ্যাটেনশন আর্কিটেকচার এবং ক্রস-মোডাল ট্রেনিং-এর মতো সমস্ত মৌলিক প্রতিদ্বন্দ্বিতার ক্ষেত্রে একই সাথে অগ্রগতি লাভ করে, তা এই শিল্পে বেশ অনন্য।

এই কারণেই জেরি টোরেক "ডিপ লার্নিং ২.০"-এর ধারণাটি দিয়েছিলেন। অবশ্যই, এর মানে এই নয় যে অ্যাটেনশন রেসিডুয়ালস পেপারটি সবকিছু পাল্টে দিতে পারে, বরং এটি একটি নতুন পদ্ধতির দিকে ফিরে যাওয়ার ইঙ্গিত দেয়: যা বিদ্যমান ফ্রেমওয়ার্কগুলোকে জোড়াতালি দিয়ে সন্তুষ্ট না থেকে, বরং সেই পরিকাঠামোকে নতুন করে পরীক্ষা করে দেখবে, যাকে সবাই "সমাধান হয়ে যাওয়া সমস্যা" বলে মনে করে।

যদি রেসিডুয়াল কানেকশনগুলোকে নতুন করে ডিজাইন করা যায়, তাহলে অ্যাডাম অপটিমাইজার, লেয়ার নর্মালাইজেশন বা লোকেশন এনকোডিংয়ের কী হবে? ডিপ লার্নিংয়ের মৌলিক ধারণাটিই বদলে যাচ্ছে, এবং একবার এই দরজা খুলে গেলে, এর পরবর্তী ঘটনাপ্রবাহ আর সরলরৈখিক অনুমানের মাধ্যমে ভবিষ্যদ্বাণী করা যাবে না।

কার্পাথির এই পর্যবেক্ষণ যে "মনোযোগই যথেষ্ট" কথাটি এখনও পুরোপুরি বোঝা যায়নি, তা সম্ভবত এই মনোভাবকেই প্রতিফলিত করে।

বিগত কয়েক বছরে, চীনা এআই দলগুলোর অবদান মূলত ইঞ্জিনিয়ারিং বাস্তবায়ন এবং অ্যাপ্লিকেশন উদ্ভাবনের উপরই বেশি কেন্দ্রীভূত ছিল, এবং এর অন্তর্নিহিত স্থাপত্য তত্ত্বে মৌলিক সাফল্যের পরিমাণ ছিল তুলনামূলকভাবে কম। কিমির গবেষণাপত্রটি সম্পূর্ণ ভিন্ন একটি পন্থা অবলম্বন করেছে—একটি সমন্বিত তাত্ত্বিক কাঠামো, একটি চমৎকার ইঞ্জিনিয়ারিং বাস্তবায়ন এবং কঠোর বৃহৎ পরিসরের পরীক্ষামূলক যাচাইকরণ।

অবশ্যই, কিমির গবেষণাপত্রটি এখনও অনেক প্রশ্নের উত্তর দেয়নি। বৃহৎ পরিসরের যাচাইকরণটি ৪৮ বিলিয়ন মোট প্যারামিটার (৩ বিলিয়ন অ্যাক্টিভেশন প্যারামিটার) বিশিষ্ট একটি মডেলের উপর করা হয়েছিল, যা আজকের মানদণ্ডেও খুব বড় মাপের নয়। সত্যিকারের বহু-বিলিয়ন বা এমনকি ট্রিলিয়ন-প্যারামিটার মডেলেও ১.২৫ গুণ সমতুল্য সুবিধাটি বজায় রাখা যাবে কিনা, তা সময়ই বলে দেবে।

অন্যদিকে, গবেষণাপত্রটি শুধুমাত্র প্রাক-প্রশিক্ষণ পর্যায়ের সুবিধাগুলোই তুলে ধরেছে। নির্দেশনা সূক্ষ্মকরণ এবং আরএলএইচএফ (RLHF)-এর মতো প্রশিক্ষণ-পরবর্তী পদক্ষেপগুলোর পরে অ্যাটনরেস (AttnRes)-এর সুবিধাগুলো হ্রাস পাবে কিনা, সে বিষয়ে তথ্যের অভাব রয়েছে।

তবে, এই সীমাবদ্ধতাগুলোই আসলে কল্পনার উৎস। মাত্র ১০০ লাইনের মতো কোডের প্রয়োজন হয় এমন একটি সামান্য পরিবর্তন, যা ট্রেনিং ওভারহেড ৪%-এরও কম বাড়ায়, তা ৪৮ বিলিয়ন স্কেলে এই ধরনের উন্নতি আনতে পারে।

যখন এটি একটি বৃহত্তর পরবর্তী প্রজন্মের মডেলে প্রয়োগ করা হয়, তখন লাভের সর্বোচ্চ সীমা কোথায় গিয়ে দাঁড়াবে, তা কেউ নিশ্চিত করে বলতে পারে না।

অ্যাটেনশন রেসিডুয়ালস টোকেন দক্ষতার সর্বোচ্চ সীমা বাড়ায়, কিমি লিনিয়ার দীর্ঘ প্রেক্ষাপটের পরিধি প্রসারিত করে, এবং এজেন্ট সোয়ার্মস এজেন্ট সহযোগিতার ভবিষ্যতের দিকে ইঙ্গিত করে। যখন পরবর্তী প্রজন্মের মডেলগুলিতে এই তিনটি প্রযুক্তিগত ধারা একত্রিত হবে, তখন তা একটি নতুন দৃষ্টান্তমূলক পরিবর্তন আনতে পারে।

এআই-এর ব্যাবিলনের টাওয়ার নির্মাণে সবাই ইট আর টালি বসাতে ব্যস্ত, কিন্তু কিমি ঝুঁকে পড়ে রাস্তার ভিত্তির মধ্যে একটা ভারী কোদাল ঢুকিয়ে দিল, যা ঘটনাক্রমে ডিপ লার্নিং-এর ভিত্তিকেই ফাঁক করে দিল।

লেখক: মো চংইউ, লি চাওফান

iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট iFanr (WeChat ID: ifanr) ফলো করুন, যেখানে যত তাড়াতাড়ি সম্ভব আপনার জন্য আরও আকর্ষণীয় কন্টেন্ট উপস্থাপন করা হবে।