একটি গবেষণা পত্রের জেরে মেমোরি চিপের শেয়ারের দামে ধস নেমেছে; এটি কি গুগলের সেই ‘ডিপসিক মুহূর্ত’?

যারা এইচবিও-এর ধারাবাহিক 'সিলিকন ভ্যালি' দেখেছেন, তাদের নিশ্চয়ই পাইড পাইপার নামের কাল্পনিক কোম্পানিটির কথা মনে থাকবে।

এই শো-তে প্রধান চরিত্র রিচার্ড হেন্ড্রিক্স একটি "মধ্যবর্তী কম্প্রেশন অ্যালগরিদম" আবিষ্কার করেন, যা অত্যন্ত উচ্চ কম্প্রেশন হারে ফাইলকে কোনো ডেটা না হারিয়ে প্রসেস করতে পারে এবং এর ফলস্বরূপ তিনি পুরো ইন্টারনেটের নিয়মকানুনই নতুন করে লিখে ফেলেন।

তখন আমরা সবাই ভেবেছিলাম এটা শুধু একজন চিত্রনাট্যকারের উদ্ভট ভাবনা। কিন্তু গুগল রিসার্চ আনুষ্ঠানিকভাবে টার্বোকোয়ান্ট নামের একটি এআই কম্প্রেশন অ্যালগরিদম প্রকাশ করার পরই সেই ধারণা পাল্টে যায়।

মূলত একটি নীরস প্রযুক্তিগত সংবাদ সামাজিক মাধ্যমে ভাইরাল হয়ে যায় এবং ২৪ ঘণ্টারও কম সময়ে ১ কোটি ২৮ লক্ষ ভিউ অর্জন করে। এর কারণটি খুবই সহজ: প্রযুক্তিটির নকশাটি কার্যত পাইড পাইপারের হুবহু নকল।

মডেলের কর্মক্ষমতা অক্ষুণ্ণ রেখে এআই-এর 'ওয়ার্কিং মেমোরি' কমপক্ষে ৬ গুণ সংকুচিত করা হয়।

বাজারের প্রতিক্রিয়াও ছিল খুবই বাস্তবসম্মত, সেশন চলাকালীন মার্কিন মেমোরি চিপ খাতে ব্যাপক বিক্রি দেখা যায় এবং মাইক্রন টেকনোলজি ও স্যানডিস্কের মতো শীর্ষস্থানীয় কোম্পানিগুলোর শেয়ারের দাম কমে দিনের লেনদেন শেষ করে।

এতে প্রশ্ন ওঠে: কেন সম্পূর্ণ সফটওয়্যার-ভিত্তিক একটি অ্যালগরিদমিক উদ্ভাবন প্রথমে হার্ডওয়্যার বিক্রেতাদের মধ্যে আতঙ্ক সৃষ্টি করবে, এবং বর্তমান এআই অঙ্গনে গুগল কী ধরনের তুরুপের তাস ফেলেছে?

'মেমরি ব্ল্যাক হোল'-এ আটকে পড়া বিশাল মডেলটি

ইন্টারনেট মিমের কথা বাদ দিলে, টার্বোকোয়ান্টের আবির্ভাব শুধু মজার জন্য নয়, বরং এটি এমন একটি বাস্তব প্রতিবন্ধকতা সমাধানের জন্য যা দীর্ঘদিন ধরে সমগ্র এআই শিল্পকে জর্জরিত করে রেখেছে।

আমরা সবাই জানি, বর্তমান এআই মডেলগুলো দিন দিন আরও বড় হচ্ছে এবং জিপিইউ মেমোরির প্রতি এদের চাহিদা যেন এক অতল গহ্বর। বিশেষ করে ইনফারেন্স পর্যায়ে (অর্থাৎ, যখন এআই-এর সাথে যোগাযোগ করা হয়), এআই-কে প্রাসঙ্গিক তথ্য মনে রাখতে হয় এবং ডেটার এই অংশটিকে কেভি ক্যাশ (কী-ভ্যালু ক্যাশ) বলা হয়।

প্রক্রিয়াকৃত প্রতিটি শব্দের জন্য, মডেলটি সেটিকে একটি উচ্চ-মাত্রিক ভেক্টরে রূপান্তরিত করে এবং জিপিইউ-এর মেমরিতে সংরক্ষণ করে। কথোপকথন যত দীর্ঘ হয়, এই "ডিজিটাল মেমো" তত দ্রুত প্রসারিত হয় এবং দ্রুত জিপিইউ-এর মেমরি পূর্ণ করে ফেলে। এই কারণেই দীর্ঘ কথোপকথনের পর আপনার এআই অ্যাসিস্ট্যান্ট "বোকা হয়ে যেতে পারে" বা এমনকি ভুলও দেখাতে পারে—কারণ এর মস্তিষ্কের ক্ষমতা অপর্যাপ্ত।

এর চেয়েও বড় চ্যালেঞ্জ হলো সেই উভয়সংকট, যার সম্মুখীন প্রচলিত কম্প্রেশন পদ্ধতিগুলো বরাবরই হয়ে আসছে: ডেটা কম্প্রেস করার সময়, মডেলকে তা কীভাবে ডিকম্প্রেস করতে হবে তা জানানোর জন্য অতিরিক্ত 'কোয়ান্টাইজেশন কনস্ট্যান্ট' সংরক্ষণ করতে হয়। এই মেটাডেটাগুলোকে সামান্য মনে হতে পারে, কিন্তু সবগুলো একসাথে যোগ করলে তা কম্প্রেশনের সমস্ত সুবিধাকে পুরোপুরি নষ্ট করে দিতে পারে।

এর উপর ভিত্তি করে গুগলের টার্বোকোয়ান্ট তৈরি করা হয়েছিল।

গবেষকরা একটি দ্বি-পর্যায়ের গাণিতিক সমাধান তৈরি করেছেন। প্রথম পর্যায়টি, যার নাম পোলারকোয়ান্ট (PolarQuant), ডেটা ভেক্টরকে প্রচলিত কার্টেসিয়ান স্থানাঙ্ক ব্যবস্থা থেকে পোলার স্থানাঙ্ক ব্যবস্থায় রূপান্তরিত করে এবং এটিকে 'ব্যাসার্ধ' (যা মান নির্দেশ করে) ও 'কোণ' (যা দিক নির্দেশ করে)-এ বিভক্ত করে।

এই জ্যামিতিক রূপান্তরের সৌন্দর্য হলো এই যে, রূপান্তরের পর কোণগুলোর বিন্যাস অত্যন্ত অনুমানযোগ্য হয়ে ওঠে এবং মডেলটিকে আর প্রতিটি ডেটা ব্লকের জন্য আলাদাভাবে ব্যয়বহুল নর্মালাইজেশন কনস্ট্যান্ট সংরক্ষণ করতে হয় না। এটিকে কোনো অতিরিক্ত ঝামেলা ছাড়াই সরাসরি একটি নির্দিষ্ট বৃত্তাকার গ্রিডে ম্যাপ করা যায়।

দ্বিতীয় পর্যায়কে QJL (কোয়ান্টাইজেশন জনসন-লিন্ডেনস্ট্রস ট্রান্সফর্ম) বলা হয়, যা একটি গাণিতিক ত্রুটি সংশোধনকারী হিসেবে কাজ করে। এটি কম্প্রেশনের পর অবশিষ্ট ত্রুটিকে একটি নিম্ন-মাত্রিক স্থানে প্রক্ষেপণ করে এবং তারপর প্রতিটি ত্রুটির মানকে একটি সাইন বিটে (+1 বা -1) সংকুচিত করে।

এই নকশাটি নিশ্চিত করে যে, যখন এআই ‘অ্যাটেনশন স্কোর’ গণনা করে, তখন সংকুচিত সংস্করণের ফলাফলটি উচ্চ-নির্ভুল মূল সংস্করণের সাথে পরিসংখ্যানগতভাবে অভিন্ন হয়। কোনো প্রেক্ষাপটে কোন শব্দগুলো সবচেয়ে গুরুত্বপূর্ণ, তা মডেলের বিচারে অ্যাটেনশন স্কোর একটি মূল ধাপ।

যদি আগে এআই-এর নোট নেওয়া মানে 'হুবহু শব্দে শব্দে নকল করা' হতো, তাহলে টার্বোকোয়ান্ট হলো একগুচ্ছ 'ন্যূনতম সাংকেতিক চিহ্ন' আবিষ্কার করার মতো: এটি যা কিছু লিপিবদ্ধ করা প্রয়োজন, তার সবই লিপিবদ্ধ করে, কিন্তু ছয় গুণ কম জায়গা নেয়।

এই পদ্ধতির আরেকটি বিশেষ এন্টারপ্রাইজ-বান্ধব বৈশিষ্ট্য হলো: মডেলটিকে পুনরায় প্রশিক্ষণ দেওয়ার প্রয়োজন নেই। আপনার বিদ্যমান ওপেন-সোর্স মডেল, অথবা আপনার নিজের সূক্ষ্মভাবে টিউন করা মডেল, অতিরিক্ত ডেটাসেট বা পুনরায় প্রশিক্ষণ প্রক্রিয়ার মধ্য দিয়ে না গিয়েই সরাসরি টার্বোকোয়ান্ট-এ প্রয়োগ ও চালানো যেতে পারে।

কথায় কিছু যায় আসে না। ‘খড়ের গাদায় সূঁচ খোঁজা’ বেঞ্চমার্ক পরীক্ষায়, টার্বোকোয়ান্ট Llama-3.1-8B এবং Mistral-7B-তে নিখুঁত রিকল রেট অর্জন করেছে, এবং একই সাথে KV Cache-এর GPU মেমোরি ব্যবহার অন্তত ৬ গুণ কমিয়ে এনেছে।

LongBench-এর ব্যাপক মূল্যায়ন স্যুটে (যার মধ্যে প্রশ্নোত্তর, কোড জেনারেশন এবং দীর্ঘ প্রবন্ধের সারসংক্ষেপ অন্তর্ভুক্ত), TurboQuant পূর্ববর্তী সবচেয়ে শক্তিশালী বেসলাইন পদ্ধতি KIVI-এর সমকক্ষতা দেখায় এবং এমনকি তাকেও ছাড়িয়ে যায়।

সবচেয়ে নির্ভরযোগ্য তথ্যগুলো এসেছে এনভিডিয়া এইচ১০০ জিপিইউ (NVIDIA H100 GPU) ব্যবহার করে করা বাস্তব পরীক্ষা থেকে: অ্যাটেনশন লজিক গণনার ক্ষেত্রে ৪-বিট প্রিসিশন টার্বোকোয়ান্ট (TurboQuant) আনকম্প্রেসড ৩২-বিট সলিউশনের চেয়ে পুরো ৮ গুণ দ্রুততর।

গবেষণাপত্রটি প্রকাশের ২৪ ঘণ্টার মধ্যেই সম্প্রদায়টি তা যাচাই করতে শুরু করে দিয়েছিল।

@Prince_Canuma, Apple Silicon MLX ফ্রেমওয়ার্কের একজন সুপরিচিত ডেভেলপার, অ্যালগরিদমটিকে Apple Silicon MLX ফ্রেমওয়ার্কে পোর্ট করেছেন। Qwen3.5-35B মডেলটি পরীক্ষা করে, ৮৫০০ থেকে ৬৪০০০ টোকেন পর্যন্ত কনটেক্সট দৈর্ঘ্য কভার করে, তিনি প্রতিটি কোয়ান্টাইজেশন লেভেলের জন্য ১০০% এক্স্যাক্ট ম্যাচিং অর্জন করেছেন। তিনি আরও দেখেছেন যে ২.৫-বিট টার্বোকোয়ান্ট নির্ভুলতার কোনো ক্ষতি ছাড়াই KV ক্যাশে প্রায় ৫ গুণ সংকুচিত করতে পারে।

গুগলের 'ডিপসিক মুহূর্ত'?

ক্লাউডফ্লেয়ারের সিইও ম্যাথিউ প্রিন্স টার্বোকোয়ান্টের উন্মোচনকে গুগলের 'ডিপসিক মুহূর্ত' বলেও অভিহিত করেছেন।

এক বছর আগে ফিরে তাকালে দেখা যায়, ডিপসিক অত্যন্ত কম খরচে বিস্ময়কর পারফরম্যান্সের একটি মডেল তৈরি করেছিল, যা সিলিকন ভ্যালির বড় বড় সংস্থাগুলোর এই ধারণাটিকে পুরোপুরি ভেঙে দিয়েছিল যে উচ্চ-পারফরম্যান্সের এআই প্রশিক্ষণের জন্য উচ্চ ব্যয় অপরিহার্য। এই ধাক্কাটি পুরো ইন্ডাস্ট্রিকে এটাও উপলব্ধি করিয়েছিল যে, একটি বড় মডেল থাকাই যথেষ্ট নয়; এটিকে চলতে সক্ষম হতে হবে এবং দ্রুত চলতে হবে।

টার্বোকোয়ান্ট এই প্রেক্ষাপটেরই একটি ফসল। এই প্রযুক্তি যদি পরীক্ষাগার থেকে বৃহৎ পরিসরের প্রয়োগে আসতে পারে, তবে এটি দৃশ্যমান বাণিজ্যিক মূল্য বয়ে আনবে। তাত্ত্বিকভাবে, একই H100-এর ইনফারেন্স খরচ ৫০%-এর বেশি কমানো সম্ভব; এজ ডেপ্লয়মেন্টের জন্য প্রয়োজনীয় শর্তও ব্যাপকভাবে হ্রাস পাবে। যে সকল বৃহৎ মডেলের জন্য পূর্বে ৩২-বিট প্রিসিশনের প্রয়োজন হতো, সেগুলো এখন কোনো গুণগত মান না হারিয়েই একটি ম্যাক মিনি বা লোকাল সার্ভারে চালানো যাবে।

বাজারের প্রতিক্রিয়া অনেক কিছুই বলে দেয়। টার্বোকোয়ান্ট যেদিন তাদের প্রতিবেদন প্রকাশ করে, সেদিন লেনদেনের দিন মার্কিন মেমোরি চিপ খাতে ব্যাপক বিক্রয় চাপ দেখা যায়। স্যানডিস্ক এবং মাইক্রন টেকনোলজির মতো শীর্ষস্থানীয় কোম্পানিগুলোর শেয়ারের দামে বড় ধরনের পতন ঘটে এবং মেমোরি চিপ ও হার্ডওয়্যার সরবরাহ শৃঙ্খল-সম্পর্কিত সূচকটি একদিনেই ২ শতাংশের বেশি হ্রাস পায়।

এর কারণ হলো, যদি এআই জায়ান্টরা একটি বিশুদ্ধ সফটওয়্যার অ্যালগরিদম ব্যবহার করে জিপিইউ মেমরির প্রয়োজনীয়তা পাঁচ-ষষ্ঠাংশ কমিয়ে আনতে পারে, তাহলে যারা এআই-এর উচ্চ-ব্যান্ডউইথ জিপিইউ মেমরি ব্যবহার অব্যাহত রাখার ওপর বাজি ধরেছেন, তাদের নিজেদের অবস্থান পুনর্বিবেচনা করতে হবে।

এই রক্ষণাত্মক প্রতিক্রিয়া থেকে আরও বোঝা যায় যে, গত দুই বছর ধরে স্টোরেজ স্টকগুলোর মূল্যায়নের পেছনে অন্যতম মূল যুক্তি ছিল যে, ভিডিও মেমরির জন্য এআই-এর চাহিদা কেবল বাড়তেই থাকবে। টার্বোকোয়ান্ট প্রথমবারের মতো প্রযুক্তিগত পর্যায়ে আনুষ্ঠানিকভাবে এই অনুমানটিকে চ্যালেঞ্জ করেছে।

অবশ্যই, যদিও এটা শুনতে চমৎকার লাগছে, তবুও আমাকে এর ওপর ঠান্ডা জল ঢালতে হবে।

একদিকে, ঐতিহাসিকভাবে, প্রতিটি কর্মদক্ষতার উন্নতি প্রায়শই সামগ্রিক চাহিদা বৃদ্ধিতে ভূমিকা রেখেছে, যা অর্থনীতিতে 'জেভেন্স প্যারাডক্স' নামে পরিচিত একটি ঘটনা। কৃত্রিম বুদ্ধিমত্তার খরচ কমার অর্থ হতে পারে যে আরও বেশি মানুষ এটি আরও ঘন ঘন ব্যবহার করবে, যা শেষ পর্যন্ত আরও বেশি কম্পিউটিং শক্তি খরচ করবে। সুতরাং, এটি বর্তমান 'মেমরি সংকট' সমাধান করবে কিনা, তা সময়ই বলে দেবে।

অন্যদিকে, টার্বোকোয়ান্ট এখনও পরীক্ষাগার পর্যায়ে রয়েছে। সর্বশেষ খবর অনুযায়ী, গুগল আগামী মাসে অনুষ্ঠিতব্য ICLR 2026 সম্মেলনে আনুষ্ঠানিকভাবে এই প্রযুক্তিটি প্রদর্শন করার পরিকল্পনা করছে এবং এটি AISTATS 2026 নামক আরেকটি শীর্ষ সম্মেলনেও তুলে ধরা হবে।

তবে, অ্যাকাডেমিক গবেষণাপত্র থেকে বৃহৎ পরিসরে উৎপাদন পর্যন্ত যাত্রাপথটি নানা চ্যালেঞ্জে পরিপূর্ণ, যার মধ্যে রয়েছে ইঞ্জিনিয়ারিং অভিযোজন, বিভিন্ন আর্কিটেকচারের সামঞ্জস্যতা পরীক্ষা এবং বাস্তব পরিস্থিতিতে কর্মক্ষমতা যাচাই। প্রতিটি ধাপই শ্রমসাধ্য।

▲গবেষণাপত্রের লিঙ্ক: https://arxiv.org/abs/2504.19874

কিছু নেটিজেন সরাসরি গবেষণাপত্রটির সমালোচনা করে বলেছেন যে, এর ভিত্তি গবেষণাটি আসলে গত বছরের এপ্রিল মাসেই প্রকাশিত হয়েছিল এবং এটি কোনো আকস্মিক বিষয় নয়। বর্তমান জনমতের এই আলোড়ন অনেকটা পুরোনো খবরের প্রতিক্রিয়া মাত্র।

তার মতে, একটি অ্যালগরিদম পেপারের কারণে যদি মজুত পণ্যের দাম হুট করে কমে যায়, তবে তা এটাই প্রকাশ করে যে বাজারের বহু মানুষ এই বিষয়টির সীমারেখা একেবারেই বোঝেন না। তিনি এই প্রতিক্রিয়াকে “টয়োটা যখন একটি নতুন হাইব্রিড ইঞ্জিন বাজারে আনবে, তখন তেলের দাম ধসে পড়া উচিত”-এর সাথে তুলনা করেছেন।

আরও গুরুত্বপূর্ণ বিষয় হলো, টার্বোকোয়ান্ট শুধুমাত্র ইনফারেন্স পর্বের মেমোরি প্রতিবন্ধকতা দূর করে; ট্রেনিং পর্বের মেমোরি ব্যবহার একটি বড় চ্যালেঞ্জ হিসেবেই থেকে যায়। একেবারে গোড়া থেকে একটি হাই-ট্র্যাফিক মডেলকে ট্রেনিং দিতে এখনও বিপুল পরিমাণ কম্পিউটিং শক্তির প্রয়োজন হয়।

*সিলিকন ভ্যালি* চলচ্চিত্রে, পাইড পাইপারের কম্প্রেশন অ্যালগরিদম শেষ পর্যন্ত পুরো ইন্টারনেটে বৈপ্লবিক পরিবর্তন এনেছিল। কিন্তু বাস্তবে, টার্বোকোয়ান্টের উচ্চাকাঙ্ক্ষা ততটা মহৎ নয়; এর লক্ষ্য হলো একটি সীমিত ভৌত পরিসরের মধ্যে কৃত্রিম বুদ্ধিমত্তাকে আরও বেশি মনে রাখতে, দ্রুত গণনা করতে এবং কম খরচে কাজ করতে সক্ষম করা।

বাস্তবতা কোনো হলিউডি চিত্রনাট্য নয়। আমাদের ইন্টারনেটকে পুরোপুরি বদলে ফেলার কোনো প্রয়োজন নেই। মাঝপথে বিকল না হয়ে এআই-এর সাথে দীর্ঘক্ষণ কথা বলতে পারাটাই ইতোমধ্যে বহু মানুষ চায়।

সাথে টার্বোকোয়ান্টের অফিসিয়াল টেকনিক্যাল ব্লগটি সংযুক্ত করা হলো:

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট: iFanr (WeChat ID: ifanr) ফলো করুন, যেখানে যত তাড়াতাড়ি সম্ভব আপনার জন্য আরও আকর্ষণীয় কন্টেন্ট উপস্থাপন করা হবে।