লিন জুনিয়াং-এর প্রস্থানের ৪৮ ঘন্টা: উইচ্যাট মুহূর্তগুলির উপর একটি পোস্ট, একটি ছোট মডেল এবং একটি ট্রিলিয়ন ডলারের অনুমান

"মূল পরিকল্পনাটি চালিয়ে যান।"

তার চলে যাওয়া নিয়ে গুজবের তুঙ্গে থাকাকালীন, কোয়েন দলের একজন গুরুত্বপূর্ণ ব্যক্তিত্ব লিন জুনিয়াং তার উইচ্যাট মোমেন্টসে দুটি বাক্য পোস্ট করেছিলেন:

"কুয়েনের ভাইয়েরা, পরিকল্পনা অনুযায়ী এগিয়ে যাও, কোন সমস্যা নেই।"

"সব ব্যবস্থা করা হয়েছে"? এর মানে কী?

লিন জুনিয়াং চলে যাওয়ার ঠিক আগে, কিউয়েন টিম এমন একটি জিনিস প্রকাশ করে যা বিশ্বব্যাপী ডেভেলপার সম্প্রদায়ে ভাইরাল হয়ে যায়: কিউয়েন 3.5 স্মল সিরিজ, যার প্যারামিটার 0.8B থেকে 9B পর্যন্ত, বিশেষভাবে এজ ডিভাইসের জন্য ডিজাইন করা হয়েছে এবং সাধারণ ল্যাপটপে চলতে সক্ষম।

এটি একটি বৃহত্তর মডেল থাকার বিষয়ে নয় – এটি ছোট মডেলের একটি সেট থাকার বিষয়ে। গত তিন বছরে AI শিল্পে সবচেয়ে শক্তিশালী ঐক্যমত্য হল "বড় হলে ভালো"। OpenAI-এর স্যাম অল্টম্যান কম্পিউটিং অবকাঠামো তৈরির জন্য ট্রিলিয়ন ডলার সংগ্রহের জন্য লড়াই করছেন, এবং ল্যাবগুলি অস্ত্র প্রতিযোগিতায় লিপ্ত হয়েছে, নগদ এবং সম্পদের মাধ্যমে পুড়িয়ে দিচ্ছে, সবকিছুই একই অন্তর্নিহিত ধারণার উপর ভিত্তি করে: মডেল যত বড় হবে, তত স্মার্ট হবে।

এই যুক্তিটি স্কেলিং আইন নামে পরিচিত। এটি কেবল একটি প্রযুক্তিগত নিয়ম নয়, বরং এটি একটি বিশ্বাসের মতো – সমগ্র শিল্পের অর্থায়নের বিবরণ, প্রতিভা বরাদ্দ এবং হার্ডওয়্যার বিনিয়োগ সবকিছুই এই ভিত্তির উপর ভিত্তি করে।

কিন্তু কুয়েন ৩.৫ স্মলের মুক্তি এবং লিন জুনিয়াংয়ের প্রস্থান একই সাথে ঘটেছিল। একটি টেকনিক্যাল সিগন্যাল এবং একটি পার্সোনেল সিগন্যাল একসাথে জড়িয়ে আরও জটিল গল্প তৈরি করে: ছোট মডেলটির সাথে ঠিক কী ঘটছে? কেন এটি গুরুত্বপূর্ণ?

যখন 9B 120B কে পরাজিত করে

এমনকি নন-ডেভেলপাররাও বেঞ্চমার্ক পরীক্ষার মাধ্যমে Qwen 3.5 এর কর্মক্ষমতা সম্পর্কে এক ঝলক পেতে পারেন:

Qwen 3.5 Small সিরিজে, 9B প্যারামিটার মডেলটি একাধিক বেঞ্চমার্ক পরীক্ষায় OpenAI-এর gpt-oss-120B-কে ছাড়িয়ে গেছে—যা ১৩ গুণ বেশি প্যারামিটার সহ একটি মডেল—।

পেরিফেরাল মেট্রিক্সের ক্ষেত্রে এগুলি ছোটখাটো সুবিধা নয়, বরং মূল অনুমানমূলক কার্যগুলিতে একটি পদ্ধতিগত নেতৃত্ব। একটি ল্যাপটপে ফিট করতে পারে এমন একটি মডেল ব্যাপকভাবে এমন একটি প্রতিপক্ষকে ছাড়িয়ে গেছে যার গাণিতিক, বৈজ্ঞানিক এবং ভিজ্যুয়াল যুক্তির কার্যগুলিতে ডেটা সেন্টার-গ্রেড হার্ডওয়্যার চালানোর প্রয়োজন হয়।

অবশ্যই, সত্যি কথা বলতে, gpt-oss-120B OpenAI-এর ফ্ল্যাগশিপ পণ্য নয়, বরং এটি এর ওপেন ওয়েটের একটি মিড-রেঞ্জ অফার। তদুপরি, এটি MoE আর্কিটেকচার ব্যবহার করে এবং 120B প্যারামিটারের জন্য নামমাত্র রেট দেওয়া হয়, কিন্তু প্রতিটি টোকেন আসলে মাত্র 5.1B প্যারামিটার সক্রিয় করে—তাই প্যারামিটার গণনার পার্থক্যটি ইঞ্জিনিয়ারিং স্তরে কাগজে সংখ্যার মতো তাৎপর্যপূর্ণ নয়।

তবে, এটি প্রবণতার বৈধতাকে অস্বীকার করে না, কারণ Qwen 3.5 Small কোনও বিচ্ছিন্ন ঘটনা নয়।

প্রায় একই সময়ে, নেচার একটি ক্ষুদ্রাকৃতির পুনরাবৃত্ত মডেল (TRM) রিপোর্ট করেছে যা ARC-AGI লজিক পরীক্ষায় বেশ কয়েকটি শীর্ষ-পারফর্মিং বৃহৎ ভাষা মডেলকে ছাড়িয়ে গেছে। গুগল রিসার্চ ২০২৬ সালের গোড়ার দিকে একটি গবেষণাপত্র প্রকাশ করে যা দেখায় যে ছোট মডেলগুলি ইন্টেন্ট এক্সট্রাকশন টাস্কে উল্লেখযোগ্যভাবে বৃহত্তর মডেলগুলিকে ছাড়িয়ে যায়। PNAS-এর একটি গবেষণা আরও সরাসরি ছিল – মডেলের আকার এবং প্ররোচনামূলকতার উপর একটি তীব্র হ্রাসপ্রাপ্ত রিটার্ন রয়েছে; একটি নির্দিষ্ট বিন্দুর পরে, বৃহত্তর ফলন প্রায় কোনও উন্নতি হয় না।

ওয়াল স্ট্রিট জার্নাল ২০২৫ সালের অক্টোবরের প্রথম দিকেই সাহস করে বলেছিল, "বড় মডেলরা সমস্ত মনোযোগ আকর্ষণ করে, কিন্তু ছোট মডেলরাই আসলে কাজটি করে।"

এই সব সংকেত একটিই সিদ্ধান্তে পৌঁছায়: ছোট বিনিয়োগের মাধ্যমে বড় লাভ অর্জন কোনও বিচ্ছিন্ন ঘটনা নয়, বরং একটি অনিবার্য প্রবণতা।

তাহলে এখানে প্রশ্ন হল—কী কারণে একটি ছোট মডেল এত বিশেষ?

এটি কোনও বৃহৎ পরিসরের স্ট্যান্ড-ইন সাহিত্য নয়।

স্বজ্ঞাতভাবে, মানুষ ছোট মডেলগুলিকে "বড় মডেলের বিকল্প" হিসেবে ভাবতে থাকে—একই পদ্ধতি, স্কেলে ছোট এবং সামান্য খারাপ কর্মক্ষমতা সহ, কিন্তু সস্তা।

কিন্তু সত্যটি সম্পূর্ণ বিপরীত: আজকের ছোট মডেলগুলি সীমিত সম্পদের সাথে দুর্দান্ত ফলাফল অর্জন করতে পারে তার কারণ হল তারা বৃহৎ মডেলগুলির তুলনায় প্রযুক্তিগত পদ্ধতির দিক থেকে সম্পূর্ণ ভিন্ন পথ গ্রহণ করেছে।

প্রথমত, ডেটার মান ডেটা স্কেলের চেয়েও বেশি। বৃহৎ মডেলের দৃষ্টিভঙ্গি হল "যতটা সম্ভব ইন্টারনেট ডেটা গ্রাস করা", অন্যদিকে ছোট মডেলের দৃষ্টিভঙ্গি – যেমন মাইক্রোসফ্টের Phi-4 সিরিজ – একটি নির্বাচনী দৃষ্টিভঙ্গি গ্রহণ করে: উচ্চ-মানের সিন্থেটিক ডেটা কঠোরভাবে নির্বাচিত পাবলিক ডেটাসেটের সাথে একত্রিত করে, যা মডেলটিকে কম ডেটাতে আরও সঠিকভাবে শিখতে দেয়। অন্তর্নিহিত যুক্তিটি মৌলিক: এটি "আপনি যত বেশি খাওয়াবেন, আপনি তত বেশি স্মার্ট হবেন" নয়, বরং "আপনি যত ভাল শিখবেন, আপনার শেখা তত বেশি পরিশীলিত হবে"।

দ্বিতীয়ত, নেটিভ মাল্টিমোডাল ডিজাইন অ্যাডাপ্টার স্প্লাইসিংকে প্রতিস্থাপন করে। ঐতিহ্যবাহী পদ্ধতি হল প্রথমে একটি বৃহৎ, বিশুদ্ধ টেক্সট মডেলকে প্রশিক্ষণ দেওয়া, এবং তারপর অ্যাডাপ্টার মডিউলের মাধ্যমে ছবি, ভিডিও এবং অডিও ক্ষমতাগুলিকে একীভূত করা। Qwen 3.5 একটি সম্পূর্ণ ভিন্ন স্থাপত্য ব্যবহার করে: এটি একই সুপ্ত স্থানে ভিজ্যুয়াল এবং টেক্সট টোকেনগুলিকে যৌথভাবে প্রশিক্ষণ দেয়, যা এটিকে শুরু থেকে মাল্টিমোডাল করে তোলে। এর অর্থ এটি এমন একটি মডেল যা সহজাতভাবে টেক্সট এবং ছবি উভয়ই বোঝে। এই স্থাপত্যটি আসলে অল্প সংখ্যক প্যারামিটারের সাথে আরও সুবিধাজনক কারণ এটি অতিরিক্ত অ্যাডাপ্টার ওভারহেডের প্রয়োজনীয়তা দূর করে।

তৃতীয়ত, কোয়ান্টাইজেশন প্রযুক্তি কেবল কম্প্রেশনের চেয়েও বেশি কিছু নিয়ে আসে। 4-বিট কোয়ান্টাইজেশনকে প্রায়শই "স্টোরেজ বাঁচাতে মডেলটিকে 4 গুণ কমপ্যাক্ট করা" হিসাবে বোঝানো হয়, তবে এর আসল তাৎপর্য মেমরি থ্রুপুট 4 গুণ কমানোর মধ্যে নিহিত। এজ ডিভাইসগুলিতে, বাধা প্রায়শই স্টোরেজ স্পেস নয়, বরং মেমরি ব্যান্ডউইথ, অর্থাৎ, মেমরি থেকে প্রসেসরে ডেটা স্থানান্তরিত করার গতি। কোয়ান্টাইজেশন প্রযুক্তি ছোট মডেলগুলিকে ব্যান্ডউইথ-সীমাবদ্ধ মোবাইল ফোন এবং ল্যাপটপে একটি নির্ধারক গতির সুবিধা দেয়।

এই পদ্ধতিগত সাফল্যগুলি পণ্যগুলিতে রূপান্তরিত হতে শুরু করেছে। মার্চের প্রথম সপ্তাহে, অ্যাপল সম্পূর্ণ M5 চিপ লাইনআপ প্রকাশ করেছে, প্রতিটি GPU কোরে একটি অন্তর্নির্মিত নিউরাল অ্যাক্সিলারেটর রয়েছে, যা M1 এর 8 গুণ পর্যন্ত AI কর্মক্ষমতা প্রদান করে। একই সাথে, অ্যাপল রিসার্চ ফেরেট-UI লাইট উন্মোচন করেছে – একটি ডিভাইস-সাইড GUI এজেন্ট যার মাত্র 3 বাইট প্যারামিটার রয়েছে, যা স্থানীয়ভাবে মোবাইল এবং ডেস্কটপ অ্যাপ্লিকেশন নিয়ন্ত্রণ করতে সক্ষম। অ্যাপল ইন্টেলিজেন্সের প্রায় 3-বাইট ডিভাইস-সাইড ফাউন্ডেশনাল মডেলের সাথে মিলিত হয়ে, অ্যাপল "অন-ডিভাইস AI" কে একটি ধারণা থেকে একটি পণ্য আকারে এগিয়ে নিয়ে যাচ্ছে যা চিপ, মডেল এবং মিথস্ক্রিয়াকে একীভূত করে।

মাইক্রোসফটের Phi-4 মাল্টিমোডাল Azure-এ বাণিজ্যিকভাবে স্থাপনা শুরু করেছে, যার প্যারামিটার 3.8B, যা টেক্সট, অডিও এবং ইমেজ ইনপুট গ্রহণ করে। ওপেন-সোর্স সম্প্রদায়ের প্রতিক্রিয়া আরও সরাসরি – Reddit-এর ডেভেলপাররা পরীক্ষার পর, Qwen 3.5-এর 4B সংস্করণটিকে একটি "সুইট স্পট" মডেল হিসাবে বিবেচনা করে: সমস্ত কাজে স্থিতিশীল, ক্র্যাশ-মুক্ত এবং সংস্করণ 9B-এর তুলনায় উল্লেখযোগ্যভাবে দ্রুত।

প্রযুক্তিগত পদ্ধতি বৈধ হয়েছে, উৎপাদনশীলতার মোড় এসেছে, এবং ভোরের প্রথম আলো ফুটছে।

ঠিক সেই মুহূর্তে, লিন জুনিয়াং চলে যাওয়ার সিদ্ধান্ত নেন।

ছোট মডেল তৈরিতে যে কোম্পানি সবচেয়ে ভালো, সেই কোম্পানিরই সফল হওয়ার জন্য সবচেয়ে কম প্রেরণা থাকে।

Qwen 3.5 Small প্রকাশের পর থেকে ডেভেলপার সম্প্রদায়ের কাছ থেকে ব্যাপক স্বীকৃতি পেয়েছে, ওপেন-সোর্স সম্প্রদায়ের পর্যালোচনাগুলি এমনকি অফিসিয়াল প্রকাশের ঘোষণাকেও ছাড়িয়ে গেছে।

তবে, তিনি যে কোম্পানিতে কাজ করেন তার নাম আলিবাবা, এবং আলিবাবার ব্যবসায়িক ইঞ্জিন হল আলিবাবা ক্লাউড।

বৃহৎ মডেল এবং ক্লাউড কম্পিউটিং-এর মধ্যে একটি স্বাভাবিক ইতিবাচক প্রতিক্রিয়া চক্র রয়েছে: মডেল যত বড় হবে, অনুমানের জন্য তত বেশি কম্পিউটিং শক্তির প্রয়োজন হবে এবং গ্রাহকদের ক্লাউড কম্পিউটিং পরিষেবা কেনার প্রয়োজন তত বেশি হবে। আলিবাবা ক্লাউডের জন্য, বৃহৎ মডেলগুলি নিখুঁত ব্যবসায়িক আখ্যান – তারা একই সাথে গ্রাহকদের কম্পিউটিং শক্তির চাহিদা এবং ক্লাউড প্ল্যাটফর্মের উপর তাদের নির্ভরতা বৃদ্ধি করে।

ছোট মডেলের পেছনের যুক্তি ঠিক বিপরীত। ছোট মডেলের মূল মূল্য হলো মোবাইল ফোন, ল্যাপটপ এবং এজ সার্ভারের মতো এজ ডিভাইসে চালানোর ক্ষমতা। এর অর্থ গ্রাহকরা ক্লাউডকে এড়িয়ে স্থানীয়ভাবে অনুমান সম্পূর্ণ করতে পারবেন। ব্যবহারকারীদের জন্য, এটি কম খরচ, উন্নত গোপনীয়তা এবং কম লেটেন্সিতে অনুবাদ করে। কিন্তু আলিবাবা ক্লাউডের জন্য, এর অর্থ রাজস্ব ক্ষয়।

Qwen 3.5 Small যত ভালো করবে, আলিবাবা ক্লাউডের ব্যবসায়িক বর্ণনার জন্য এটি তত বেশি বিব্রতকর হয়ে উঠবে।

এটি কেবল আলিবাবার জন্যই সমস্যা নয়। চীনের টেক জায়ান্টদের দিকে তাকালে দেখা যায়, প্রায় সকল শীর্ষস্থানীয় এআই কোম্পানি একই কাঠামোগত দ্বন্দ্বের সম্মুখীন। বাইদু এবং টেনসেন্ট আলিবাবার মতোই পরিস্থিতিতে রয়েছে—তাদের ব্যবসায়িক মডেলগুলি ক্লাউড পরিষেবা এবং প্ল্যাটফর্মের রাজস্ব ভাগাভাগির উপর নির্মিত, এবং প্রান্ত-ভিত্তিক, ছোট-স্কেল মডেলগুলির প্রবণতা সরাসরি তাদের মূল্য প্রস্তাবকে দুর্বল করে দেয়।

বাইটড্যান্সের ডুবাও ফোনটি একটি আকর্ষণীয় ব্যতিক্রম, কিন্তু বাইটড্যান্স হার্ডওয়্যার তৈরিতে সবেমাত্র শুরু করছে এবং "চিপ + অপারেটিং সিস্টেম + মডেল" এর একটি উল্লম্বভাবে সমন্বিত ক্ষমতা প্রতিষ্ঠা করা থেকে অনেক দূরে।

তাত্ত্বিকভাবে হুয়াওয়ে সবচেয়ে ভালো অবস্থানে আছে, তাদের কাছে চিপ এবং টার্মিনাল সরঞ্জাম উভয়ই রয়েছে। তবে, নিষেধাজ্ঞার প্রভাবে, এর সীমিত কম্পিউটিং শক্তি এটিকে একটি ছোট-স্কেল মডেল পদ্ধতি গ্রহণ করতে বাধ্য করে, যা একটি সক্রিয় কৌশলগত পছন্দের চেয়ে একটি নিষ্ক্রিয় বেঁচে থাকার কৌশল। Xiaomi, OPPO এবং vivo এর ক্ষেত্রে, তাদের সরঞ্জাম আছে কিন্তু তারা AI-প্রথম কোম্পানি নয়, স্ব-উন্নত মডেলের জন্য জিন এবং ক্রমাগত বিনিয়োগের প্রেরণার অভাব রয়েছে।

বিশ্বব্যাপী, কেবলমাত্র একটি কোম্পানিই হতে পারে যারা এজ এআই-এর পুরো স্তুপটি সত্যিকার অর্থে আয়ত্ত করেছে: অ্যাপল। এটি সবকিছুর মালিক: চিপস, ডিভাইস, অপারেটিং সিস্টেম এবং নিজস্ব মালিকানাধীন মডেল। অ্যাপলের চালিকা শক্তি আসে তার বৈচিত্র্যময় ব্যবসায়িক মডেল থেকে, যা এটিকে ডিভাইসে যতটা সম্ভব কম্পিউটিং রাখতে বাধ্য করে, কারণ এজ এআই অভিজ্ঞতার প্রতিটি উন্নতি হার্ডওয়্যার প্রিমিয়াম এবং ইকোসিস্টেম স্টিকিনেসকে রূপান্তরিত করে।

তবে, আমাদের সততার সাথে একটি সম্ভাব্য আপত্তির সমাধান করতে হবে: ক্লাউড বিক্রেতারা কি "এজ-ক্লাউড সহযোগিতা" পদ্ধতি গ্রহণ করতে পারে না? প্রান্তে প্রবেশ বিন্দু হিসাবে একটি ছোট মডেল ব্যবহার করুন এবং ক্লাউডে ফিরে কল করে জটিল অনুমানমূলক কাজগুলি প্রক্রিয়া করুন, যাতে কোনও পক্ষই অবহেলিত না হয়।

তাত্ত্বিকভাবে, এটা সম্ভব। কিন্তু এটি সমস্যাটিকে সঠিকভাবে চিত্রিত করে – এজ-ক্লাউড সহযোগিতার কাঠামোর মধ্যে, ছোট মডেলগুলি ক্লাউড বিক্রেতাদের জন্য "ট্রাফিক অধিগ্রহণের সরঞ্জাম", "স্বাধীন পণ্য" নয়। ক্লাউড বিক্রেতাদের ছোট মডেলগুলিকে এত ভালো করে তোলার কোনও উৎসাহ নেই যে তাদের আর ক্লাউডের প্রয়োজন নেই।

আরেকটি অনিবার্য পাল্টা উদাহরণ হল মাইক্রোসফট, একটি ক্লাউড সরবরাহকারী, যারা গুরুত্ব সহকারে ছোট আকারের Phi-4 মডেল তৈরি করছে এবং ইতিমধ্যেই বাণিজ্যিকভাবে সেগুলি চালু করেছে। এর অর্থ কি "নিজের সাথে লড়াই" করার যুক্তি অগ্রহণযোগ্য?

মোটেও না। মাইক্রোসফটের দুটি ফ্রন্টে কাজ করার ক্ষমতা তার ডুয়াল-ট্র্যাক কৌশল থেকে উদ্ভূত: উইন্ডোজ এবং সারফেসের হার্ডওয়্যার ইকোসিস্টেম, অ্যাজুরে ক্লাউড প্ল্যাটফর্ম এবং কোপাইলট এজ প্রোডাক্ট লাইন। মাইক্রোসফটের জন্য, Phi-4 একটি প্রতিরক্ষামূলক পদক্ষেপ: যদি এজ এআই-এর প্রবণতা অপরিবর্তনীয় হয়, তাহলে বৃহত্তর চিত্রের জন্য, ওপেন-সোর্স সম্প্রদায় এবং অ্যাপলের কাছে এজ বাজার ছেড়ে দেওয়ার চেয়ে কঠোর সিদ্ধান্ত নেওয়া এবং নিজস্ব ব্যবসার একটি অংশ ত্যাগ করা ভাল।

কিন্তু আলিবাবার কাছে এই বিকল্প নেই—কোনও ভোক্তা-গ্রেড অপারেটিং সিস্টেম নেই, কোন মূলধারার টার্মিনাল হার্ডওয়্যার নেই, এবং ব্যক্তিগত ব্যবহারকারীদের জন্য কোন AI পণ্য ম্যাট্রিক্স নেই। Qwen যতই ভালো পারফর্ম করুক না কেন, এর সমাধানগুলি বাস্তবায়নের জন্য এর নিজস্ব "শেষ মাইল" নেই।

বিভিন্ন শক্তির উৎসের ফলে বিভিন্ন পণ্যের সিলিং তৈরি হয়।

এটি একটি বিরক্তিকর চিত্র তৈরি করে: ছোট মডেলগুলির জন্য ল্যাবরেটরি থেকে পণ্যে যাওয়ার আসল বাধা প্রযুক্তিগত দক্ষতা নয়, বরং সরবরাহ এবং চাহিদার মধ্যে অসঙ্গতি; যে কোম্পানি ছোট মডেল তৈরিতে সেরা (ক্লাউড বিক্রেতারা) তাদের সত্যিকার অর্থে সফল করার জন্য সবচেয়ে কম প্রেরণা পায়; এবং যে কোম্পানির ছোট মডেলের সবচেয়ে বেশি প্রয়োজন (সরঞ্জাম প্রস্তুতকারক) তাদের স্বাধীনভাবে সেগুলি বিকাশ করার ক্ষমতা নেই।

"কোন সমস্যা নেই"

WeChat Moments-এ লিন জুনিয়াং-এর পোস্টে ফিরে আসা, "পরিকল্পনা অনুযায়ী কাজ করতে থাকো, কোন সমস্যা নেই।"

সম্ভবত প্রযুক্তিগত পদ্ধতিটি সত্যিই সঠিক, এবং সবকিছু সঠিক দিকে এগোচ্ছে। কিন্তু একটি ক্লাউড-কেন্দ্রিক কোম্পানিতে, এমনকি যদি একটি বিশ্বমানের ছোট-স্কেল মডেল তৈরি করা হয়, তবুও দলের পরিস্থিতি অস্বস্তিকর হওয়ারই নিয়তি।

এটি আলিবাবার সমালোচনা নয় —যে কোনও কোম্পানির জীবনরেখা হলো ক্লাউড রাজস্ব, তারা যখন এমন কোনও প্রযুক্তিগত পথের মুখোমুখি হবে যা তাদের রাজস্ব হ্রাস করতে পারে তখন একই দ্বিধাগ্রস্ত হবে। এটি একটি কাঠামোগত দ্বন্দ্ব, ব্যক্তিগত বা ব্যবস্থাপনার পছন্দের বিষয় নয়।

কর্মীদের পরিবর্তনের চেয়েও উল্লেখযোগ্য হল স্কেলিং আইনের মধ্যেই ঘটে যাওয়া পরিবর্তনগুলি।

গত তিন বছরে, "বড় হলে ভালো" কেবল একটি প্রযুক্তিগত নিয়মের চেয়েও বেশি কিছু হয়ে উঠেছে; এটি সমগ্র AI শিল্পের বিশ্বাস। তহবিলের আখ্যানগুলি এটিকে ঘিরে তৈরি করা হয়েছে – বিনিয়োগকারীরা বিশ্বাস করেন যে বৃহত্তর মডেলগুলির অর্থ বৃহত্তর ক্ষমতা, যার ফলে কম্পিউটিং অবকাঠামোতে ট্রিলিয়ন ডলার বিনিয়োগ হয়। প্রতিভা বরাদ্দ এটিকে ঘিরে আবর্তিত হয়েছে – শীর্ষ গবেষকরা বৃহত্তম মডেলগুলিকে প্রশিক্ষণ দেওয়া দলগুলির প্রতি আকৃষ্ট হয়েছেন। হার্ডওয়্যার বিনিয়োগের মূল্য নির্ধারণ করা হয়েছে এর চারপাশে – এনভিডিয়ার মূল্যায়ন এই ধারণার উপর ভিত্তি করে যে কম্পিউটিং শক্তির চাহিদা সর্বদা বৃদ্ধি পাবে।

এখন, এই ধারণাটি পরিবর্তন হতে শুরু করেছে। এমআইটি গবেষণা অনুমান করে যে দক্ষতার উন্নতির ফলে মাঝারি আকারের হার্ডওয়্যারের মডেলগুলি ৫ থেকে ১০ বছরের মধ্যে বৃহত্তম এবং সবচেয়ে ব্যয়বহুল মডেলগুলির সাথে তাল মিলিয়ে চলতে পারবে। শিকাগো বিশ্ববিদ্যালয়ের গবেষণা ইঙ্গিত দেয় যে মূল প্রতিযোগিতামূলক মাত্রা হিসাবে ডেটার মান ডেটার আকারকে প্রতিস্থাপন করছে।

উৎপাদন এখন আর ক্লাউডের মধ্যেই সীমাবদ্ধ নেই, বরং প্রান্ত পর্যন্ত প্রসারিত হচ্ছে। স্কেলিং আইন একঘেয়েভাবে ক্রমবর্ধমান বক্ররেখা থেকে এমন একটি মানচিত্রে রূপান্তরিত হচ্ছে যার জন্য একাধিক মাত্রা জুড়ে সর্বোত্তম সমাধান খুঁজে বের করা প্রয়োজন।

এটা এখন আর "যত বড়, তত ভালো" বিষয় নয়, বরং "সঠিক জায়গায় সঠিক আকার" বিষয়।

লিন চুন-ইয়াং সম্ভবত বেশিরভাগ মানুষের চেয়ে আগেই এই পরিবর্তনটি অনুভব করেছিলেন। তিনি একটি জিনিস প্রমাণ করার জন্য Qwen 3.5 Small ব্যবহার করেছিলেন: সঠিক পদ্ধতির সাহায্যে, 9B প্যারামিটার 120B কে হারাতে পারে। কিন্তু তিনি আরেকটি দেয়ালে আঘাত করেছিলেন – প্রযুক্তিগত সঠিকতা বাণিজ্যিক কার্যকারিতার সমান নয়, সাংগঠনিক আরাম তো দূরের কথা।

তিনি বললেন, "কোন সমস্যা নেই।" প্রকৃতপক্ষে, প্রযুক্তিগত রোডম্যাপটি তৈরি করা হয়েছে, এবং বাকি সমস্যাগুলি পরীক্ষাগারে নয়, পরীক্ষাগারের বাইরে।

#iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট অনুসরণ করতে আপনাকে স্বাগতম: iFanr (WeChat ID: ifanr), যেখানে যত তাড়াতাড়ি সম্ভব আরও উত্তেজনাপূর্ণ কন্টেন্ট আপনার কাছে উপস্থাপন করা হবে।

ifanr | মূল লিঙ্ক · মন্তব্য দেখুন · সিনা ওয়েইবো