ধাপ ৩.৫ ফ্ল্যাশ: বসন্ত উৎসবের সময় এআই যুদ্ধ থেকে উদ্ভূত ডার্ক হর্স এখন এজেন্ট যুগের প্রতিযোগীদের ছাড়িয়ে যাচ্ছে।

এই বছরের AI শিল্পটি ২০০৮ সালের স্মার্টফোন বাজারের মতোই। সবাই জানে যে টাচস্ক্রিনই ভবিষ্যৎ, কিন্তু নির্মাতারা সকলেই "টাচস্ক্রিন সহ নোকিয়া" তৈরি করছে।

এজেন্টদের যুগ এসে গেছে; এটাই সর্বসম্মত। কিন্তু কিভাবে আপনি একটি ভালো এজেন্ট মডেল তৈরি করবেন? প্রচলিত চিন্তাভাবনা অনুসরণ করে, এটি এখনও একই রকম থাকতে পারে: আরও প্যারামিটার, গভীর এবং বিস্তৃত নেটওয়ার্ক কাঠামো এবং বৃহত্তর ডেটাসেট।

৩০০বি যথেষ্ট নয়, তাই আমরা ১টি নিচ্ছি; ১টি যথেষ্ট নয়, তাই আমরা ১০টি নিচ্ছি। মনে হচ্ছে যতক্ষণ মডেলটি যথেষ্ট বড় করা হবে, ততক্ষণ এজেন্টের ক্ষমতা স্বাভাবিকভাবেই আবির্ভূত হবে, ঠিক যেমন নকিয়ার স্ক্রিন যতক্ষণ যথেষ্ট বড় হবে, আইফোন নিজে থেকেই দেখা দেবে।

যদিও বৃহৎ প্যারামিটার মডেলগুলি একটি বিস্তৃত জ্ঞানের ভিত্তি এবং আরও শক্তিশালী ভিত্তি প্রদান করে, কেবল পূর্ববর্তী প্রজন্মের মডেলগুলিকে "অপ্টিমাইজ" করলে আমাদের এজেন্টরা আর উন্নত হবে না। এজেন্ট যুগের এজেন্টিক মডেলগুলির প্রয়োজন ।

এমন কি আরও দক্ষ, সত্যিকার অর্থে বিঘ্নকারী পদ্ধতি আছে যা স্ট্যাকিং প্যারামিটারের উপর নির্ভর করে না বরং আর্কিটেকচার অপ্টিমাইজেশনের উপর নির্ভর করে; ডেডিকেটেড ক্লাউড সার্ভারের প্রয়োজন হয় না এবং স্থানীয়ভাবে চলতে পারে; এবং এটি একটি অলরাউন্ডার এবং লক্ষ্যযুক্ত অপ্টিমাইজেশন উভয়ই আছে?

▲মডেল প্যারামিটারের আকার এবং বুদ্ধিমত্তার তুলনা: ধাপ 3.5 ফ্ল্যাশের গ্রাফে মোট প্যারামিটারের সংখ্যা সবচেয়ে কম, কিন্তু বুদ্ধিমত্তার স্কোরে এটি দ্বিতীয় স্থানে রয়েছে।

২রা ফেব্রুয়ারি, স্টেপ স্টার তার সর্বশেষ বেস মডেল, স্টেপ ৩.৫ ফ্ল্যাশ প্রকাশ করেছে এবং ওপেন-সোর্স করেছে, যা এজেন্টদের জন্য আরও দক্ষ অন্তর্নিহিত সহায়তা মডেল। এটি মোট ১৯৬ বিলিয়ন প্যারামিটার সহ একটি স্পার্স MoE আর্কিটেকচার গ্রহণ করে, কিন্তু প্রতিটি টোকেন মাত্র ১১ বিলিয়ন প্যারামিটার সক্রিয় করে।

বৃহৎ আকারের মডেল শিল্পে এটি একটি বিপরীতমুখী পরিসংখ্যান, যা লক্ষ লক্ষ প্যারামিটারের জন্য প্রতিযোগীদের তুলনায় "পিছিয়ে" বলে মনে হচ্ছে। তবে, এই আপাতদৃষ্টিতে "পিছিয়ে থাকা" পছন্দটি এজেন্ট যুগের সবচেয়ে বড় রহস্য ধারণ করতে পারে।

L3 মডেলটি আর L1 এর সিঁড়ি বেয়ে উঠতে পারে না।

যদি এটি ছয় মাস আগে ঘটত, তাহলে লিপ স্টার হয়তো সম্পূর্ণ ভিন্ন কিছু করছিল।

স্টেপ২-এর সহ-প্রতিষ্ঠাতা এবং সিটিও ঝু ইবো তার সর্বশেষ ব্লগ পোস্টে উল্লেখ করেছেন যে স্টেপ২ মডেলের যুগে, তারা স্কেলিং আইনে দৃঢ় বিশ্বাসী ছিল। সেই সময়ের সমস্ত মডেল নির্মাতাদের মতো, তারা অধ্যবসায়ের সাথে প্যারামিটার নামক সিঁড়িটি আরোহণ করেছিল, ডিপসিক ভি৩-এর চেয়ে বেশি সংখ্যক প্যারামিটার ডিজাইন করেছিল এবং এমনকি তাদের প্রতিযোগীদের তুলনায় কয়েক মাস আগে এটিকে প্রশিক্ষণ দিয়েছিল।

ফলাফল হল, চিত্তাকর্ষক বেঞ্চমার্ক স্কোর সত্ত্বেও, ঐতিহ্যবাহী কম্পোনেন্ট স্ট্যাকিং লজিক শেষ পর্যন্ত ডিপসিক R1 এর ইনফারেন্স প্যারাডাইমের সাথে তুলনা করা সম্ভব হয়নি ।

কারণটি সহজ: ডিপসিক আর১, এল১ চ্যাটবট থেকে এল২ রিজনার্সে এক ধাপ এগিয়ে যাওয়ার প্রতিনিধিত্ব করে। যুক্তি মডেল তৈরির জন্য চ্যাটবট চিন্তাভাবনা ব্যবহার অব্যাহত রাখলে তা ব্যর্থতার দিকে পরিচালিত নাও হতে পারে, তবে এটি অবশ্যই একটি দেয়ালে আঘাত হানার জন্য নির্ধারিত।

এটি কেবল জিয়ুয়ে জিংচেনের অভিজ্ঞতার একটি পূর্ববর্তী পর্যালোচনা নয়, বরং সমগ্র শিল্পের একটি ক্ষুদ্র জগৎও। অনেক বেদনাদায়ক প্রতিফলনের পর, তারা একটি অবহেলিত সত্য আবিষ্কার করে: L1 যুগে চ্যাটবট এবং L3 যুগে এজেন্টদের দুটি ভিন্ন মডেলের প্রয়োজন ।

▲OpenAI-এর পাঁচ-স্তরের কাঠামো, প্রথম স্তরের চ্যাটবট থেকে শুরু করে যুক্তি, এজেন্ট, উদ্ভাবক এবং পঞ্চম স্তরের সংগঠন।

ওপেনএআই-এর পাঁচ-স্তরের স্থাপত্য অনুসারে, আমরা L2 রিজনার থেকে L3 এজেন্টে উল্লম্ফন অনুভব করছি।

L1 চ্যাটবটের যুগে , মূল চাহিদা ছিল কথোপকথনে সাবলীলতা; মডেলটির কেবল দ্রুত সাড়া দেওয়ার এবং স্বাভাবিকভাবে নিজেকে প্রকাশ করার প্রয়োজন ছিল। আমাদের যা প্রয়োজন হতে পারে তা হল একজন "উদার শিল্পকলার ছাত্র" যিনি বিশ্বকোষ আবৃত্তি করতে পারেন, লু জুনের স্টাইল অনায়াসে অনুকরণ করার জন্য যথেষ্ট জ্ঞানী। এই মুহুর্তে, প্রতি সেকেন্ডে 20-30 টোকেনের আউটপুট গতি মানুষের পড়ার অভ্যাসের সাথে পুরোপুরি মিলে যায়।

L2 রিজনার যুগ : দীর্ঘ চিন্তার শৃঙ্খলের আবির্ভাবের সাথে সাথে, আমাদের এমন মডেলের প্রয়োজন যা সম্পূর্ণ, গভীর চিন্তাভাবনার প্রতিনিধিত্ব করতে পারে। দীর্ঘ চিন্তা প্রক্রিয়াগুলি দেখলে, আমরা মনে করি যে সেগুলি বুদ্ধিমান, এবং আরও সঠিক ফলাফলের জন্য আমরা দশ সেকেন্ড অপেক্ষা করতেও ইচ্ছুক।

L3 এজেন্ট যুগ : বৈশিষ্ট্যগুলি সম্পূর্ণরূপে পরিবর্তিত হয়েছে। কাজের দৃশ্যপটের প্রেক্ষাপট 32K-128K পরিসরে অবস্থিত। আমরা আর আউটপুট শব্দের মাধ্যমে পড়ি না, বরং কেবল "ফলাফল কখন সরবরাহ করা যেতে পারে" তার উপর মনোযোগ দিই।

এই পরিস্থিতিতে, L2 যুগের ভারী-প্যারামিটার মডেলটি ব্যবহার চালিয়ে যাওয়া মানে আওতাই লাইন থেকে সরঞ্জাম নিয়ে শেশান "হুতাই লাইন" বেয়ে ওঠার মতো। যদিও রিজার্ভ যথেষ্ট, দক্ষতা কম এবং কম্পিউটিং পাওয়ার খরচ অত্যন্ত ব্যয়বহুল।

কিছুটা হলেও, এজেন্টটি আর ব্যবহারকারীর দ্বারা দেখা যায় না, বরং কাজের জন্য ব্যবহার করা হয়। এটিকে দীর্ঘ প্রেক্ষাপটে দক্ষতার সাথে চালানো প্রয়োজন, একটি কোডবেস সহ যা সহজেই লক্ষ লক্ষ টোকেন পরিচালনা করতে সক্ষম; এবং এটির গতি উন্নত করা প্রয়োজন, যা সরাসরি ব্যবহারকারীর অভিজ্ঞতা নির্ধারণ করে; তবে মূল বিষয়টি এখনও পরিকল্পনা এবং সরঞ্জাম আহ্বান।

যদি আমরা L1 যুগের ভারী-শুল্ক মডেলগুলি L3 টাস্কগুলি পরিচালনা করতে থাকি, তাহলে এটি খাবার সরবরাহের জন্য ফেরারি চালানোর মতো হবে – এটি কেবল ব্যয়বহুলই নয়, এটি কেবল যানজটপূর্ণ, দীর্ঘ-প্রেক্ষাপটের রাস্তার পরিস্থিতিতেও চলতে পারে না।

এটি আরও ব্যাখ্যা করে যে কেন স্টেপ টেক "গতি" এবং "শক্তিশালী যুক্তি" এর উপর জোর দিয়ে স্টেপ 3.5 ফ্ল্যাশের "নতুন প্রজাতি" উন্মোচন করার সাহস করেছিল। এই বিনিময় প্রথম নজরে শিল্পের সাথে ধাপে ধাপে নাও হতে পারে, তবে এটি আরও সম্ভাবনার দ্বার উন্মোচন করে।

মার্শাল আর্টের জগতে, গতিই প্রতিরক্ষা ভেঙে ফেলার একমাত্র উপায়: এজেন্ট যুগের "হিংসাত্মক নান্দনিকতা"।

এজেন্ট যুগে, "গতি" আর কোনও অতিরিক্ত সুবিধা নয়, বরং মডেলের জন্য জীবন-মৃত্যুর বিষয়।

ঝু ইবো এমন একটি বিশদ উল্লেখ করেছেন যা সহজেই উপেক্ষা করা যায়: চ্যাটবট যুগে, মডেল আউটপুট মানুষের পড়ার গতির (২০-৩০ টোকেন/সেকেন্ড) চেয়ে দ্রুত হওয়া যথেষ্ট ছিল, অন্যথায় আমরা এটি সব পড়তে সক্ষম হতাম না। কিন্তু এজেন্ট যুগে, এই মান সম্পূর্ণরূপে অবৈধ ।

কেন? কারণ ব্যবহারকারীরা প্রক্রিয়াটি দেখতে চান না। যখন AI আমাদের কোড লিখতে, তথ্য অনুসন্ধান করতে বা ফ্লাইট বুক করতে সাহায্য করে, তখন আমরা স্ক্রিনের দিকে তাকিয়ে থাকি না এবং এটিকে শব্দের পর শব্দ ট্রান্সক্রিপশন করতে দেখি না; আমরা কেবল ফলাফলটি চাই।

এই পর্যায়ে, গতি আর অভিজ্ঞতার বিষয় নয়, বরং উৎপাদনশীলতার বিষয়, যা সরাসরি কার্য সম্পাদনের দক্ষতা নির্ধারণ করে।

এই চূড়ান্ত গতি অর্জনের জন্য, লিপস্টার তার প্রযুক্তিগত পথে একটি বিশাল বাজি ধরেছে।

▲ধাপ ৩.৫ ফ্ল্যাশ সামগ্রিক স্থাপত্য: ধাপ ৩.৫ ফ্ল্যাশ হল একটি বৃহৎ ভাষা মডেল যা একটি স্পার্স হাইব্রিড এক্সপার্ট (MoE) স্থাপত্য গ্রহণ করে। এর স্থাপত্য মডেল-সিস্টেম সহ-নকশা দ্বারা সংজ্ঞায়িত এবং মূল স্থাপত্য সীমাবদ্ধতা হিসাবে অনুমান খরচ এবং গতি গ্রহণ করে।

যদিও এর সমকক্ষরা অন্ধভাবে লিনিয়ার অ্যাটেনশনের প্রবণতা অনুসরণ করছিল, স্টেপ 3.5 ফ্ল্যাশ SWA (স্লাইডিং উইন্ডো অ্যাটেনশন) আর্কিটেকচার বেছে নেওয়ার উপর জোর দিয়েছিল। এই হাইব্রিড অ্যাটেনশন লেআউট একদিকে টোকেন গণনা দ্রুত প্রক্রিয়া করতে পারে, এবং অন্যদিকে দীর্ঘ প্রসঙ্গ প্রক্রিয়াকরণের গৌণ বাধা সমাধান করতে পারে।

সহজ কথায়, এটি সম্পূর্ণ ২৫৬ হাজার লেখা মুখস্থ করে মুখস্থ করে না; বরং, এটি মানুষের মতোই মনোযোগ কেন্দ্রীভূত এবং ছন্দবদ্ধভাবে বরাদ্দ করে। এটি এটিকে কেবল বিপুল পরিমাণে ডেটা প্রক্রিয়াকরণের সময় কম বুদ্ধিমান হওয়া এড়াতে সাহায্য করে না বরং গণনার খরচও উল্লেখযোগ্যভাবে হ্রাস করে।

"বিপরীত পদ্ধতি" বলে মনে হচ্ছে আসলে এজেন্ট যুগের পরিশীলিত গণনা, যেখানে "দক্ষ পদ্ধতিগুলি দুর্দান্ত ফলাফল দেয়।" এর কারণ হল, বর্তমান হার্ডওয়্যার পরিস্থিতিতে, SWA অনুমানমূলক নমুনার জন্য সবচেয়ে অনুকূল। এই প্রযুক্তিগত লেনদেন সরাসরি একক-অনুরোধ কোড-ভিত্তিক কাজের অনুমানের গতি সর্বোচ্চ 350 টোকেন/সেকেন্ডে বৃদ্ধি করে।

বিদ্যুৎ-দ্রুত "তাৎক্ষণিক হত্যা" হল সেই নির্ধারক মুহূর্ত যা AI কে একটি "খেলনা" থেকে একটি উৎপাদনশীলতা হাতিয়ারে রূপান্তরিত করে। প্রকাশের প্রথম দিনেই, স্টেপ 3.5 ফ্ল্যাশ ওপেনরাউটার দ্রুততম মডেলের তালিকায় স্থান করে নেয় ।

▲OpenRouter দ্বারা প্রকাশিত সর্বশেষ দ্রুততম মডেল র‍্যাঙ্কিং অনুসারে, Step 3.5 Flash-এর জেনারেশন রেট 167 টোকেন/সেকেন্ড, যা বিশ্বের দ্রুততম মডেলগুলির মধ্যে স্থান করে নিয়েছে।

"মুখস্থ বিশেষজ্ঞদের" প্রত্যাখ্যান করুন; উচ্চ বুদ্ধিমত্তা হল প্রাথমিক উৎপাদনশীল শক্তি।

দ্রুত দৌড়ানো "বুদ্ধিমত্তা হ্রাস" এর মূল্যে আসতে পারে না। একটি মডেল এজেন্ট হিসেবে উপযুক্ত কিনা তা পরিমাপ করার জন্য " উচ্চ বুদ্ধিমত্তা "ও অপরিহার্য।

ব্যবহারকারীদের মধ্যে হোক বা বেশিরভাগ মডেল নির্মাতাদের মধ্যে, সাধারণ ঐক্যমত্য হল যে প্যারামিটার যত বড় হবে, ক্ষমতা তত শক্তিশালী হবে। যাইহোক, ধাপ 3.5 ফ্ল্যাশের গাণিতিক ক্ষেত্রে শীর্ষ-র্যাঙ্কিং পারফরম্যান্স, উপযুক্ত মাত্রা এবং চরম পোস্ট-ট্রেনিং সহ অর্জিত, বড় প্যারামিটার সহ মডেলগুলির সাথে তুলনীয় ফলাফল দিয়েছে।

এটি AIME 2025 (আমেরিকান আমন্ত্রণমূলক গণিত প্রতিযোগিতা) তে 97.3 পয়েন্ট পেয়েছে;
তিনি IMO Answer Bench (আন্তর্জাতিক গণিত অলিম্পিয়াড বেঞ্চমার্ক) 85.4 পয়েন্ট পেয়েছেন;
HMMT 2025 (হার্ভার্ড-MIT গণিত প্রতিযোগিতা) তে, তিনি এমনকি 96.2 পয়েন্ট পেয়েছেন।

এর অর্থ কী? এই স্কোরগুলি চীনের শীর্ষ-স্তরের ওপেন-সোর্স মডেলগুলির মধ্যে সর্বোচ্চ।

যদি প্যারালাল কোলাবোরেটিভ রিজনিং (PaCoRe) মোড সক্রিয় করা হয়, তাহলে এর স্কোর এমনকি নিখুঁতও হয়ে যায়। "বুদ্ধিমান ওভারফ্লো"-এর এই ঘটনার পিছনে একটি অত্যন্ত সূক্ষ্ম কিন্তু নির্ভুল শিল্প সত্য লুকিয়ে আছে: অতীতের মডেলগুলি "স্মরণকারী"দের মতো ছিল, যারা প্রচুর পরিমাণে ডেটা রোট মেমোরাইজেশনের উপর নির্ভর করত; যেখানে ধাপ 3.5 ফ্ল্যাশ একটি সত্যিকারের "সমস্যা সমাধানকারী"।

▲PaCoRe (Parallel Coordinated Reasoning) এর যুক্তি প্রক্রিয়া। প্রতিটি রাউন্ডে বিস্তৃত সমান্তরাল অনুসন্ধান শুরু হয়, উৎপন্ন ট্র্যাজেক্টোরিগুলিকে কম্প্যাক্ট তথ্যে সংকুচিত করা হয়, যা পরবর্তী রাউন্ডের সমন্বয় সাধনের জন্য প্রশ্নের সাথে পাস করা হয়। এই প্রক্রিয়াটি 10 বার পুনরাবৃত্তি করা হয়, নির্দিষ্ট প্রেক্ষাপট সীমাবদ্ধতা মেনে লক্ষ লক্ষ ট্যাগের জন্য কার্যকর TTC (পরীক্ষা-সময় গণনা করা) অর্জন করে। চূড়ান্ত সংকুচিত তথ্য সিস্টেমের উত্তর হিসেবে কাজ করে।

একজন এজেন্টের কর্মপ্রবাহে, এই ক্ষমতা মারাত্মক। যেহেতু বাস্তব-জগতের কাজগুলি অজানাতে পরিপূর্ণ, তাই আমাদের যা দরকার তা হল এমন একটি তোতাপাখি নয় যে কেবল জ্ঞানের বিষয়গুলি পুনরাবৃত্তি করতে পারে, বরং একটি "সুপার ব্রেন" যা জটিল নির্দেশাবলী বুঝতে পারে, কাজের যুক্তি ভেঙে ফেলতে পারে এবং স্ব-সংশোধন করতে পারে।

যুক্তির ক্ষমতা বুদ্ধিমত্তা প্রমাণ করে, কিন্তু এজেন্টকে তার কাজে এখনও নির্ভরযোগ্য হতে হবে। ধাপ ৩.৫ ফ্ল্যাশ বেশ কয়েকটি গুরুত্বপূর্ণ পরিস্থিতিতে দেশীয় ওপেন সোর্সে প্রথম স্থান অর্জন করেছে।

কোডিং ক্ষমতা: বিশ্বব্যাপী শীর্ষ স্তরের

SWE-বেঞ্চ যাচাইকৃত: ৭৪.৪ পয়েন্ট (একটি বাস্তব ওপেন-সোর্স প্রকল্প থেকে বাগ সংশোধন)
টার্মিনাল-বেঞ্চ ২.০: ৫১ পয়েন্ট ( চীনের এক নম্বর ওপেন সোর্স , টার্মিনালের কাজগুলো স্বয়ংক্রিয় করে তোলা)
LiveCodeBench-V6: 86.4/88.9 পয়েন্ট (রিয়েল-টাইম কোডিং এবং ডিবাগিংয়ের জন্য চীনে এক নম্বর ওপেন সোর্স কোড )

এজেন্টের মূল ক্ষমতা: একাধিক দেশীয় ওপেন সোর্স প্রথম

τ²-বেঞ্চ: ৮৮.২ পয়েন্ট ( চীনে ১ নম্বর ওপেন সোর্স , বহু-পদক্ষেপের কার্য পরিকল্পনা)
xbench-DeepSearch: ৫৪ পয়েন্ট ( চীনে এক নম্বর ওপেন সোর্স , গভীর অনুসন্ধান এবং তথ্য একীকরণের জন্য)
ব্রাউজকম্প: ৬৯ পয়েন্ট (শীর্ষ স্তর, ওয়েব ব্রাউজিং এবং প্রসঙ্গ ব্যবস্থাপনা)

তথ্য যতই চিত্তাকর্ষক হোক না কেন, বাস্তব-বিশ্বের পরিস্থিতির পরীক্ষায় এটিকে অবশ্যই টিকে থাকতে হবে । নিম্নলিখিত সাধারণ পরিস্থিতিতে, ধাপ 3.5 ফ্ল্যাশ আরও প্রমাণ করেছে যে "দক্ষ অথচ শক্তিশালী, বিদ্যুতের মতো দ্রুত" কেবল একটি স্লোগান নয়।

যদিও সাধারণত বিশ্বাস করা হয় যে ডিপ রিসার্চের মাধ্যমে বিশ্লেষণ প্রতিবেদন লেখার জন্য সুলিখিত এবং স্পষ্টভাষী মডেলের প্রয়োজন হয়, এটি আসলে শক্তিশালী যৌক্তিক যুক্তি এবং কার্যকরভাবে সরঞ্জামগুলি ব্যবহার করার ক্ষমতার উপর নির্ভর করে।

"০-৩ বছর বয়সী শিশু এবং ছোটদের জন্য বৈজ্ঞানিক শিক্ষা" এর মতো একটি অস্পষ্ট বিষয় দিন, এবং এটি কেবল জিনিসগুলি তৈরি করবে না। পরিবর্তে, একজন প্রকৃত মানব গবেষকের মতো, এটি কাজটি ভেঙে ফেলবে, পথ পরিকল্পনা করবে, অনলাইনে অনুসন্ধান করবে, প্রতিফলন করবে এবং সংশোধন করবে এবং তারপরে আমাদের হাজার হাজার শব্দের একটি বিশদ প্রতিবেদন দেবে যা এমনকি নবীন বাবা-মায়েরাও বুঝতে পারবেন।

স্কেল এআই-এর রিসার্চ রুব্রিক্স বেঞ্চমার্কে, এর স্কোর ওপেনএআই এবং জেমিনির অনুরূপ সিস্টেমগুলিকেও ছাড়িয়ে গেছে। এটি আরও প্রমাণ করে যে এটি ইতিমধ্যেই স্বাধীনভাবে কাজ করার জন্য সক্ষম একটি "লজিক্যাল ক্লোজড লুপ" অর্জন করেছে।

ধাপ ৩.৫ ফ্ল্যাশকে ক্লড কোড পরিবেশেও একীভূত করা যেতে পারে। যখন মডেলটি একজন পেশাদার ডেটা বিশ্লেষক হিসেবে কাজ করে এবং জটিল ডেটা বিশ্লেষণের কাজগুলির মুখোমুখি হয়, তখন এটি কেবল ডেটা পরিষ্কার করার জন্য কোড লিখতে পারে না, দৈনন্দিন ডেটা প্রক্রিয়াগুলিতে সহায়তা করতে পারে এবং ডেটা ফর্ম্যাটগুলি সারিবদ্ধ করতে পারে, বরং সরাসরি ওয়ার্কফ্লো রিপোর্টও তৈরি করতে পারে।

ডিপ রিসার্চ হোক বা ভাইব কোডিং প্রকল্প, এগুলো হয় স্টেপ ৩.৫ এর অফিসিয়াল ওয়েবসাইটে অথবা এপিআই কল করে করা হয়, কিন্তু স্টেপ ৩.৫ ফ্ল্যাশের উচ্চাকাঙ্ক্ষা কেবল ক্লাউড সার্ভার থেকে এআই ক্ষমতা সংগ্রহের চেয়ে অনেক বেশি।

ঝু ইয়িবো প্রকাশ করেছেন যে তিনি মডেলটি চালানোর জন্য নিজের পকেট থেকে একটি ডিভাইসও কিনেছেন। বর্তমানে, স্টেপ ৩.৫ ফ্ল্যাশ হল সবচেয়ে শক্তিশালী মডেল, অন্য কোনও মডেল ছাড়া, ৪-বিট কোয়ান্টাইজেশন ব্যবহার করে ১২৮ জিবি র‍্যামের ম্যাকবুকে ২৫৬ কে আল্ট্রা-লং কনটেক্সটের সাথে মসৃণভাবে চলতে সক্ষম।

"ব্যতিক্রম ছাড়া" এই বাক্যাংশটি প্রযুক্তিবিদদের একগুঁয়েমিকে সত্যিই তুলে ধরে। সম্ভবত এটি লিপফ্রগ স্পেসের "এআই + টার্মিনাল" কৌশলের চূড়ান্ত উচ্চাকাঙ্ক্ষার দিকেও ইঙ্গিত করে: সবচেয়ে শক্তিশালী মস্তিষ্ক কেবল ব্যয়বহুল H100 ক্লাস্টারে থাকা উচিত নয়; এটি আপনার কম্পিউটারে এবং এমনকি ভবিষ্যতের মোবাইল ফোনেও থাকা উচিত ।

অন্যান্য নির্মাতারা এখনও তহবিল এবং মূল্যায়নের জন্য প্রতিযোগিতায় লিপস্টার উচ্চ-কার্যক্ষমতাসম্পন্ন এজেন্টদের জন্য খরচের বাধা আবারও নীরবে কমিয়ে এনেছে। এটি কৌশলগত ভবিষ্যদ্বাণীকে নিশ্চিত করে: বৃহৎ-স্কেল মডেল প্রতিযোগিতার "প্রদর্শন" শেষ হয়ে গেছে, এবং শিল্পটি আনুষ্ঠানিকভাবে "যোগ্যতমের বেঁচে থাকার" পর্যায়ে প্রবেশ করেছে।

বসন্ত উৎসবের এআই যুদ্ধে আরেকটি অন্ধকার ঘোড়ার আবির্ভাব ঘটেছে, যা বিগ ডেটা মডেলের ভূদৃশ্যকে নাড়া দিয়েছে।

সাম্প্রতিক AI রিলিজের তীব্র লড়াইয়ে, এই অন্ধকার ঘোড়া, Step 3.5 Flash, অবশ্যই কিছুটা অবমূল্যায়ন করা হয়েছে। এটি কেবল একটি "উচ্চ-কার্যক্ষমতাসম্পন্ন, সাশ্রয়ী" মডেল নয়; বরং, এটি এক বছর আগে ডিপসিকের আকস্মিক উত্থানের মতো, যা AI শিল্পের জন্য একটি নতুন পথ তৈরি করেছে।

বাস্তব জগতে যেখানে কম্পিউটিং ক্ষমতা সীমাহীন নয়, সেখানে প্রকৃত বিজয়ী হলেন তিনি যিনি আরও পরিশীলিত স্থাপত্য এবং কম সম্পদের সাহায্যে আরও জটিল সমস্যা সমাধান করতে পারেন।

"ধনী থেকে ধনী" যুগ, যেখানে কেবল তথ্য সংগ্রহ করলে তহবিল সংগ্রহ করা যেত এবং র‍্যাঙ্কিংয়ে হেরফের করে প্রশংসা কুড়ানো যেত, তা অনেক আগেই শেষ হয়ে গেছে। আসন্ন লড়াইগুলি তাদের জন্য যারা কেবল "বুদ্ধিমান" নয়, "দ্রুতবুদ্ধিসম্পন্ন"ও।

"ক্ষুদ্রাকরণ এবং উচ্চ দক্ষতার" উপর এই জোর মূলত AGI-এর লক্ষ্যের প্রতি স্টেপস্টারের নিবেদনের ফলেই উদ্ভূত। ঝু ইবো একবার মন্তব্য করেছিলেন যে বাণিজ্যিক সুবিধার পাশাপাশি মৌলিক মডেলকে প্রশিক্ষণ দেওয়ার তাৎপর্য "দীর্ঘদিন ধরে ধরে রাখা AGI স্বপ্ন" পূরণের মধ্যে নিহিত।

লিপস্টারের জন্য, AGI-এর পথটি কোনও বড় জুয়া খেলার বিষয় নয়, বরং একটি দূরদর্শী চিন্তাভাবনামূলক পদ্ধতি এবং সময়ের চাহিদার সঠিক মূল্যায়নের বিষয়। লিপস্টারের নবনিযুক্ত চেয়ারম্যান ইয়িন কিউ এক সাক্ষাৎকারে বলেছিলেন, "দৃঢ় মৌলিক মডেল তৈরি করা এবং বুদ্ধিমত্তার ঊর্ধ্বসীমা অন্বেষণ করা হল লিপস্টারের লক্ষ্য।"

ধাপ ১ থেকে ধাপ ৩.৫ পর্যন্ত, মাল্টিমোডাল থেকে ভয়েস, ক্লাউড থেকে টার্মিনাল, ভৌত স্থানের সাথে AI এর একীকরণ এবং টার্মিনাল হার্ডওয়্যারের সাথে গভীর একীকরণ – এই সমস্ত পদক্ষেপগুলিই লাফিয়ে লাফিয়ে চূড়ান্ত AGI অর্জনের জন্য প্রয়োজনীয়।

যখন AI ক্ষমতা সত্যিকার অর্থে "সাধারণ পরিবারে প্রবেশ করবে," তখন প্রযুক্তি প্রতিযোগিতার শেষ বিন্দু আর কম্পিউটিং শক্তির অস্ত্র প্রতিযোগিতা থাকবে না। AI আমাদের আরও ভালভাবে সেবা দিতে শুরু করবে, এবং সকলেই—SME, ব্যক্তিগত বিকাশকারী এবং শিক্ষার্থীরা—কম খরচে শীর্ষ-স্তরের এজেন্ট ক্ষমতা ব্যবহার করতে সক্ষম হবে। AGI তখন আর কেবল দৈত্যদের জন্য একটি খেলা থাকবে না।

দক্ষতা এবং দ্রুততার সাথে , ধাপ ৩.৫ ফ্ল্যাশ তার উত্তর প্রদান করে এবং AGI-এর লক্ষ্যের আরও এক ধাপ এগিয়ে যাওয়ার প্রতিনিধিত্ব করে।

যারা তাদের স্বপ্নে অটল থাকে তারা অবশেষে তাদের নিজস্ব পথ তৈরি করবে। এবং সেই পথ ক্রমশ স্পষ্ট হয়ে উঠছে।

#iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট অনুসরণ করতে আপনাকে স্বাগতম: iFanr (WeChat ID: ifanr), যেখানে যত তাড়াতাড়ি সম্ভব আরও উত্তেজনাপূর্ণ কন্টেন্ট আপনার কাছে উপস্থাপন করা হবে।

ifanr | মূল লিঙ্ক · মন্তব্য দেখুন · সিনা ওয়েইবো