জাঁকজমকের ওপর ন্যূনতমবাদের জয়! গুগলের সবচেয়ে শক্তিশালী ক্ষুদ্র মডেলটি এইমাত্র উন্মোচিত হয়েছে, এবং এটি মোবাইল ফোনেও চলে।

'ওপেন' এবং 'ওপেন সোর্স' শুধু ভিন্ন শব্দ নয়।

গুগলের জেমা সিরিজটি দুই বছর আগে প্রকাশিত হয়েছে। ডেভেলপাররা এটি ডাউনলোড করে নিজেদের কম্পিউটারে চালাতে পারেন, কিন্তু এর ব্যবহার সীমিত, পুনঃবিতরণ সীমাবদ্ধ এবং এর পরিবর্তনগুলো অবাধে বিতরণ করা যায় না। বড়জোর একে কেবল "ওপেন" হিসেবে বিবেচনা করা যেতে পারে, এবং এটি এআই কমিউনিটির "ওপেন সোর্স" মানদণ্ড পূরণ করে না।

▲গুগল ডিপমাইন্ডের সিইও ডেমিস হাসাবিস

এইমাত্র গুগল অ্যাপাচি ২.০ সমর্থিত ও সম্পূর্ণ ওপেন সোর্স জেমা ৪ সিরিজের চারটি মডেল প্রকাশ করেছে। এর সবচেয়ে ছোট সংস্করণটি রাস্পবেরি পাই-তে সম্পূর্ণ অফলাইনে চালানো যায়। এই প্রথম জেমা মিনি-মডেলটি সত্যিকার অর্থে সকলের জন্য সহজলভ্য হয়েছে।

ছোট, ক্ষুদ্র…

জেমা ৪ চারটি আকারে বাজারে ছাড়া হয়েছিল, যা জেমিনি ৩-এর মতোই একই অন্তর্নিহিত প্রযুক্তি ব্যবহার করত এবং এজ ডিভাইস থেকে শুরু করে উচ্চ-ক্ষমতাসম্পন্ন ওয়ার্কস্টেশন পর্যন্ত বিভিন্ন হার্ডওয়্যারকে সমর্থন করত:

E2B / E4B: বিশেষভাবে মোবাইল ফোন এবং IoT ডিভাইসের জন্য ডিজাইন করা, যা গুগল পিক্সেল টিম, কোয়ালকম এবং মিডিয়াটেকের সাথে নিবিড় সহযোগিতায় অপ্টিমাইজ করা হয়েছে। ইনফারেন্সের সময়, মেমরি এবং বিদ্যুৎ খরচ সর্বনিম্ন রাখতে যথাক্রমে শুধুমাত্র 2B এবং 4B প্যারামিটারগুলো সক্রিয় করা হয়।

এটি ১২৮কে কনটেক্সট উইন্ডো সমর্থন করে, ছবি, ভিডিও এবং নেটিভ অডিও ইনপুটের সুবিধা দেয় এবং পিক্সেল ফোন, রাস্পবেরি পাই ও জেটসন অরিন ন্যানোতে প্রায়-শূন্য ল্যাটেন্সিতে সম্পূর্ণ অফলাইনে চলে। অ্যান্ড্রয়েড ডেভেলপাররা এখন এআইকোর ডেভেলপার প্রিভিউ-এর মাধ্যমে এজেন্ট মোড আগেভাগেই অভিজ্ঞতা করতে পারবেন।

26B MoE: একটি হাইব্রিড বিশেষজ্ঞ আর্কিটেকচার যা ইনফারেন্সের সময় সমস্ত প্যারামিটারের মধ্যে মাত্র 3.8B সক্রিয় করে, উচ্চ গুণমান বজায় রাখার পাশাপাশি অত্যন্ত দ্রুত ইনফারেন্স গতি নিশ্চিত করে। এটি Arena AI-তে 1441 টেক্সট স্কোর অর্জন করেছে, যা ওপেন-সোর্স মডেলগুলোর মধ্যে ষষ্ঠ স্থান অধিকার করেছে।

31B ডেন্স: চূড়ান্ত র' পারফরম্যান্সের সন্ধানে, Arena AI ১৪৫২-এর একটি টেক্সট স্কোর অর্জন করেছে, যা ওপেন-সোর্স মডেলগুলোর মধ্যে এটিকে তৃতীয় স্থানে রেখেছে। এর আনকোয়ান্টাইজড bfloat16 ওয়েটগুলো একটি একক ৮০জিবি NVIDIA H100-এ চলতে পারে, অপরদিকে এর কোয়ান্টাইজড সংস্করণটি কনজিউমার-গ্রেড জিপিইউ সমর্থন করে, যা লোকাল ফাইন-টিউনিংয়ের জন্য একটি শক্তিশালী ভিত্তি প্রদান করে।

সক্ষমতার দিক থেকে, চারটি মডেল অত্যন্ত সামঞ্জস্যপূর্ণ: সবগুলোই বহু-ধাপের অনুমান এবং জটিল যুক্তি সমর্থন করে; স্বাভাবিকভাবেই ফাংশন কল, JSON কাঠামোবদ্ধ আউটপুট এবং সিস্টেম কমান্ড সমর্থন করে, যা এমন স্বায়ত্তশাসিত এজেন্ট তৈরি করতে সক্ষম করে যারা বাহ্যিক সরঞ্জাম এবং API-এর সাথে যোগাযোগ করতে পারে; ছবি এবং ভিডিও ইনপুট সমর্থন করে এবং OCR ও চার্ট বোঝার মতো ভিজ্যুয়াল কাজগুলিতে পারদর্শী; এবং ১৪০টিরও বেশি ভাষায় পূর্ব-প্রশিক্ষিত হয়েছে।

ভার্সন 26B এবং 31B-এর জন্য কনটেক্সট উইন্ডোটি আরও বাড়িয়ে 256K করা হয়েছে, যার ফলে একটিমাত্র প্রম্পটে সম্পূর্ণ কোডবেস বা দীর্ঘ ডকুমেন্ট পাস করা যায়।

বেঞ্চমার্ক পরীক্ষার ফলাফলগুলো এই প্রজন্মের আপগ্রেডগুলোর মাত্রা আরও স্পষ্টভাবে তুলে ধরতে পারে।

এর পূর্বসূরি Gemma 3 27B-এর তুলনায়, Gemma 4 31B গাণিতিক যুক্তির বেঞ্চমার্ক AIME 2026-এ ২০.৮% থেকে ৮৯.২%-এ উন্নীত হয়েছে, কোডিং সক্ষমতার বেঞ্চমার্ক LiveCodeBench v6-এ ২৯.১% থেকে ৮০.০%-এ উন্নতি করেছে এবং এজেন্টের টুল আহ্বানের ক্ষমতা পরিমাপকারী τ2-bench-এ ৬.৬% থেকে ৮৬.৪%-এ উল্লেখযোগ্যভাবে বৃদ্ধি পেয়েছে।

এই তিনটি ডেটা পয়েন্ট বিশেষভাবে গুরুত্বপূর্ণ, কারণ এগুলো আজকের তিনটি সবচেয়ে মৌলিক অ্যাপ্লিকেশন সিনারিওর সাথে সরাসরি সম্পর্কিত: রিজনিং, প্রোগ্রামিং এবং এজেন্ট।

প্যারামিটার দক্ষতা হলো আরেকটি উল্লেখযোগ্য দিক। 'মডেল পারফরম্যান্স বনাম প্যারামিটার পরিমাণ'-এর স্ক্যাটার প্লটটি দেখলে বোঝা যায়, জেমা ৪ মাত্র ২৬ এবং ৩১টি প্যারামিটার ব্যবহার করে এমন এলো স্কোর অর্জন করেছে, যার জন্য সাধারণত শত শত বিলিয়ন বা এমনকি ট্রিলিয়ন প্যারামিটারের প্রয়োজন হয়।

26B MoE-এর Arena AI স্কোরটি Qwen3.5-397B-A17B-এর কাছাকাছি, যেটিতে প্রায় ১৫ গুণ বেশি প্যারামিটার রয়েছে; অন্যদিকে 31B Dense-এর স্কোরটি GLM-5-এর সমপর্যায়ে, যেটিতে ৬০০-এরও বেশি প্যারামিটার রয়েছে। গুগল এটিকে "প্রতি ইউনিট প্যারামিটারে অভূতপূর্ব বুদ্ধিমত্তার ঘনত্ব" হিসেবে সংক্ষেপে বর্ণনা করেছে, এবং অন্তত সংখ্যাগুলো যুক্তিসঙ্গত বলেই মনে হয়।

এজ মডেলগুলোও মনোযোগ দেওয়ার যোগ্য।

E2B বহুভাষিক প্রশ্নোত্তর বেঞ্চমার্ক MMMLU-তে ৬০.০% এবং বৈজ্ঞানিক জ্ঞান বেঞ্চমার্ক GPQA Diamond-এ ৪৩.৪% স্কোর করেছে। উল্লেখ্য যে, এটি শুধুমাত্র এমন একটি মডেল যা 2B প্যারামিটার সক্রিয় করে এবং একটি মোবাইল ডিভাইসে চলে। তুলনামূলকভাবে, Gemma 3 27B GPQA Diamond-এ ৪২.৪% স্কোর করেছে, যা তাদের প্রায় অভিন্ন করে তোলে।

অন্য কথায়, মোবাইল ফোনের 2B মডেলটি ২৭ বিলিয়ন প্যারামিটার সহ পূর্ববর্তী প্রজন্মের ডেস্কটপ মডেলগুলোর সমকক্ষ হয়ে উঠেছে।

হার্ডওয়্যার ইকোসিস্টেম স্তরে, এনভিডিয়া এবং গুগল RTX GPU-তে Gemma 4, DGX Spark ব্যক্তিগত এআই সুপারকম্পিউটার এবং Jetson Orin Nano-এর ইনফারেন্স অপটিমাইজেশনের জন্য যৌথভাবে কাজ করেছে।

এনভিডিয়া টেনসর কোর এবং কুডা সফটওয়্যার স্ট্যাক জেমা ৪-কে স্বয়ংক্রিয়ভাবে উচ্চ থ্রুপুট ও স্বল্প লেটেন্সি সমর্থন প্রদান করে। লোকাল এজেন্ট অ্যাপ্লিকেশন ওপেনক্লও-ও সর্বশেষ মডেলের সাথে অভিযোজিত, যা লোকাল ইউজার ফাইল এবং অ্যাপ্লিকেশন কনটেক্সট কল করার মাধ্যমে স্বয়ংক্রিয়ভাবে টাস্ক সম্পাদনে সক্ষম করে।

'ওপেন' থেকে 'ওপেন সোর্স'-এ উত্তরণ, যা আরেকটি সম্ভাবনার দ্বার উন্মোচন করছে।

এই রিলিজটি বোঝার জন্য, প্রথমে জেমা এবং জেমিনির মধ্যকার সম্পর্ক স্পষ্ট করা প্রয়োজন। উভয়ই একই গবেষণা ও প্রযুক্তি ব্যবস্থার উপর ভিত্তি করে নির্মিত, কিন্তু পার্থক্যটি হলো জেমিনি একটি সাবস্ক্রিপশন-ভিত্তিক ক্লোজড-সোর্স পণ্য, অন্যদিকে জেমা একটি ওপেন-সোর্স মডেল যা বিনামূল্যে ডাউনলোড করে স্থানীয়ভাবে চালানো যায়।

জেমা সিরিজটি সবসময় গুগলের নিজস্ব পরিষেবার শর্তাবলী ব্যবহার করে এসেছে।

যদিও ডেভেলপাররা এটি ডাউনলোড করে স্থানীয়ভাবে চালাতে পারেন, এর ব্যবহার এবং পুনঃবিতরণ সীমিত। তাই কঠোরভাবে বলতে গেলে, এটিকে কেবল 'ওপেন' বলা যেতে পারে, 'ওপেন সোর্স' নয়। এর নিয়ন্ত্রণ এখনও গুগলের হাতেই রয়েছে।

জেমা ৪ আনুষ্ঠানিকভাবে অ্যাপাচি ২.০ লাইসেন্সে স্থানান্তরিত হয়েছে। এই লাইসেন্সের অধীনে, ডেভেলপাররা কোনো রয়্যালটি প্রদান বা ব্যবহারের উপর কোনো বিধিনিষেধ ছাড়াই ব্যক্তিগত, বাণিজ্যিক এবং প্রাতিষ্ঠানিক ব্যবহার সহ যেকোনো উদ্দেশ্যে মডেলটি ব্যবহার করতে পারবেন এবং একইভাবে এটি পরিবর্তন ও পুনঃবিতরণ করতেও স্বাধীন।

অ্যাপাচি ২.০-তে একটি অন্তর্নির্মিত পেটেন্ট সুরক্ষা ব্যবস্থাও রয়েছে: অবদানকারীদের পেটেন্টগুলো স্বয়ংক্রিয়ভাবে ব্যবহারকারীদের কাছে লাইসেন্স করা হয়, এবং যদি কোনো ব্যবহারকারী পেটেন্ট লঙ্ঘনের জন্য অন্য কোনো পক্ষের বিরুদ্ধে মামলা করেন, তাহলে লাইসেন্সটি স্বয়ংক্রিয়ভাবে বাতিল হয়ে যায়। এই দ্বিমুখী ধারাটি এন্টারপ্রাইজ ব্যবহারকারীদের জন্য অতিরিক্ত আইনি সুরক্ষা প্রদান করে।

এই ওপেন-সোর্স রিলিজের আসল তাৎপর্য হলো, জেমা ৪ এখন পণ্য, পরিষেবা এবং হার্ডওয়্যার ডিভাইসের অংশ হিসেবে আইনসম্মতভাবে প্যাকেজ ও সরবরাহ করা যাবে। স্বাস্থ্যসেবা এবং অর্থায়নের মতো ডেটা সার্বভৌমত্ব বা কমপ্লায়েন্সের প্রয়োজনীয়তা রয়েছে এমন শিল্পের ব্যবহারকারীদের জন্য, সম্পূর্ণ স্থানীয় কার্যক্রমের অর্থ হলো ডেটা ক্লাউডে আপলোড করার প্রয়োজন নেই, অথচ এর মাধ্যমেই অত্যাধুনিক এআই সক্ষমতা ব্যবহারের সুযোগ পাওয়া যায়।

হাগিং ফেস-এর সহ-প্রতিষ্ঠাতা এবং সিইও ক্লেমঁ দেলাং এই লাইসেন্সিং পরিবর্তনকে "একটি গুরুত্বপূর্ণ মাইলফলক" বলে অভিহিত করেছেন। ২০২৪ সালের ফেব্রুয়ারিতে প্রথম প্রকাশের পর থেকে, জেমা সিরিজটি ৪০ কোটিরও বেশি বার ডাউনলোড হয়েছে এবং এর ১ লক্ষেরও বেশি কমিউনিটি-ভিত্তিক সংস্করণ তৈরি হয়েছে।

মডেল ওয়েটগুলো এখন হাগিং ফেস, ক্যাগল এবং ওলাম-এ পাওয়া যাচ্ছে এবং ট্রান্সফর্মার্স, টিআরএল, ভিএলএলএম, লামা.সিপিপি, এমএলএক্স, আনস্লথ, এসজিল্যাং এবং কেরাস-এর মতো মূলধারার ফ্রেমওয়ার্কগুলো প্রকাশের দিন থেকেই এগুলোর জন্য সমর্থন প্রদান করেছে।

GGUF ফরম্যাটের ওয়েটসহ Ollam বা llama.cpp ব্যবহার করে দ্রুত লোকাল ডেপ্লয়মেন্ট শুরু করা যায়, অন্যদিকে Unsloth Studio একই সাথে কোয়ান্টাইজেশন মডেলের ফাইন-টিউনিং এবং ডেপ্লয়মেন্ট সমর্থন করে। ক্লাউড সম্প্রসারণের জন্য Google Vertex AI, Cloud Run, এবং GKE-ও উপলব্ধ রয়েছে।

জেমা ৪-এর মতো ছোট মডেলগুলোর একটি গভীরতর তাৎপর্য রয়েছে, কারণ এগুলো একটি মৌলিক প্রশ্নের পুনঃউত্তর দেয়: কৃত্রিম বুদ্ধিমত্তার কাজ কোথায় করা উচিত?

বিগত দুই বছর ধরে, এই প্রশ্নের উত্তরটি প্রায় সবসময়ই পূর্বনির্ধারিত ছিল:

ডেটা সেন্টার। ব্যবহারকারীরা নেটওয়ার্ক ইন্টারফেসের মাধ্যমে ক্লাউড মডেল অ্যাক্সেস করেন, যার জন্য ডেটা আপলোড করতে হয় এবং নির্ভরশীল সংযোগ ব্যবহার করতে হয়, আর এর খরচ পরিষেবা প্রদানকারী নির্ধারণ করে। এই মডেলটি সাধারণ গ্রাহকদের ক্ষেত্রে বেশ ভালোভাবে কাজ করে, কিন্তু স্বাস্থ্যসেবা, অর্থায়ন এবং উৎপাদন খাতের মতো যেসব শিল্পে ডেটার সার্বভৌমত্বের কঠোর প্রয়োজনীয়তা রয়েছে, সেগুলোর জন্য এটি একটি বড় বাধা হয়ে দাঁড়ায়।

জেমা ৪ আরেকটি সম্ভাবনা উপস্থাপন করে।

মোবাইল ফোন, রাস্পবেরি পাই, এবং বাহ্যিক নেটওয়ার্ক সংযোগবিহীন ফ্যাক্টরি টার্মিনাল—এগুলো সবই স্থানীয়ভাবে মডেল ইনফারেন্স সম্পন্ন করতে পারে। ডেটা ডিভাইস থেকে বাইরে যায় না, এবং সিদ্ধান্তগুলো ক্লাউডের মাধ্যমে প্রেরিত হয় না। অ্যাপাচি ২.০ লাইসেন্সটি এর প্রয়োগের ক্ষেত্রকে আরও প্রসারিত করে: মডেলগুলোকে আইনসম্মতভাবে হার্ডওয়্যার পণ্যে প্যাকেজ করা যায় এবং শিল্পক্ষেত্রের ডিভাইসগুলোতে আগে থেকে ইনস্টল করা যায়, ফলে এগুলোর ওপর কলিং প্রোটোকল ও ডেটা রপ্তানির ক্ষেত্রে আর কোনো নিয়মকানুনগত সীমাবদ্ধতা থাকে না।

পারফরম্যান্স মেট্রিকগুলোও এই পদ্ধতির সম্ভাব্যতা নিশ্চিত করে। GPQA ডায়মন্ড সায়েন্টিফিক নলেজ বেঞ্চমার্কে E2B-এর স্কোর পূর্ববর্তী প্রজন্মের ২৭ বিলিয়ন প্যারামিটারের ডেস্কটপ মডেলের প্রায় সমতুল্য, অথচ এটি ইনফারেন্সের সময় মাত্র ২ বিলিয়ন প্যারামিটার সক্রিয় করে এবং মোবাইল ফোনে সম্পূর্ণ অফলাইনে চলতে পারে।

এই পরিবর্তনকে বর্ণনা করার জন্য "সস্তা" বা "আরও সুবিধাজনক" কথাটি এখন আর যথেষ্ট নয়; এটি বরং পরিধির সম্প্রসারণ, যার মাধ্যমে কৃত্রিম বুদ্ধিমত্তার সক্ষমতা সেইসব দীর্ঘকাল ধরে উপেক্ষিত ক্ষেত্রগুলিতে সত্যিকার অর্থে প্রবেশ করতে শুরু করেছে।

অপারেটিং সিস্টেমের জনপ্রিয়তাও একই ধরনের প্রক্রিয়া অনুসরণ করেছে: পেশাদার সংস্থাগুলোর ব্যবহৃত বিশেষায়িত টুল থেকে শুরু করে ধীরে ধীরে প্রতিটি ব্যক্তিগত ডিভাইসে এর অন্তর্ভুক্তি, যতক্ষণ না মানুষ এর অস্তিত্বই আর উপলব্ধি করে। এআই এখনও সেই পর্যায় থেকে অনেক দূরে; এর ইঞ্জিনিয়ারিং, ইন্টারঅ্যাকশন এবং নির্ভরযোগ্যতার সমস্যাগুলো এখনও পুরোপুরি সমাধান হয়নি। তবে, যেকোনো ডিভাইসে চলার ক্ষমতাই নিঃসন্দেহে এই পথের সবচেয়ে মৌলিক এবং গুরুত্বপূর্ণ পদক্ষেপ।

iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট iFanr (WeChat ID: ifanr) ফলো করুন, যেখানে যত তাড়াতাড়ি সম্ভব আপনার জন্য আরও আকর্ষণীয় কন্টেন্ট উপস্থাপন করা হবে।