স্মার্টফোনের জন্য AI এর ভবিষ্যত ডিভাইসে রয়েছে। অথবা যতটা সম্ভব স্থানীয় AI প্রক্রিয়া করুন। কেন? ঠিক আছে, কাজটি সম্পন্ন করার জন্য আপনার ইন্টারনেট সংযোগের প্রয়োজন নেই। এটি একটি চ্যাটবটকে ব্যাকরণগত ভুলগুলি প্রুফরিড এবং ঠিক করতে বলা, একটি সংক্ষিপ্ত গবেষণা করা, ছবি সম্পাদনা করা বা ক্যামেরার মাধ্যমে আপনার চারপাশের বিশ্বকে ব্যাখ্যা করা।
দ্বিতীয়ত, আপনার ব্যক্তিগত ডেটার কোনোটিই ডিভাইস ছেড়ে দূরবর্তী সার্ভারে প্রক্রিয়াকরণ করতে হবে না। এবং তৃতীয়, এটি দ্রুত হতে যাচ্ছে. একটি মডেল যত ছোট হয়, তত দ্রুত ফলাফল দিতে পারে। এটা একটু দেওয়া-নেওয়ার অবস্থা। একটি হালকা AI মডেল মানে এর ক্ষমতা সীমিত।
একটি বড় AI মডেল, যেমন Gemini বা ChatGPT , পাঠ্য, চিত্র, অডিও বুঝতে পারে এবং এমনকি ভিডিও তৈরি করতে পারে। এইগুলি বড় মডেল, এবং তাদের কাস্টম চিপগুলিতে এক টন প্রক্রিয়াকরণ শক্তির প্রয়োজন। সংক্ষেপে, এটি ঘটানোর জন্য আপনার একটি ইন্টারনেট সংযোগ প্রয়োজন৷ কিন্তু কিছু চমত্কার তৈরি করা হয়, এবং যে কিছু Google থেকে আসে.
এই এআই অ্যাপটি কী?
কয়েক মাস আগে, সংস্থাটি গুগল এআই এজ গ্যালারি নামে একটি অ্যাপ চালু করেছিল। কিছুক্ষণ গিটহাবে থাকার পর, এটি অবশেষে প্লে স্টোরে প্রবেশ করেছে। আদর্শভাবে, এটি ডেভেলপারদের জন্য একটি অ্যাপ যা তাদের অ্যাপের মধ্যে AI অভিজ্ঞতা তৈরি করতে চাইছে, কিন্তু আপনি আপনার বিবেক না হারিয়ে এটি ব্যবহার করে দেখতে পারেন।
এটাকে মার্কেটপ্লেস বা দোকান হিসেবে ভাবুন। কিন্তু অ্যাপস খোঁজার পরিবর্তে, আপনি আপনার ফোনে চালানোর জন্য AI মডেল বেছে নিতে পারেন। আপনি যদি আজ একটি অ্যান্ড্রয়েড ফোন কেনেন, যেমন Pixel 10 Pro, সমস্ত AI বৈশিষ্ট্যগুলি Gemini দ্বারা চালিত হয়। আপনি আলাদাভাবে ChatGPT বা Claude-এর মতো অ্যাপ ডাউনলোড করতে পারেন, কিন্তু তাদের সবার জন্য একটি ইন্টারনেট সংযোগ প্রয়োজন এবং আপনার ডেটা সার্ভারে পাঠান।
Google AI Edge Gallery বিশেষভাবে AI মডেলগুলি অফলাইনে চালানোর জন্য তৈরি করা হয়েছে৷ সুতরাং, আপনি যদি একটি চিত্র বোঝাতে চান বা একটি দীর্ঘ প্রতিবেদনের সংক্ষিপ্তসার করতে চান তবে আপনি এটি সমস্ত অফলাইনে করতে পারেন। এবং এখানে সেরা অংশ. আপনি এটির জন্য একটি ডেডিকেটেড অ্যাপ ইনস্টল না করে আপনার পছন্দের যেকোনো AI মডেল ব্যবহার করে এটি সম্পন্ন করতে পারেন।
সংক্ষেপে, এই অ্যাপটি AI অভিজ্ঞতা চালানোর জন্য একটি ওয়ান-স্টপ শপ, সম্পূর্ণ বিনামূল্যে এবং কোনো ইন্টারনেট সংযোগের প্রয়োজন ছাড়াই। এখন, কেন আপনি এটা করতে চান? ঠিক আছে, আমি কয়েকটি পরিস্থিতির কথা ভাবতে পারি।
কিভাবে এই অ্যাপ্লিকেশন দরকারী?
ধরা যাক আপনি আপনার সেলুলার ডেটা সীমার মধ্যে চলে গেছেন, নিজেকে এমন একটি জায়গায় খুঁজে নিন যেখানে সীমিত কোনো ইন্টারনেট সংযোগ নেই, অথবা আপনি কেবল একটি অনলাইন AI-তে গোপনীয় প্রতিবেদনগুলি খাওয়াতে চান না। হতে পারে আপনি একটি বিশেষ AI চান যা শুধুমাত্র একটি নির্দিষ্ট কাজ করে, যেমন একটি পিডিএফ ফাইলকে বুলেট পয়েন্ট সহ ওয়ান-পেজারে পরিণত করা। অথবা ছবি খাওয়ানো এবং সেগুলির উপর ভিত্তি করে একাডেমিক উপাদান লেখার জন্য একটি এআই পাওয়া।
এই ধরনের সমস্ত পরিস্থিতির জন্য, এবং আরও অনেক কিছুর জন্য, আপনি কেবল Google AI Edge Gallery-এ যেতে পারেন, আপনার পছন্দের AI মডেলটি চালাতে পারেন এবং জিনিসগুলি সম্পন্ন করতে পারেন৷ এই মুহূর্তে, আপনার প্রয়োজনীয় সমস্ত "সামঞ্জস্যপূর্ণ" মডেলগুলি HuggingFace LiteRT কমিউনিটি লাইব্রেরি থেকে ডাউনলোড করা যেতে পারে৷
এখানে, আপনি Gemma সিরিজে Google দ্বারা তৈরি কিছু মোটামুটি শক্তিশালী AI মডেল পাবেন। এগুলি মাল্টিমোডাল ক্ষমতার সাথে আসে, যার অর্থ তারা পাঠ্য, চিত্র এবং অডিও জেনারেশন পরিচালনা করতে পারে। যাইহোক, আপনি ডিপসিক, স্মোলভিএলএম, মাইক্রোসফ্টের ফি-4 মিনি এবং মেটার লামা-এর মতো অন্যান্য এআই মডেলগুলির সাথে পরীক্ষা করতে পারেন।
এখন, আমি একটি সংক্ষিপ্ত প্রযুক্তিগত ওভারভিউ দিতে. Google AI Edge Gallery-এর জন্য উপলব্ধ এই সমস্ত AI মডেলগুলি LiteRT নামে পরিচিত উচ্চ-পারফরম্যান্স রানটাইমের জন্য অপ্টিমাইজ করা হয়েছে, যা বিশেষভাবে অন-ডিভাইস AI কাজের জন্য তৈরি করা হয়েছে। ঠিক উপরে উল্লিখিত AI মডেলগুলির মতো, LiteRTও বড় ভাষা মডেলের (LLMs) জন্য একটি ওপেন-সোর্স রানটাইম।
আপনি যদি TensorFlow বা PyTorch-এর মতো সরঞ্জামগুলির সাথে ভালভাবে পারদর্শী হন, তাহলে আপনি এমনকি আপনার পিসিতে সংরক্ষিত যেকোন উপযুক্ত "কম্প্যাক্ট" এআই মডেল আমদানি করতে পারেন। কিন্তু প্রথমে, আপনাকে ফাইলগুলিকে .litertlm বা .task ফাইল ফরম্যাটে রূপান্তর করতে হবে৷ একবার সেখানে গেলে, আপনাকে যা করতে হবে তা হল ফোনের "ডাউনলোড" ফোল্ডারে প্যাকেজটি পুশ করুন এবং কয়েকটি ট্যাপ দিয়ে Google AI এজ গ্যালারিতে আমদানি করুন৷
অভিজ্ঞতা কেমন?
আমি বেশিরভাগই জেমা 3n মডেলের সাথে খেলেছি, যেহেতু এটি একটি গুচ্ছের মধ্যে সবচেয়ে বহুমুখী। চ্যাটগুলি ছাড়াও, এটি ছবিগুলি প্রক্রিয়া করতে এবং অডিও তৈরি করতে পারে। আপনি একটি মডেল সিপিইউ বা জিপিইউতে চলে কিনা তা নির্বাচন করতে পারেন, স্যাম্পলিং এবং তাপমাত্রা সামঞ্জস্য করতে পারেন।
পরেরটি, সহজ কথায়, একটি AI এর উত্তরগুলি কতটা বৈচিত্র্যময় হতে পারে তার একটি পরিমাপ। নিম্ন তাপমাত্রা এমন আউটপুট তৈরি করে যা আরও অনুমানযোগ্য, নির্দিষ্ট এবং কিছুটা পুনরাবৃত্তিমূলক। উচ্চ তাপমাত্রা মূলত সঠিক উত্তর তৈরি করে, কিন্তু অতিরিক্ত সৃজনশীল ইনপুট এবং ত্রুটির উচ্চ সম্ভাবনা সহ।
এখন, আপনাকে এই ক্ষেত্রগুলির সাথে খুব বেশি খেলতে হবে না। প্রতিক্রিয়া হারের পরিপ্রেক্ষিতে একটি AI মডেল কতটা ভালভাবে CPU বা GPU তে চলে তা নিয়ে পরীক্ষা করুন এবং সেই অনুযায়ী এটিকে সেভাবেই রাখুন। আমি মোটামুটি নয়টি মডেল নিয়ে পরীক্ষা-নিরীক্ষা করেছি এবং টেকওয়ে মিশ্রিত হয়েছে।
এর পার্থক্য দিয়ে শুরু করা যাক. আমি আমার বিড়ালের একটি ছবি শেয়ার করেছি এবং মিথুনকে প্রজাতি সনাক্ত করতে বলেছি। এটা তিন সেকেন্ডের মধ্যে তাই করেছে. একই প্রশ্ন যখন জেমা 3n এর আগে পুশ করা হয়েছিল, তখন এটি 11 সেকেন্ড সময় নেয়। প্রতিক্রিয়া সঠিক ছিল, কিন্তু একটু সংক্ষিপ্ত. আপনি যদি অন-পয়েন্ট উত্তর পছন্দ করেন তবে আপনি এই পদ্ধতিটি পছন্দ করতে পারেন। কিছু ক্ষেত্রে, আপনি ত্রুটির মধ্যে পড়তে পারেন, বিশেষ করে মাল্টি-মডেল প্রশ্নগুলির সাথে, তাই আপনি এক্সিলারেটর (সিপিইউ এবং জিপিইউ) পরিবর্তন করতে চান এবং এটি জিনিসগুলির গতি বাড়ায় কিনা তা দেখতে চান।
একইভাবে, পাঠ্য প্রক্রিয়াকরণও কিছুটা ধীর হতে পারে। যখন আমি প্রায় 900 শব্দ মূল্যের একটি নিবন্ধ পুশ করি এবং আলিবাবার কুয়েন 2.5 মডেলটিকে বুলেট পয়েন্ট হিসাবে সংক্ষিপ্ত করতে বলেছিলাম, তখন এটি শুরু করতে প্রায় 20 সেকেন্ডের নিজস্ব মিষ্টি সময় নেয়। মাইক্রোসফ্টের ফি-4 মিনি কাজটিতে লক্ষণীয়ভাবে দ্রুত ছিল, তবে আমি Qwen 2.5 এর চিন্তাশীল বিন্যাস পছন্দ করেছি।
Gemma 3n-E2B মডেলটি টাস্কে দ্রুততম ছিল, এবং আট সেকেন্ডেরও কম সময়ে সর্বোচ্চ মানের প্রতিক্রিয়া প্রদান করেছিল। আরও শক্তিশালী Gemma-3n-E4B সিপিইউতে চলাকালীন প্রায় সাত সেকেন্ডের মধ্যে একই নিবন্ধের টোনকে পুনরায় ফর্ম্যাট করতে এবং আনুষ্ঠানিক করতে পরিচালিত করে।
অডিও ট্রান্সক্রিপশন, যদিও 30-সেকেন্ডের ক্লিপগুলিতে সীমাবদ্ধ, এটি কেবল দুর্দান্ত। Google এর Gemma 3n-E2B মডেলটি একটিও ভুল করেনি এবং প্রতিলিপিকৃত অডিও ক্লিপের সংক্ষিপ্তসারে একটি দুর্দান্ত কাজ করেছে। 10 সেকেন্ডেরও কম সময়ের মধ্যে যা ঘটেছিল।
সমস্ত মডেল জিপিইউ ত্বরণের সাথে ভাল কাজ করে না, তাই আপনাকে সেগুলিকে সিপিইউ থেকে চালাতে হবে। Gemma3-1B মিনিটের জন্য প্রক্রিয়াকরণে আটকে ছিল। ত্বরণ বিন্যাস পরিবর্তন করার চেষ্টা করা অ্যাপটি ক্র্যাশ করে, বিশেষত Qwen এবং Phi-4 মিনির সাথে। ইতিবাচক দিক থেকে, Phi-4 মিনি সিপিইউতে চলার সময় নির্দিষ্ট নিবন্ধ বিন্যাসকরণ কার্যগুলিতে জেমার মতো প্রায় দ্রুত ছিল।
ভবিষ্যতের দিকে উঁকি দেওয়া
এখন, এই অ্যাপটি সব ফোনে চলবে না। অন্ততপক্ষে, এটির জন্য একটি শক্তিশালী NPU বা AI অ্যাক্সিলারেটর চিপ সহ একটি প্রসেসর প্রয়োজন, এবং বিশেষত, 8GB বা তার বেশি RAM। আমি Google Pixel 10 Pro তে আমার পরীক্ষা চালিয়েছি এবং এটি টোস্টী হয়নি। অতিরিক্তভাবে, যদি আপনি AI মডেলগুলি চালাতে চান যা বর্তমানে LiteRT গ্যালারিতে উপলব্ধ নয় তবে আপনার কিছু প্রযুক্তিগত জ্ঞানের প্রয়োজন হবে।
সামগ্রিকভাবে, গুগলের এআই এজ গ্যালারি অ্যাপটি আপনার ফোনে জেমিনি বা অন্য কোনও ইন্টারনেট-সংযুক্ত চ্যাটবট অ্যাপ্লিকেশনের জন্য পুরোপুরি প্রতিস্থাপন নয়। অন্তত এখনো না। কিন্তু এটা আসছে উজ্জ্বল জিনিস একটি চিহ্ন. HuggingSnap অ্যাপ ছাড়া আর দেখুন না, যা একটি ওপেন-সোর্স মডেলে চলে, সম্পূর্ণ অফলাইনে, কিন্তু একটি iPhone এ ভিজ্যুয়াল ইন্টেলিজেন্স সক্ষমতা সক্ষম করে৷
যেহেতু মোবাইল প্রসেসরগুলি হার্ডওয়্যার স্তরে আরও AI-বন্ধুত্বপূর্ণ হয়ে ওঠে এবং আমরা ডিভাইসে কাজগুলির জন্য অপ্টিমাইজ করা আরও AI মডেলগুলি পাই, তাই Google AI গ্যালারির মতো অ্যাপগুলি প্রকৃতপক্ষে দরকারী AI কাজের একটি কেন্দ্র হিসাবে কাজ করতে পারে৷ একটি আরও ব্যক্তিগত হাব, যা সম্পূর্ণ অনলাইনে চলে এবং এটিতে থাকাকালীন কোনো ফি চার্জ করে না।
