আমরা সিনেমা এবং টিভি শোতে অনেক রোবটকে নিয়ন্ত্রণের বাইরে যেতে দেখেছি। আমরা হৃদয় দিয়ে কিছু সমাধানও শিখেছি: ইন্টারনেট সংযোগ বিচ্ছিন্ন করুন, পাওয়ার কর্ডটি আনপ্লাগ করুন এবং রোবট পুনরায় চালু করুন এবং এটি এক ক্লিকে পুনরায় তৈরি করা হবে।
কিন্তু এখন, এই প্রক্রিয়াটি এত ভাল কাজ নাও করতে পারে।
আজ, Google DeepMind একটি নতুন রোবট নিয়ন্ত্রণ মডেল চালু করেছে – Gemini Robotics অন-ডিভাইস। এই বড় মডেলটি রোবটে স্থানীয়ভাবে চলতে পারে এবং ভিজ্যুয়াল রিকগনিশন, ভাষা বোঝা এবং অ্যাকশন এক্সিকিউশনকে একীভূত করে।
এর সবচেয়ে বড় হাইলাইট হল সম্পূর্ণ অফলাইনে থাকাকালীনও, এটি মানুষের নির্দেশাবলী বুঝতে পারে এবং কাজগুলি সুচারুভাবে সম্পন্ন করতে পারে।

চ্যাটজিপিটি এবং জেমিনির মতো বড় মডেলের সাথে তুলনা করে যা চ্যাটিং, লেখা এবং প্রশ্নের উত্তর দিতে পারদর্শী, জেমিনি রোবোটিক্স অন-ডিভাইস রোবটটিকে একটি বাস্তব "মস্তিষ্ক" দিয়ে সজ্জিত করে, এটিকে একই রকম বোঝাপড়া এবং কার্যকর করার ক্ষমতার অনুমতি দেয়।
এটি মূলত একটি VLA বেসিক মডেল যা বিশেষভাবে ডুয়াল-আর্ম রোবটের জন্য ডিজাইন করা হয়েছে। নাম থেকে বোঝা যায়, দৃষ্টি + ভাষা + কর্মের সমন্বয়ের অর্থ হল এটি দেখতে, শুনতে, বুঝতে এবং নড়াচড়া করতে পারে, যা এর মৌলিক গুণাবলী।
উদাহরণস্বরূপ, আপনি রোবটকে একটি অনুরোধ করতে পারেন: "অনুগ্রহ করে এই পোশাকটি ভাঁজ করুন, এটি ব্যাকপ্যাকে রাখুন এবং এটি জিপ করুন।" অতীতে, এটির জন্য প্রোগ্রাম লেখার প্রয়োজন ছিল এবং অগ্রিম ক্রিয়াকলাপ ভেঙে ফেলার প্রয়োজন ছিল। এখন জেমিনি অন-ডিভাইস সরাসরি এই বাক্যের অর্থ বুঝতে পারে এবং তারপর ধাপে ধাপে এটি কার্যকর করতে পারে।

তাহলে কেন এটি স্থানীয়ভাবে চালানোর জন্য বিরক্ত করবেন যখন এটি ইন্টারনেটে চালানো যেতে পারে? উত্তরটি গতি এবং স্থিতিশীলতা ছাড়া আর কিছুই নয়।
যদি রোবটটিকে ক্লাউডে ডেটা প্রেরণ করার প্রয়োজন হয়, সার্ভারটি বিশ্লেষণ করার জন্য অপেক্ষা করুন এবং তারপর ফলাফলগুলি ফিরিয়ে দিন, অনিবার্যভাবে বিলম্ব হবে। চিকিৎসা কার্যক্রম, দুর্যোগে ত্রাণ এবং কারখানার অটোমেশনের মতো কাজে, বিলম্ব সহনশীলতা প্রায় শূন্য। তাছাড়া, বাস্তবে, অনেক জায়গায় নেটওয়ার্কের অবস্থা খারাপ বা এমনকি নেটওয়ার্ক নেই।
প্রকৃতপক্ষে, রোবটকে জটিল এবং গতিশীল বাস্তব-বিশ্বের কাজগুলি সফলভাবে মোকাবেলা করতে সক্ষম করা সবসময়ই AI এর ক্ষেত্রে ক্র্যাক করার জন্য সবচেয়ে কঠিন কাজ।
সর্বজনীন ভিডিওগুলি থেকে, আমরা দেখতে পাচ্ছি যে জেমিনি অন-ডিভাইস ইতিমধ্যেই বিভিন্ন সাধারণ পরিস্থিতি পরিচালনা করতে সক্ষম, যেমন কাপড় ভাঁজ করা, জিপ করা, অপরিচিত বস্তুগুলি দখল করা এবং নির্দিষ্ট স্থানে স্থাপন করা। এই সব তার শেখার প্রক্রিয়া ধন্যবাদ.

▲দৃঢ় সাধারণীকরণ ক্ষমতা
এটি স্ক্র্যাচ থেকে দীর্ঘমেয়াদী প্রশিক্ষণের প্রয়োজন হয় না। ডেভেলপারদের শুধুমাত্র 50 থেকে 100টি ম্যানুয়াল প্রদর্শন প্রদান করতে হবে, যেমন কাপড় ভাঁজ করার জন্য রোবটকে ব্যক্তিগতভাবে নিয়ন্ত্রণ করা এবং মডেলটি দ্রুত শিখতে এবং স্বাধীনভাবে কাজ করতে পারে।
আরও চ্যালেঞ্জিং ডিস্ট্রিবিউটেড টাস্ক বা জটিল বহু-পদক্ষেপ নির্দেশ বাস্তবায়নে, জেমিনি রোবোটিক্স অন-ডিভাইস অন্যান্য বর্তমান স্থানীয় বিকল্পগুলিকে ছাড়িয়ে যাচ্ছে।

অধিকন্তু, এটি অত্যন্ত অভিযোজিত।
যদিও Gemini Robotics অন-ডিভাইসটি মূলত Google-এর স্ব-উন্নত ALOHA ডুয়াল-আর্ম রোবট প্ল্যাটফর্মে প্রশিক্ষিত ছিল, সামান্য অভিযোজন সহ, এটি ফ্রাঙ্কা FR3 শিল্প রোবট আর্মেও স্থিরভাবে চলতে পারে।
এমনকি গঠনগতভাবে ভিন্ন হিউম্যানয়েড রোবট অ্যাপোলো মসৃণভাবে চলতে পারে, একই সাধারণ মডেল অল্প পরিমাণ শিক্ষার মাধ্যমে সম্পূর্ণ ভিন্ন শরীরের আকারে অভ্যস্ত হয়ে উঠতে পারে।

আদর্শভাবে, বিকাশকারীদের প্রতিটি নতুন রোবটের জন্য একটি AI পুনরায় প্রশিক্ষণের প্রয়োজন নেই। পরিবর্তে, তাদের শুধুমাত্র একবার একটি সাধারণ মডেলকে প্রশিক্ষণ দিতে হবে, এবং তারপর লাইটওয়েট ট্রান্সফার শেখার মাধ্যমে বিভিন্ন রোবট প্ল্যাটফর্মে এটি স্থাপন করতে হবে। এই "একাধিক ব্যবহারের জন্য একটি মডেল" সক্ষমতা রোবোটিক্স প্রযুক্তির জনপ্রিয়করণ এবং প্রয়োগকে ত্বরান্বিত করবে বলে আশা করা হচ্ছে।
অবশ্যই, আদর্শ হলেও, এর ত্রুটিগুলিও রয়েছে।
রোবটগুলি আরও বুদ্ধিমান এবং স্বায়ত্তশাসিত হওয়ার সাথে সাথে সুরক্ষার প্রয়োজনীয়তাও বৃদ্ধি পায়। যদিও মিথুন অন-ডিভাইস ক্রিয়া সম্পাদন করতে পারে, তবে আপনার দেওয়া টাস্কটি নিরাপদ কিনা তা যুক্তিসঙ্গতভাবে নির্ধারণ করতে পারে না। অতএব, একটি "নিরাপত্তা বল্টু" মডেল যোগ করা আবশ্যক.

ডিপমাইন্ডের পরামর্শ হল যে ডেভেলপাররা মডেলটিকে গুগল জেমিনি লাইভ এপিআই ইন্টারফেসের সাথে সংযুক্ত করতে পারে, সিস্টেমটিকে প্রথমে নির্দেশটি যুক্তিসঙ্গত কিনা তা নির্ধারণ করতে দেয় এবং তারপরে এটি কার্যকর করা যায় কিনা তা সিদ্ধান্ত নিতে পারে; একই সময়ে, দুর্ঘটনা রোধ করতে কর্ম স্তরে শারীরিক সীমাবদ্ধতা নির্ধারণ করুন, যেমন বল, কোণ এবং গতি।
উপরন্তু, মডেলের বহু-পদক্ষেপের যৌক্তিক পরিকল্পনার ক্ষমতার উন্নতির জন্য এখনও জায়গা রয়েছে।
যে ক্রিয়াকলাপগুলির জন্য যৌক্তিক এবং অনুক্রমিক ব্যবস্থার প্রয়োজন হয়, যেমন স্যান্ডউইচ তৈরি করা এবং ডেস্কটপকে পরিপাটি করা, এখনও এটির আরাম অঞ্চলে নেই৷ এটি মিথুন 2.0 স্থাপত্যের সাথে সম্পর্কিত যা এটির উপর ভিত্তি করে। ভবিষ্যতে, এটি 2.5-এ উন্নীত হওয়ার কারণে, সক্ষমতার এই অংশটিও সম্পূরক হতে পারে।
আরেকটি ব্যবহারিক চ্যালেঞ্জ হল ডেটা।
যদিও এটি শুরু করতে মাত্র কয়েক ডজন বিক্ষোভের সময় লাগে, সবচেয়ে আদর্শ প্রদর্শন হল প্রকৃত মানুষ যখন ভার্চুয়াল সিমুলেশনের পরিবর্তে রোবটটি পরিচালনা করে তখন প্রকৃত তথ্য সংগ্রহ করে। এই ধরণের ডেটা সহ প্রশিক্ষণের ফলাফলগুলি দ্রুত, আরও নির্ভুল এবং আরও স্থিতিশীল।

▲প্রযুক্তিগত প্রতিবেদনের ঠিকানা: https://arxiv.org/pdf/2503.20020
প্রজেক্ট লিডার ক্যারোলিনা প্যারাডার মতে, এই প্রথম Google একটি রোবোটিক্স এআই মডেল প্রকাশ করেছে যা সম্পূর্ণরূপে ক্লাউড থেকে স্বাধীন, এবং এটিও প্রথম সংস্করণ যা ডেভেলপাররা তাদের নিজস্ব চাহিদা অনুযায়ী সূক্ষ্ম সুর করতে পারে।
বর্তমানে, ডিপমাইন্ড জেমিনি রোবোটিক্স অন-ডিভাইস SDK খুলেছে এবং "বিশ্বস্ত পরীক্ষকদের" মডেল অ্যাক্সেস করেছে। আপনি যদি একজন ডেভেলপার হন যা রোবট ডেভেলপমেন্ট, ইন্ডাস্ট্রিয়াল অটোমেশন বা ইন্টেলিজেন্ট সিস্টেম রিসার্চ করছেন, আপনি এখনই ট্রায়ালের জন্য আবেদন করতে পারেন।
আবেদনের লিঙ্ক সংযুক্ত করুন: https://docs.google.com/forms/d/1sM5GqcVMWv-KmKY3TOMpVtQ-lDFeAftQ-d9xQn92jCE/edit?ts=67cef986
#iFanr: iFanr (WeChat ID: ifanr) এর অফিসিয়াল WeChat পাবলিক অ্যাকাউন্ট অনুসরণ করতে স্বাগতম, যেখানে যত তাড়াতাড়ি সম্ভব আরও উত্তেজনাপূর্ণ বিষয়বস্তু আপনার কাছে উপস্থাপন করা হবে।
