জেমিনি ৩ অবশেষে মুক্তি পেয়েছে। এর আসল তুরুপের তাস কী?

যখন জেমিনি ৩ প্রো প্রিভিউ ভার্সনটি প্রকাশিত হয়েছিল, তখন অনেকের প্রথম প্রতিক্রিয়া সম্ভবত ছিল: অবশেষে এটি এখানে ।

প্রায় এক মাস ধরে টিজার এবং ফাঁসের পর—শক্তিশালী পরামিতি, বুদ্ধিদীপ্ত অনুমান এবং আরও বিস্তৃত গ্রাফিক্স সম্পর্কে মাঝে মাঝে ইঙ্গিত সহ—সবাই এটি দেখতে আগ্রহী। এর সাথে OpenAI এবং Gork এর পাল্টা আক্রমণ যোগ করলে এটা স্পষ্ট যে Gemini 3 একটি বিশাল রিলিজ হবে।

জেমিনি ৩ এর প্রধান বিক্রয় বিষয়গুলোও পরিচিত: শক্তিশালী যুক্তি, আরও স্বাভাবিক সংলাপ এবং আরও নেটিভ মাল্টিমোডাল বোঝাপড়া। সরকারী দাবি হল যে এটি বিভিন্ন একাডেমিক মানদণ্ডে জেমিনি ২.৫ কে ছাড়িয়ে গেছে।

তবে, যদি আমরা কেবল এই সংখ্যাগুলির উপর মনোনিবেশ করি, তাহলে আরও গুরুত্বপূর্ণ একটি পরিবর্তন উপেক্ষা করা সহজ হবে:

জেমিনি ৩ মডেল আপগ্রেডের মতো কম মনে হয়, বরং এর আশেপাশে থাকা গুগল স্যুটের "সিস্টেম আপডেট" এর মতো বেশি মনে হয়।

মডেল আপগ্রেডের বিষয়ে, গুগল ইতিমধ্যেই তার অবস্থান বেশ স্পষ্ট করে দিয়েছে।

প্রথমে "কঠিন মেট্রিক্স" দ্রুত দেখে নেওয়া যাক, যাতে সকলের স্পষ্ট ধারণা থাকে:

– যুক্তির ক্ষমতা: সরকারী বিবৃতিতে জোর দেওয়া হয়েছে যে জেমিনি ৩ প্রো হিউম্যানিটি'স লাস্ট এক্সাম, জিপিকিউএ ডায়মন্ড এবং ম্যাথঅ্যারেনার মতো বেশ কিছু উচ্চ-কঠিন যুক্তি এবং গাণিতিক মানদণ্ডে নতুন উচ্চ স্কোর অর্জন করেছে, যা এটিকে "ডক্টরাল-স্তরের যুক্তি মডেল" হিসেবে স্থান দিয়েছে।
– মাল্টিমোডাল কম্প্রিহেনশন: তারা কেবল ছবি এবং পিডিএফ দেখতেই পারে না, বরং দীর্ঘ ভিডিও এবং মাল্টিমোডাল পরীক্ষায় (MMMU-Pro, Video-MMMU) শিল্প-শীর্ষস্থানীয় স্কোর অর্জন করতে পারে, যা ছবি বর্ণনা করার এবং ভিডিও থেকে মূল বিষয়গুলি সংক্ষিপ্ত করার ক্ষমতায় উল্লেখযোগ্য উন্নতি প্রদর্শন করে।
-ডিপ থিঙ্ক মোড: ARC-AGI পরীক্ষাগুলি দেখায় যে ডিপ থিঙ্ক সক্ষম করার ফলে নতুন ধরণের সমস্যা সমাধানে লক্ষণীয় উন্নতি ঘটে।

এই দৃষ্টিকোণ থেকে, জেমিনি ৩-কে "২.৫ মডেলের তুলনায় সাধারণ উদ্দেশ্যের একটি স্মার্ট প্রজন্ম" হিসেবে শ্রেণীবদ্ধ করা সহজ। কিন্তু যদি এটুকুই হয়, তাহলে এটি লিডারবোর্ডে একটি নতুন নাম। এমনকি জোশ উডওয়ার্ডও একটি সাক্ষাৎকারে বলেছিলেন যে এই কঠিন মেট্রিক্সগুলি শুধুমাত্র একটি রেফারেন্স হিসেবে ব্যবহার করা উচিত।

অন্য কথায়, "কত পয়েন্ট পেয়েছি" হল স্কোর উপস্থাপনের একটি তুলনামূলক স্বজ্ঞাত উপায়। আসল আকর্ষণীয় বিষয় হলো গুগল এটিকে কোথায় অন্তর্ভুক্ত করেছে এবং এর সাথে কী সংযোগ স্থাপন করতে চায়। এই আপডেটে, "নেটিভ মাল্টিমোডাল" স্পষ্টতই সর্বোচ্চ অগ্রাধিকার।

যদি আমরা বর্তমান বৃহৎ মডেলগুলির জন্য একটি বিভাজন রেখা খুঁজে বের করি, তাহলে তা হবে: তারা কি কেবল "মাল্টিমোডাল সমর্থন করে" নাকি তারা শুরু থেকেই "স্থানীয়ভাবে মাল্টিমোডাল" হওয়ার জন্য ডিজাইন করা হয়েছিল?

এই ধারণাটি গুগল ২০২৩ সালে জেমিনি ১ যুগে প্রস্তাব করেছিল এবং তখন থেকেই এটি তাদের কৌশলের মূল বিষয় হয়ে দাঁড়িয়েছে: প্রথমে একটি বৃহৎ টেক্সট মডেলকে প্রশিক্ষণ দেওয়ার এবং তারপর ভিজ্যুয়াল এবং স্পিচ সাব-মডেল সংযুক্ত করার পরিবর্তে, শুরু থেকেই প্রাক-প্রশিক্ষণ ডেটাতে টেক্সট, কোড, ছবি, অডিও এবং ভিডিওর মতো একাধিক পদ্ধতি মিশ্রিত করা।

মাল্টিমোডাল প্রক্রিয়াকরণের ক্ষেত্রে অতীতে অনেক মডেল যে কৌশলটি ব্যবহার করেছে তা হল পরবর্তী পদ্ধতি। মূলত, এটি এখনও "পাইপলাইন-শৈলী": প্রথমে বক্তৃতাকে ASR-এ ফিড করতে হবে, এবং তারপর রূপান্তরিত পাঠ্যকে ভাষা মডেলে ফিড করতে হবে; চিত্র প্রক্রিয়াকরণ প্রথমে একটি স্বাধীন ভিজ্যুয়াল এনকোডারের মধ্য দিয়ে যেতে হবে, এবং তারপরে বৈশিষ্ট্যগুলি ভাষা মডেলের সাথে সংযুক্ত করা হবে।

জেমিনি ৩ এই পাইপলাইনটি ভাঁজ করার চেষ্টা করে: একই বৃহৎ ট্রান্সফরমারটি প্রাক-প্রশিক্ষণ পর্যায়ে একই সাথে টেক্সট, ছবি, অডিও এবং এমনকি ভিডিও স্লাইস দেখে, যা একই উপস্থাপনা স্থানে এই সংকেতগুলির মিল এবং পার্থক্যগুলি শিখতে সাহায্য করে।

কম প্রক্রিয়াকরণ ধাপ মানে কম তথ্য ক্ষতি। একটি মডেলের জন্য, নেটিভ মাল্টিমোডাল লার্নিং কেবল "আরও ইনপুট ফর্ম্যাট শেখা" নয়, বরং অপ্রয়োজনীয় ধাপগুলি বাদ দেওয়ার বিষয়ে। এই ধাপগুলি কমানোর অর্থ হল আরও সম্পূর্ণ স্বর, ঘন দৃশ্যমান বিবরণ এবং আরও সঠিক সময়গত ক্রম সংরক্ষণ করা যেতে পারে।
আরও গুরুত্বপূর্ণ বিষয় হল, এটি অ্যাপ্লিকেশন স্তরের উপর একটি বৈপ্লবিক প্রভাব ফেলে: যখন একটি মডেল শুরু থেকেই ধরে নেয় যে "পৃথিবীটি বহুমুখী," তখন এটি যে পণ্যগুলি তৈরি করে তা সাধারণ প্রশ্নোত্তর রোবটগুলির চেয়ে মিথস্ক্রিয়ার একটি নতুন রূপের মতো।

অনুসন্ধান থেকে অ্যান্টিগ্র্যাভিটি পর্যন্ত, একটি নতুন বাসের জন্ম হয়।

জেমিনি ৩ চালু হওয়ার সাথে সাথে, গুগল সার্চ বারে এআই মোডও আপডেট করেছে। এই মোডে, আপনি আর নীল লিঙ্কের সারি দেখতে পাবেন না, বরং জেমিনি ৩ দ্বারা তৈরি গতিশীল সামগ্রীর একটি সম্পূর্ণ ক্ষেত্র দেখতে পাবেন—যার মধ্যে সারাংশ, কাঠামোগত কার্ড এবং টাইমলাইন অন্তর্ভুক্ত থাকতে পারে। যদিও এটি শর্তসাপেক্ষে ট্রিগার করা হয়, মডেলটি প্রকাশের পরে অনুসন্ধান সরাসরি অনুসরণ করা বিরল।

আরও বিশেষ বিষয় হল, AI মোডটি জেমিনি 3 ব্যবহারকে সমর্থন করে যাতে নতুন জেনারেটিভ UI অভিজ্ঞতা, যেমন ইমারসিভ ভিজ্যুয়াল লেআউট, ইন্টারেক্টিভ টুল এবং সিমুলেশন সক্ষম করা যায় – যার সবকটিই কোয়েরি কন্টেন্টের উপর ভিত্তি করে রিয়েল টাইমে তৈরি করা হয়।

এই পদ্ধতিটি গুগলের বিভিন্ন পণ্যে গৃহীত এবং জনপ্রিয় হয়েছে। আনুষ্ঠানিকভাবে, এটিকে "চিন্তাশীল অংশীদার" হিসাবে বর্ণনা করা হয়েছে, যা আরও সরাসরি উত্তর, কম অলস কথা, আরও "নিজস্ব দৃষ্টিভঙ্গি" এবং আরও "স্ব-পরিচালিত পদক্ষেপ" প্রদান করে।

এর মাল্টিমোডাল ক্ষমতার সাহায্যে, আপনি এটিকে কারও গেম খেলার ভিডিও দেখতে দিতে পারেন এবং নড়াচড়ার সমস্যা সনাক্ত করতে এবং একটি প্রশিক্ষণ পরিকল্পনা তৈরি করতে সাহায্য করতে পারেন; একটি অডিও লেকচার শুনুন এবং এটি কুইজের সাথে একটি লার্নিং কার্ড তৈরি করতে পারে; অথবা বেশ কয়েকটি হাতে লেখা নোট, পিডিএফ এবং ওয়েব পৃষ্ঠাগুলিকে ছবি এবং পাঠ্য সহ একটি বিস্তৃত সারসংক্ষেপে একত্রিত করতে পারে।

এই অংশটি অনেকটা "সুপার পার্সোনাল অ্যাসিস্ট্যান্ট" আখ্যানের মতো: জেমিনি 3 অ্যাপটিতে ঢোকানোর পর, এটি "তুমি কম চিন্তা করো, আমি আরও কাজ করব" এই স্টাইলে শেখার, জীবনযাপনের এবং হালকা অফিসের কাজের জন্য দৈনন্দিন ব্যবহারের বিষয়গুলি কভার করার চেষ্টা করে।

API-এর দিক থেকে, Gemini 3 Pro আনুষ্ঠানিকভাবে "এজেন্সি কোডিং এবং ভাইব কোডিংয়ের জন্য সবচেয়ে উপযুক্ত" হিসাবে তালিকাভুক্ত: অর্থাৎ, এটি কেবল ফ্রন্ট-এন্ড লিখতে এবং ইন্টারঅ্যাকশন তৈরি করতে পারে না, বরং জটিল কাজগুলিতে ধাপে ধাপে সরঞ্জামগুলি কল করতে এবং উন্নয়নমূলক কাজগুলি সম্পূর্ণ করতে পারে।

এবার সবচেয়ে চিত্তাকর্ষক বিষয় হল জেমিনির "সম্পূর্ণ" অ্যাপ্লিকেশন সরঞ্জাম তৈরি করার ক্ষমতা।

এটি আমাদের নতুন প্রকাশিত IDE পণ্যের দিকে নিয়ে যায়: অ্যান্টিগ্র্যাভিটি। আনুষ্ঠানিকভাবে, এটি একটি উন্নয়ন পরিবেশ হিসাবে কল্পনা করা হয়েছে "এআইকে নায়ক হিসেবে"। এটি নিম্নলিখিত পদ্ধতিগুলির মাধ্যমে অর্জন করা হয়:

– একাধিক এআই এজেন্ট সরাসরি সম্পাদক, টার্মিনাল এবং ব্রাউজার অ্যাক্সেস করতে পারে;

তারা কাজ ভাগ করে নেবে: কেউ কোড লিখবে, কেউ ডকুমেন্টেশন দেখবে, এবং কেউ পরীক্ষা চালাবে;

– সমস্ত ক্রিয়াকলাপ আর্টিফ্যাক্ট হিসাবে রেকর্ড করা হবে: টাস্ক লিস্ট, এক্সিকিউশন প্ল্যান, ওয়েবপেজের স্ক্রিনশট, ব্রাউজার স্ক্রিন রেকর্ডিং ইত্যাদি, যাতে মানুষ পরে "আপনি কী করেছেন" তা পরীক্ষা করতে পারে।

একটি পরীক্ষায় যেখানে একজন ইউটিউবার জেমিনির প্রোডাক্ট ম্যানেজারের সাক্ষাৎকার নিয়েছিলেন, কাজটি ছিল একটি নিয়োগ ওয়েবসাইট ডিজাইন করা, এবং কমান্ডটি এত সহজ ছিল যে এটি ছিল কেবল কপি, কপি, সবকিছু কপি করা, কোনও পরিবর্তন না করে, এবং কেবল পেস্ট করা।

অবশেষে, জেমিনি স্বাধীনভাবে এলোমেলো লেখাটির বিশ্লেষণ সম্পন্ন করে এবং প্রকৃতপক্ষে একটি সম্পূর্ণ ওয়েবসাইট তৈরি করে। এটি সমস্ত উপাদান কনফিগারেশন এবং স্থাপনার কাজ নিজেই পরিচালনা করে।

এই দৃষ্টিকোণ থেকে, জেমিনি ৩ কেবল একটি "স্মার্ট মডেল" নয়, বরং একটি নতুন বাস যা গুগল অনুসন্ধান, অ্যাপস, ওয়ার্কস্পেস এবং ডেভেলপার সরঞ্জামগুলিকে একসাথে আবদ্ধ করতে ব্যবহার করতে চায়।

সবচেয়ে স্বজ্ঞাত অনুভূতিতে ফিরে যাই: জেমিনি 3 এবং এর পূর্বসূরীর মধ্যে সবচেয়ে স্পষ্ট পার্থক্য হল এটি "আপনাকে সহযোগিতা করতে সাহায্য করার" ক্ষেত্রে আরও ইচ্ছুক এবং আরও ভাল। গুগলও এর কাছ থেকে এটিই প্রত্যাশা করে।

সকল পক্ষের উপর চাপ প্রয়োগ করা হচ্ছে।

গুগলের বাইরেও, জেমিনি ৩ প্রিভিউ সংস্করণটি আসলে সমগ্র বৃহৎ মডেল শিল্পের জন্য একটি নতুন গেমের দ্বার উন্মোচন করেছে: মাল্টিমোডাল ক্ষমতা অ্যাপ্লিকেশনের বিস্ফোরণ অনিবার্য।

পূর্বে, মাল্টিমোডাল ক্ষমতা (দেখা এবং শোনার ক্ষমতা) একটি বোনাস ছিল; এখন, "নেটিভ মাল্টিমোডাল" একটি মৌলিক প্রয়োজন হবে – এবং এটি অর্ধ-বেকড অনুকরণ হতে পারে না। জেমিনি 3 এর এন্ড-টু-এন্ড অডিওভিজ্যুয়াল বোঝার ক্ষমতা ওপেনএআই, অ্যানথ্রপিক (ক্লড) এবং ওপেন-সোর্স সম্প্রদায়কে পুরানো দৃষ্টান্তগুলি পর্যায়ক্রমে বাদ দেওয়ার প্রক্রিয়া ত্বরান্বিত করতে বাধ্য করবে। মডেল নির্মাতারা যারা এখনও ছবি বোঝার জন্য "স্ক্রিনশট + ওসিআর" এর উপর নির্ভর করে, তাদের জন্য প্রযুক্তিগত গণনা শুরু হয়েছে।

"শেল" এবং মাঝের স্তরটিও প্রচণ্ড চাপ অনুভব করবে। জেমিনি 3 এর শক্তিশালী এজেন্ট পরিকল্পনা ক্ষমতা বর্তমান বাজারে অনেক এজেন্টিক ওয়ার্কফ্লো স্টার্টআপকে সরাসরি চাপে ফেলে। যখন মৌলিক মডেল নিজেই "ইন্টেন্ট ডিকম্পোজিশন – টুল ইনভোকেশন – রেজাল্ট ফিডব্যাক" এর বন্ধ লুপটি নিখুঁতভাবে পরিচালনা করতে পারে, তখন "মডেল অ্যাজ অ্যাপ্লিকেশন" এর বাস্তবতা আরও এক ধাপ এগিয়ে।

এছাড়াও, মোবাইল ফোন নির্মাতারাও এই প্রবণতার পরিবর্তন অনুভব করতে পারেন। জেমিনি 3 এর হালকা নকশা এবং প্রতিক্রিয়াশীলতা প্রতিফলিত করে যে গুগল এজ মডেলগুলির জন্য তার ক্ষমতা তৈরি করছে। অ্যাপলের পূর্ববর্তী বিভিন্ন মডেল নির্মাতাদের সাথে সহযোগিতার সাথে মিলিত হয়ে, অনুমান করা যেতে পারে যে শিল্প প্রতিযোগিতা একটি "কম্পিউটিং পাওয়ার যুদ্ধ" থেকে সরে যাবে যা কেবল ক্লাউড প্যারামিটারগুলির তুলনা করে একটি "অভিজ্ঞতা যুদ্ধ" যা মোবাইল ফোন, চশমা এবং গাড়ির মতো টার্মিনালে প্রয়োগের ক্ষমতার তুলনা করে।

কে সবচেয়ে শক্তিশালী তা এখন আর গুরুত্বপূর্ণ নয়; গুরুত্বপূর্ণ হলো কে "সর্বদা আপনার হাতে"।

বৃহৎ মাপের মডেলদের মধ্যে প্রতিযোগিতার প্রথমার্ধে, প্রশ্নটি এখনও ছিল, "কার মডেলটি শক্তিশালী?" প্যারামিটার, স্কোর এবং লিডারবোর্ড সবকিছুই ছিল "প্রতিভা" সম্পর্কে। জেমিনি 3 প্রজন্মের সাথে, প্রশ্নটি ধীরে ধীরে এই দিকে স্থানান্তরিত হয়েছে: "কার ক্ষমতা প্রকৃতপক্ষে পণ্য এবং ব্যবহারকারীদের মধ্যে নিহিত?"

এবার গুগলের উত্তর তুলনামূলকভাবে স্পষ্ট: অন্তর্নিহিত জেমিনি ৩ মডেল থেকে শুরু করে, টুল কল এবং এজেন্সি আর্কিটেকচারের সাথে সংযোগ স্থাপন করা, এবং তারপর অনুসন্ধান, জেমিনি অ্যাপ, ওয়ার্কস্পেস এবং অ্যান্টিগ্র্যাভিটির মতো নির্দিষ্ট পণ্য ইন্টারফেসের সাথে সংযোগ স্থাপন করা।

আপনি এটাকে এমনভাবে ভাবতে পারেন যেন গুগল জেমিনি ৩ ব্যবহার করে নেটিভ মাল্টিমোডালিটিকে তার নতুন ট্রাম্প কার্ডে পরিণত করছে, এবং তার ইকোসিস্টেমের সমস্ত পণ্যের উপর একটি নতুন "স্মার্ট বাস" ঢালাই করছে, যাতে একই ধরণের ক্ষমতা সকল স্তরে ব্যবহার করা যায়।

এটি আপনার প্রতিদিন অনুসন্ধান, লেখা এবং কোড করার পদ্ধতিতে চূড়ান্ত পরিবর্তন আনতে পারে কিনা, তার উত্তর সংবাদ সম্মেলনে নয়, আগামী কয়েক মাসের মধ্যে – আমরা দেখব কতজন মানুষ অবচেতনভাবে এটিকে তাদের দৈনন্দিন কর্মপ্রবাহে অন্তর্ভুক্ত করে।

যদি সত্যিই এই বিষয়টি আসে, তাহলে লিডারবোর্ডে কে এক নম্বরে, সেটা আর গুরুত্বপূর্ণ নাও থাকতে পারে।

#iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট অনুসরণ করতে আপনাকে স্বাগতম: iFanr (WeChat ID: ifanr), যেখানে যত তাড়াতাড়ি সম্ভব আরও উত্তেজনাপূর্ণ কন্টেন্ট আপনার কাছে উপস্থাপন করা হবে।

ifanr | মূল লিঙ্ক · মন্তব্য দেখুন · সিনা ওয়েইবো