গুগল নিজেকেই ‘ধ্বংস’ করতে এআই ব্যবহার করছে; এই সংবাদ সম্মেলনটি দর্শকদের বাকরুদ্ধ করে দিয়েছিল।

জেমিনি অ্যাপের মাসিক সক্রিয় ব্যবহারকারীর সংখ্যা ৯০ কোটিরও বেশি, এটি প্রতি মাসে ৩২০০ ট্রিলিয়ন টোকেন প্রসেস করে এবং ন্যানো ব্যানানা ব্যবহার করে ৫ হাজার কোটিরও বেশি ছবি তৈরি করে…

আজ ভোরে সমাপ্ত হওয়া গুগল আই/ও সম্মেলনে গুগল সিইও পিচাই সুন্দর একেবারে শুরু থেকেই এই পরিসংখ্যানগুলো উপস্থাপন করেছেন।

গত এক বছরে, সমস্ত শিল্পক্ষেত্র জুড়ে কৃত্রিম বুদ্ধিমত্তা (AI) প্রধান আলোচ্য বিষয় হয়ে উঠেছে। গুগলে জেমিনির ভূমিকাও একটি স্বতন্ত্র অ্যাপ থেকে বিকশিত হয়ে গুগলের সমস্ত পণ্যের মধ্যে সবচেয়ে গুরুত্বপূর্ণ অন্তর্নিহিত AI সক্ষমতায় পরিণত হয়েছে।

এই সংবাদ সম্মেলনটি মডেলদের দিয়ে শুরু হয়ে পরে কোডিং এবং এজেন্ট প্রোডাক্টের দিকে এগিয়ে যায়।

জেমিনি অমনি গুগলের ভিডিও জেনারেশনকে একটি 'ওয়ার্ল্ড মডেল' পদ্ধতির দিকে চালিত করছে, অন্যদিকে জেমিনি ৩.৫ ফ্ল্যাশ, এআই প্রোগ্রামিং টুলস সহ, এজেন্ট ডেভেলপমেন্ট প্ল্যাটফর্মের দিকে চালিত হচ্ছে।

পরবর্তীকালে এই দুটি সক্ষমতা গুগলের সমগ্র ইকোসিস্টেমে একীভূত করা হয়েছিল, যার মধ্যে সার্চ, জেমিনি অ্যাপ, ফ্লো, স্পার্ক, ক্রোম, এক্সআর গ্লাস এবং ই-কমার্স অন্তর্ভুক্ত।

জেমিনি অমনি এসে গেছে, যা ভিডিও জগতে 'ন্যানো ব্যানানা' মুহূর্তের সূচনা করেছে।

সংবাদ সম্মেলনে সর্বপ্রথম যে বিষয়টি তুলে ধরা হয়েছিল, তা হলো জেমিনি অমনি।

ডিপমাইন্ডের সিইও জেমিনি অমনিকে এমন একটি নতুন মডেল হিসেবে বর্ণনা করেছেন যা "যেকোনো ইনপুট থেকে যেকোনো কন্টেন্ট তৈরি করতে" সক্ষম। এটি জেমিনির যুক্তিনির্ভর সক্ষমতাকে গুগলের বিদ্যমান জেনারেটিভ মিডিয়া মডেলগুলোর সাথে একত্রিত করে, যার লক্ষ্য হলো মডেলটির বিশ্ব সম্পর্কে উপলব্ধি, এর মাল্টিমোডাল জেনারেশন সক্ষমতা এবং এর সম্পাদনা সক্ষমতাকে আরও উন্নত করা।

গুগল জোর দিয়ে বলেছে যে Veo, Nano Banana, এবং Genie-এর মতো মডেলগুলো ইতিমধ্যেই ভিডিও, ছবি এবং ইন্টারেক্টিভ সিমুলেশন তৈরি করতে পারে, কিন্তু Gemini Omni আরও এক ধাপ এগিয়ে গিয়ে গতিশক্তি এবং মাধ্যাকর্ষণের মতো ভৌত জগতের কাছাকাছি সমস্যাগুলো নিয়ে কাজ করা শুরু করেছে।

সংবাদ সম্মেলনে প্রদর্শিত কেস স্টাডিগুলোর মধ্যে প্রোটিন ফোল্ডিং ব্যাখ্যা করে এমন ভিডিও অন্তর্ভুক্ত ছিল। ব্যবহারকারীদের কেবল "প্রোটিন ফোল্ডিংয়ের একটি ক্লে অ্যানিমেশন ব্যাখ্যা তৈরি করুন"-এর মতো একটি নির্দেশ ইনপুট করতে হবে, এবং Omni বিমূর্ত বৈজ্ঞানিক ধারণাগুলোকে ভিডিও কন্টেন্টে রূপান্তরিত করতে পারে।

এটি আরও স্বাভাবিক ভিডিও সম্পাদনাও সমর্থন করে। ব্যবহারকারীরা তাদের নিজস্ব ভিডিও আপলোড করে এর স্টাইল পরিবর্তন করতে, উপাদান যোগ করতে, খুঁটিনাটি বিষয় ঠিক করতে পারেন এবং এমনকি সংলাপের মাধ্যমে একটি সাধারণ বৃত্তকে ব্ল্যাক হোলে পরিণত করে রাতের হাঁটার দৃশ্যকে আরও নাটকীয় চিত্রে রূপান্তরিত করতে পারেন।

গুগল জানিয়েছে যে, জেমিনি অমনি ভিডিও দিয়ে শুরু হবে এবং ক্রমান্বয়ে 'যেকোনো ইনপুট থেকে যেকোনো আউটপুটের' দিকে অগ্রসর হবে। এই কারণেই গুগল সবসময় জেমিনিকে একটি মাল্টিমোডাল মডেল হিসেবে ডিজাইন করেছে।

Omni ফ্যামিলির প্রথম মডেল, Gemini Omni Flash, এখন Google-এর বিভিন্ন প্রোডাক্টে পাওয়া যাচ্ছে এবং Omni Pro সম্পর্কে আরও তথ্য পরবর্তীতে ঘোষণা করা হবে। Gemini অ্যাপে Omni-এর কার্যকারিতা Google AI Plus, Pro, এবং Ultra সাবস্ক্রাইবারদের জন্যও উপলব্ধ।

এর মানে হলো, জেমিনি অমনি শুধু একটি ভিডিও তৈরির মডেল নয়। গুগল এটিকে একটি 'ওয়ার্ল্ড মডেল'-এর আওতায় আনতে চায়: এই মডেলটি শুধু ছবিই তৈরি করে না, বরং ছবিগুলোর মধ্যকার ভৌত সম্পর্ক, গতির সম্পর্ক এবং দৃশ্যের যুক্তিও বুঝতে পারে।

জেমিনি অ্যাপ, গুগল ফ্লো এবং ইউটিউব শর্টস-এর মতো অ্যাপে সমন্বিত হওয়ার পর, অমনি গুগলের জেনারেটিভ ক্রিয়েশন টুলগুলোকে ইমেজ এডিটিং থেকে ভিডিও এডিটিং পর্যন্ত প্রসারিত করবে।

জেমিনি ৩.৫ ফ্ল্যাশ এখন উপলব্ধ, যা বিদ্যুৎ গতিতে এআই-চালিত কোডিং করতে সক্ষম করে।

যদি জেমিনি অমনি জেনারেশন এবং এডিটিং-এর সমতুল্য হয়, তাহলে জেমিনি ৩.৫ ফ্ল্যাশ হলো গতি, খরচ এবং কার্যক্ষমতার সমতুল্য।

অনুষ্ঠানে গুগল জেমিনি ৩.৫ ফ্ল্যাশ উন্মোচন করেছে এবং এটিকে জেমিনি ৩.৫ সিরিজের প্রথম মডেলগুলোর একটি হিসেবে অভিহিত করেছে, যা মূলত অ্যাকাডেমিক কোডিং, দীর্ঘমেয়াদী কাজ এবং বাস্তব কর্মপ্রবাহের উপর আলোকপাত করে তৈরি।

3.1 Pro-এর তুলনায় 3.5 Flash প্রায় সব বেঞ্চমার্কেই উল্লেখযোগ্য উন্নতি দেখিয়েছে, বিশেষ করে কোডিং সক্ষমতা এবং GDPVal-এর মতো পরীক্ষাগুলোতে, যেগুলো বাস্তব অর্থনৈতিক কাজের কাছাকাছি।

গুগল আরও জোর দিয়ে বলেছে যে, টোকেন আউটপুট করার ক্ষেত্রে ফ্ল্যাশ ৩.৫ অন্যান্য অত্যাধুনিক মডেলের চেয়ে ৪ গুণ দ্রুততর এবং অ্যান্টিগ্র্যাভিটিতে বিশেষ অপটিমাইজেশনের পর এটি ১২ গুণ পর্যন্ত দ্রুততর হতে পারে।

উল্লেখ্য যে, এই বছরের মার্চ মাসে গুগলের অভ্যন্তরীণ উন্নয়ন-সম্পর্কিত কাজগুলো প্রতিদিন প্রায় ৫০০ বিলিয়ন টোকেন প্রসেস করত এবং তারপর থেকে প্রতি কয়েক সপ্তাহে এই সংখ্যা দ্বিগুণ হয়ে বর্তমানে প্রতিদিন ৩ ট্রিলিয়ন টোকেন ছাড়িয়ে গেছে। গুগল এটিকে একটি ফিডব্যাক লুপ বলে, যা ফ্ল্যাশ ৩.৫-এর ক্রমাগত উন্নতির জন্য বৃহৎ পরিসরের বাস্তব-জগতের ব্যবহারকে কাজে লাগায়।

মডেলটির সাথে একই সময়ে অ্যান্টিগ্র্যাভিটি ২.০ প্রকাশ করা হয়েছিল।

এটিকে এজেন্ট-চালিত IDE থেকে একটি স্বতন্ত্র ডেস্কটপ অ্যাপ্লিকেশনে আপগ্রেড করা হয়েছে, যার ফলে এর মূল লক্ষ্য এখন এজেন্ট-কেন্দ্রিক হয়ে উঠেছে। ব্যবহারকারীরা এখন আর শুধু এডিটরের মধ্যে কোড লেখার জন্য AI-এর সাহায্য পান না, বরং এজেন্ট ডায়ালগ, এজেন্ট আর্টিফ্যাক্ট এবং একাধিক এজেন্টের মধ্যে সহযোগিতার মাধ্যমে ডেভেলপমেন্টের কাজ সম্পন্ন করেন।

অ্যান্টিগ্র্যাভিটি ২.০-তে সম্পূর্ণ সিএলআই, অ্যান্টিগ্র্যাভিটি এসডিকে, জেমিনি অডিও মডেলের জন্য নেটিভ স্পিচ সাপোর্ট যুক্ত করা হয়েছে এবং এটি অ্যান্ড্রয়েড, ফায়ারবেস ও গুগল এআই স্টুডিও-র মতো পরিষেবাগুলোর সাথে ইন্টিগ্রেট করে। অ্যান্টিগ্র্যাভিটি ২.০ বিশ্বব্যাপী ব্যবহারকারীদের জন্য একটি স্বতন্ত্র ডেস্কটপ অ্যাপ্লিকেশন হিসেবেও উপলব্ধ।

গুগল একটি উচ্চ-তীব্রতার উপস্থাপনার মাধ্যমে অ্যান্টিগ্র্যাভিটি ২.০-এর মূল লক্ষ্য প্রদর্শন করেছে: এজেন্টদেরকে একেবারে গোড়া থেকে একটি কার্যকরী অপারেটিং সিস্টেম তৈরি করতে সক্ষম করা। এই কাজটি ৯৩টি সাব-এজেন্ট দ্বারা ১২ ঘণ্টা ধরে সমান্তরালভাবে সম্পাদিত হয়েছিল, যেখানে ১৫,০০০-এরও বেশি মডেল রিকোয়েস্ট শুরু করা, ২.৬ বিলিয়ন টোকেন প্রসেস করা এবং একটি খালি প্রজেক্ট থেকে শিডিউলার, মেমরি ম্যানেজমেন্ট ও ফাইল সিস্টেমের মতো মূল মডিউলগুলো তৈরি করা হয়।

গুগল বলছে যে জেমিনি ৩.১ প্রো-তে এটি করা সম্ভব নয়, অন্যদিকে জেমিনি ৩.৫ ফ্ল্যাশ ব্যবহার করলে ১,০০০ ডলারেরও কম এপিআই ক্রেডিট খরচ হবে।

এই প্রদর্শনীতে সিস্টেমটিতে এসএল ট্রেন প্রোগ্রাম এবং ডুম (Doom) চালানোও দেখানো হয়। প্রাথমিকভাবে ভিডিও এবং কিবোর্ড ড্রাইভার না থাকলেও, অ্যান্টিগ্র্যাভিটি প্রয়োজনীয় কোড তৈরি ও সংশোধন করতে থাকে, যার ফলে ডুম চালানো সম্ভব হয়। গুগল আরও জানিয়েছে যে, ফটো এডিটিং স্যুট, রিয়েল-টাইম মেসেজিং অ্যাপ্লিকেশন এবং মাল্টি-ইউজার কোলাবোরেশন প্ল্যাটফর্মের মতো প্রজেক্টেও একই ধরনের পদ্ধতি পরীক্ষা করা হয়েছে, যা কয়েক দিনের ইঞ্জিনিয়ারিং কাজকে কয়েক ঘণ্টা বা তারও কম সময়ে নামিয়ে এনেছে।

জেমিনি ৩.৫ ফ্ল্যাশ এখন সকল ব্যবহারকারীর জন্য উপলব্ধ, যা গুগলের পণ্য এবং এপিআই অন্তর্ভুক্ত করে। জেমিনি ৩.৫ প্রো এখনও অভ্যন্তরীণভাবে ব্যবহৃত ও উন্নত করা হচ্ছে এবং আগামী মাসে এটি প্রকাশিত হবে বলে আশা করা হচ্ছে।

সার্চ বক্স থেকে ইনফরমেশন এজেন্ট পর্যন্ত, গুগল এআই সার্চকে নতুনভাবে ঢেলে সাজাচ্ছে।

মডেল এবং উন্নয়ন সরঞ্জামের পর, গুগল তার মনোযোগ সার্চের দিকে সরিয়ে নেয়। গুগল সার্চ মূলত এআই সার্চ।

গুগল জানিয়েছে যে, এআই মোডের মাসিক সক্রিয় ব্যবহারকারীর সংখ্যা ১ বিলিয়নেরও বেশি এবং এটি চালু হওয়ার পর থেকে প্রতি ত্রৈমাসিকে এর অনুসন্ধানের সংখ্যা দ্বিগুণ হয়েছে।

আজ থেকে এআই মোডকে জেমিনি ৩.৫-এ আপগ্রেড করা হয়েছে। নতুন স্মার্ট সার্চ বক্সটিও আজ থেকে চালু করা হচ্ছে। এটি টেক্সট, ছবি, ফাইল এবং ভিডিও সাপোর্ট করে এবং ব্যবহারকারী প্রশ্ন টাইপ করার সাথে সাথে এআই সাজেশন প্রদান করে।

এআই ওভারভিউ এবং এআই মোডকে একত্রিত করে আরও নির্বিঘ্ন এআই সার্চ অভিজ্ঞতা প্রদান করা হয়েছে। ব্যবহারকারীরা প্রথমে মূল সার্চ রেজাল্ট পেজে এআই-এর উত্তর দেখতে পারবেন, তারপর প্রাসঙ্গিকতা বজায় রেখে এআই মোডে প্রবেশ করে পরবর্তী প্রশ্ন করতে পারবেন। এই নতুন সার্চ অভিজ্ঞতাটি লঞ্চ ইভেন্টের দিন ডেস্কটপ এবং মোবাইল ডিভাইসে বিশ্বব্যাপী চালু করা হয়েছিল।

সবচেয়ে বড় পরিবর্তনটি এসেছে সার্চ এজেন্টে।

গুগল জানিয়েছে যে, এই গ্রীষ্মে ব্যবহারকারীরা সার্চে ইনফরমেশন এজেন্ট তৈরি করতে পারবেন, যা নির্দিষ্ট ধরনের তথ্য ক্রমাগত ট্র্যাক করবে। উদাহরণস্বরূপ, ব্যবহারকারীরা এটিকে দিয়ে ১৫-এর কম পি/ই অনুপাত, ইতিবাচক নগদ প্রবাহ এবং কম ঋণযুক্ত বড় বায়োটেক স্টকগুলো পর্যবেক্ষণ করাতে পারবেন; অথবা এটি দীর্ঘমেয়াদে ভাড়ার তথ্য, স্নিকার কোলাবোরেশন এবং নতুন পণ্য উন্মোচন ট্র্যাক করতে পারবে। পরিস্থিতি পরিবর্তিত হলে, এজেন্টটি ব্যবহারকারীদের বিস্তারিত আপডেট পাঠাবে।

গুগল অ্যান্টিগ্র্যাভিটির এজেন্সি কোডিং সক্ষমতাগুলোও সার্চের আওতায় নিয়ে এসেছে।

সার্চটি তখন শুধু ওয়েব পেজ, সারাংশ বা কার্ডই নয়, বরং নির্দিষ্ট প্রশ্নের জন্য ইন্টারেক্টিভ ইন্টারফেসও ফেরত দেবে। উদাহরণস্বরূপ, যদি কোনো ব্যবহারকারী জিজ্ঞাসা করেন "ব্ল্যাক হোল কীভাবে স্পেসটাইমকে প্রভাবিত করে?", তাহলে সার্চ একটি ইন্টারেক্টিভ ভিজ্যুয়াল উপাদান তৈরি করতে পারে; যদি তারা এর পরে জিজ্ঞাসা করেন "বাইনারি ব্ল্যাক হোল কীভাবে মহাকর্ষীয় তরঙ্গ তৈরি করে?", তাহলে সার্চ পরিবর্তনযোগ্য প্যারামিটারসহ একটি ডাইনামিক ইন্টারফেস পুনরায় তৈরি করবে। অ্যান্টিগ্র্যাভিটি সহ জেনারেটিভ ইউআই এই গ্রীষ্মে সকল ব্যবহারকারীর জন্য বিনামূল্যে প্রকাশ করা হবে।

আরও উন্নত কাস্টমাইজেশন অভিজ্ঞতা আসছে।

গুগল এই অনুষ্ঠানে একটি উইকেন্ড প্ল্যানার প্রদর্শন করেছে। সার্চ আবহাওয়া, মানচিত্র, ব্যবহারকারীর পছন্দ, জিমেইল এবং ক্যালেন্ডারের মতো তথ্য একত্রিত করে একটি ছোট টুল তৈরি করে, যা পরবর্তীতে পরিবর্তন, শেয়ার এবং ক্যালেন্ডারের সাথে সিঙ্ক করা যায়। এই ধরনের কাস্টমাইজেশন আগামী মাসগুলোতে সাবস্ক্রাইবারদের জন্য উপলব্ধ হবে।

পাওয়ার বন্ধ থাকা অবস্থাতেও সচল থেকে, জেমিনি স্পার্ক আপনার ব্যক্তিগত জীবনে এজেন্টের সক্ষমতা নিয়ে আসে।

ভোক্তাদের জন্য সবচেয়ে গুরুত্বপূর্ণ নতুন পণ্যটি হলো জেমিনি স্পার্ক।

জেমিনি স্পার্ক হলো একটি ব্যক্তিগত এআই এজেন্ট যা গুগল ক্লাউডের একটি ডেডিকেটেড ভার্চুয়াল মেশিনে চলে এবং এটিকে দিনরাত কাজ সম্পাদন করতে সক্ষম করে। এটি জেমিনি ৩.৫ এবং অ্যান্টিগ্র্যাভিটি হারনেস দ্বারা চালিত, যা দীর্ঘক্ষণ ধরে চলা ব্যাকগ্রাউন্ড টাস্ক সমর্থন করে।

ব্যবহারকারী কম্পিউটার বন্ধ করে দিলেও স্পার্ক কাজ করতে থাকে। এটি প্রাথমিকভাবে গুগলের নিজস্ব টুলগুলোর সাথে সমন্বিত হয় এবং আগামী সপ্তাহগুলোতে এমসিপি (MCP)-এর মাধ্যমে থার্ড-পার্টি টুলগুলোর সাথেও সমন্বিত হবে।

উপস্থাপনাটিতে স্পার্কের বেশ কয়েকটি সাধারণ পরিস্থিতি তুলে ধরা হয়েছিল।

ব্যবহারকারীরা এটি ব্যবহার করে গত সপ্তাহের জেমিনি লাইভের রিলিজ এবং অগ্রগতির সারসংক্ষেপ করতে, ডকস, জিমেইল ও চ্যাট লগ থেকে তথ্য সংগ্রহ করতে এবং নিজস্ব লেখনী শৈলীতে টিম ইমেল তৈরি করতে পারেন। এছাড়াও এটি পাড়ার পার্টি পরিচালনা করতে, গুগল শিটস-এর আরএসভিপি ফর্ম রক্ষণাবেক্ষণ করতে, কে কী এনেছে তার হিসাব রাখতে, অনিবন্ধিত প্রতিবেশীদের জন্য রিমাইন্ডার ইমেলের খসড়া তৈরি করতে এবং স্বয়ংক্রিয়ভাবে গুগল স্লাইডস-এর প্রচারমূলক পেজ তৈরি করতে পারে।

স্পার্ক মোবাইল ডিভাইসেও ভয়েস ইনপুট সমর্থন করে।

ব্যবহারকারীরা একবারে একাধিক কাজ নির্দিষ্ট করতে পারেন, যেমন সুন্দর-সম্পর্কিত সমস্ত লোগোকে উজ্জ্বল গোলাপি রঙে রাঙানো, নতুন প্রতিবেশীদের আমন্ত্রণপত্র লেখা, অথবা শিক্ষাবর্ষ শেষ হওয়ার আগে তাদের সন্তানের জন্য একটি করণীয় কাজের তালিকা তৈরি করা। স্পার্ক এই কাজগুলোকে একাধিক স্বতন্ত্র কাজে বিভক্ত করে ব্যাকগ্রাউন্ডে সম্পাদন করবে এবং এর ফলাফল ফোন ও কম্পিউটারের মধ্যে সিঙ্ক হয়ে যাবে।

এই সপ্তাহে জেমিনি স্পার্ক বিশ্বস্ত পরীক্ষকদের জন্য উন্মুক্ত করা হয়েছে এবং আগামী সপ্তাহে মার্কিন যুক্তরাষ্ট্রে গুগল এআই আল্ট্রা গ্রাহকদের জন্য এটি বিটা সংস্করণে প্রকাশ করা হবে।

এছাড়াও গুগল মাসিক ১০০ ডলারে একটি নতুন আল্ট্রা প্ল্যান চালু করেছে এবং সর্বোচ্চ স্তরের আল্ট্রা প্ল্যানটির দাম মাসিক ২৫০ ডলার থেকে কমিয়ে ২০০ ডলার করেছে। এই গ্রীষ্মের শেষের দিকে, স্পার্ক ক্রোম-এ একটি ইন্টেলিজেন্ট এজেন্ট ব্রাউজার হিসেবে উপলব্ধ হবে, যা ওয়েব পেজের ভেতরে বিভিন্ন কাজ সম্পাদন করতে সক্ষম।

জেমিনি অ্যাপটির ব্যাপক পুনর্গঠন করা হয়েছে এবং 'এআই মর্নিং নিউজ'-এর একটি গুগল সংস্করণও পাওয়া যাচ্ছে।

জেমিনি অ্যাপটিতেও সম্পূর্ণ পরিবর্তন আনা হয়েছে।

গুগল নিউরাল এক্সপ্রেসিভ নামে একটি সম্পূর্ণ নতুন ডিজাইন ল্যাঙ্গুয়েজ চালু করেছে, যেটিতে সাবলীল অ্যানিমেশন, প্রাণবন্ত রঙ, নতুন ফন্ট এবং হ্যাপটিক ফিডব্যাক অন্তর্ভুক্ত করা হয়েছে।

নতুন জেমিনি অ্যাপটি এখন আর উত্তরগুলোকে বড় বড় টেক্সট ব্লক হিসেবে দেখায় না। এর পরিবর্তে, এটি কন্টেন্টের উপর ভিত্তি করে রিয়েল টাইমে আরও সহজে পঠনযোগ্য ও ব্যবহারকারী-বান্ধব একটি লেআউট তৈরি করে, যার মধ্যে ইন্টারেক্টিভ ছবি, টাইমলাইন এবং এমবেডেড ভিডিও অন্তর্ভুক্ত থাকে। নিউরাল এক্সপ্রেসিভ এখন বিশ্বব্যাপী অ্যান্ড্রয়েড, আইওএস এবং ওয়েব প্ল্যাটফর্মে উপলব্ধ।

জেমিনি লাইভকেও নতুন করে ডিজাইন করা হয়েছে, যার ফলে ব্যবহারকারীরা এটি খোলার সাথে সাথেই সরাসরি লাইভ কথোপকথনে যোগ দিতে পারবেন। আগামী কয়েক সপ্তাহের মধ্যে আঞ্চলিক উচ্চারণ নির্বাচনের সুবিধা চালু করা হবে।

জেমিনি অ্যাপে ডেইলি ব্রিফও অন্তর্ভুক্ত রয়েছে। এটি সকালের ব্যবহারের জন্য একটি ব্যক্তিগতকৃত সারাংশ এজেন্ট, যা জিমেইল, ক্যালেন্ডার, টাস্ক এবং অন্যান্য উৎস থেকে তথ্য একত্রিত করে ব্যবহারকারীদের সেই দিনের জন্য প্রয়োজনীয় কাজগুলোকে গুছিয়ে দেয় এবং পরবর্তী পদক্ষেপের জন্য একটি প্রবেশপথ তৈরি করে দেয়।

ডেইলি ব্রিফ আজ থেকে মার্কিন যুক্তরাষ্ট্রের গুগল এআই প্লাস, প্রো এবং আল্ট্রা সাবস্ক্রাইবারদের জন্য চালু হচ্ছে।

জেমিনি সংক্রান্ত বৃহত্তর বিবরণের বাইরেও গুগল বেশ কিছু দৈনন্দিন পণ্য আপডেট করেছে।

গুগল ম্যাপস সম্প্রতি এক দশকের মধ্যে তার সবচেয়ে বড় আপগ্রেড সম্পন্ন করেছে এবং এতে ‘আস্ক ম্যাপস’ ফিচারটি যুক্ত করা হয়েছে। এর মাধ্যমে ব্যবহারকারীরা আরও দীর্ঘ ও জটিল প্রশ্ন জিজ্ঞাসা করতে পারবেন। উদাহরণস্বরূপ, এর উদ্বোধনী অনুষ্ঠানে একটি পরিস্থিতি তুলে ধরা হয়েছিল: একটি শিশু হাঁসের পুকুরে পড়ে যায়, ৩০ মিনিট পরেই একটি বিয়ের অনুষ্ঠান শুরু হবে, এবং ব্যবহারকারী জানতে চান যে তিনি হেঁটে কোথায় গিয়ে একটি নতুন পোশাক কিনতে পারবেন।

গুগল ডকস-এও নতুন ভয়েস ক্রিয়েশন সুবিধা যুক্ত হচ্ছে। ব্যবহারকারীদের আর সুনির্দিষ্ট নির্দেশনা টাইপ করতে হবে না; তারা কেবল তাদের ভাবনাগুলো মুখে বললেই, জেমিনি ড্রাইভ থেকে তাদের জীবনবৃত্তান্ত খুঁজে বের করবে, জিমেইল থেকে ইভেন্টের তথ্য সংগ্রহ করবে এবং গুগল ডকস-এর একটি খসড়া তৈরি করে দেবে। এই সুবিধাটি এই গ্রীষ্মে প্রো এবং আল্ট্রা সাবস্ক্রাইবারদের জন্য চালু করা হবে এবং একই ধরনের ভয়েস সুবিধা জিমেইলেও পাওয়া যাবে।

উৎপাদন ক্ষমতার উন্নতির সাথে সাথে, বিষয়বস্তুর উৎস শনাক্তকরণ ক্রমশ গুরুত্বপূর্ণ হয়ে উঠেছে।

গুগল জানিয়েছে যে, চালু হওয়ার পর থেকে গত তিন বছরে সিন্থআইডি ১০০ বিলিয়নেরও বেশি ছবি ও ভিডিওতে অদৃশ্য ওয়াটারমার্ক যুক্ত করেছে, সেইসাথে ৬০,০০০ বছরের সমপরিমাণ অডিও সংরক্ষণ করেছে। এরপর, সিন্থআইডি এবং কন্টেন্ট ক্রেডেনশিয়াল ভেরিফিকেশন ফিচারটি সার্চ এবং ক্রোমেও সম্প্রসারিত করা হবে।

ব্যবহারকারীরা অনুসন্ধানের জন্য আইটেম নির্বাচন করতে পারেন, অথবা কন্টেন্টটি এআই দ্বারা তৈরি কিনা তা জানতে ক্রোমে রাইট-ক্লিক করতে পারেন। এরপর সিস্টেমটি দেখাবে যে কন্টেন্টটি এআই, ক্যামেরা, নাকি কোনো জেনারেটিভ এআই টুল দ্বারা সম্পাদিত হয়েছে।

গুগল আরও ঘোষণা করেছে যে ওপেনএআই, কাকাও এবং ইলেভেনল্যাবস সিন্থআইডি ২ গ্রহণ করবে। এনভিডিয়া আগেই সিন্থআইডি ইকোসিস্টেমে যোগ দিয়েছিল। গুগলের জন্য, সিন্থআইডি শুধু একটি নিরাপত্তা বৈশিষ্ট্যই নয়, বরং এআই কন্টেন্টের জন্য স্বচ্ছ মান প্রতিষ্ঠার প্রচেষ্টারও একটি অংশ।

গুগলের ক্রিয়েটিভ স্যুট ছবি, ডিজাইন এবং ভিডিওর ওপর তার আক্রমণ শুরু করেছে।

সৃজনশীল সরঞ্জামের জগতে গুগল বেশ কয়েকটি গুরুত্বপূর্ণ পণ্য বাজারে এনেছে।

গুগল পিক্স হলো গুগল ওয়ার্কস্পেসের একটি নতুন ছবি তৈরি ও সম্পাদনার সুবিধা, যা পার্টি পোস্টার, ইনফোগ্রাফিক এবং প্রচারমূলক ছবির মতো কাজের জন্য ডিজাইন করা হয়েছে। ব্যবহারকারীরা একটি সাধারণ ছবি দিয়ে শুরু করতে, বিভিন্ন অংশ মুছে ফেলতে, বস্তুর আকার পরিবর্তন করতে, লেখা সম্পাদনা করতে এবং অনুবাদ করতে পারবেন। পিক্স-এর মাধ্যমে তৈরি করা কন্টেন্টে একটি সিন্থআইডি (SynthID) ওয়াটারমার্ক থাকবে। গুগল পিক্স এই গ্রীষ্মে চালু হবে।

স্টিচ, একটি ডিজাইন প্রোডাক্ট, একটি আপডেট পেয়েছে। ব্যবহারকারীরা একটিমাত্র প্রম্পটের মাধ্যমে ওয়েবসাইট বা অ্যাপ্লিকেশন ইন্টারফেস তৈরি করতে পারেন এবং তারপর টেক্সট বা ভয়েসের মাধ্যমে সেগুলোকে পরিবর্তন করতে পারেন, যেমন—টাইটেল বড় করা, মেনু অ্যাডজাস্ট করা, বা আরও পিৎজা অপশন হাইলাইট করা। স্টিচ ডিজাইনগুলোকে কোড হিসেবে এক্সপোর্ট করা বা সরাসরি ওয়েবসাইটে পাবলিশ করা সাপোর্ট করে; আপডেটটি এখন উপলব্ধ।

গুগল ফ্লো-এর এই আপডেটটি বিশেষভাবে আকর্ষণীয়। জেমিনি অমনি ফ্লো-তে যুক্ত হওয়ার পর, ব্যবহারকারীরা মূল ভিডিওর উপর ভিত্তি করে পরিবেশ পরিবর্তন করতে, ভিজ্যুয়াল এফেক্ট যোগ করতে এবং নতুন চরিত্র যোগ করতে পারবেন, এবং একই সাথে মূল পারফরম্যান্সও যথাসম্ভব অক্ষুণ্ণ রাখা যাবে।

ফ্লো একটি নতুন এজেন্টও যুক্ত করেছে যা একই সাথে একাধিক কাজ সম্পাদন করতে পারে। উদাহরণস্বরূপ, এটি একটিমাত্র ছবি থেকে বিভিন্ন ক্যামেরা অ্যাঙ্গেল থেকে ১৬টি ভিডিও তৈরি করতে পারে, অথবা সকালের দৃশ্যগুলোকে একসাথে গভীর রাতের দৃশ্যে রূপান্তর করতে পারে।

ফ্লো টুলস ব্যবহারকারীদের ফ্লো-এর মধ্যেই নিজস্ব সৃজনশীল টুল তৈরি করার সুযোগ দেয়, যেমন ভিডিও ইফেক্ট, হাতে আঁকা অ্যানিমেশন এবং টেক্সট লেয়ারিং টুল, এবং এটি শেয়ার ও রিমিক্স করা সমর্থন করে।

গুগল ফ্লো মিউজিক একটি পিয়ানো রিফকে শৈলীগতভাবে নির্দিষ্ট একটি মিউজিক ডেমোতে রূপ দিতে পারে। গুগল ফ্লো এবং গুগল ফ্লো মিউজিকের এই নতুন ফিচারগুলো এখন উপলব্ধ।

স্মার্ট গ্লাসের ওপর বাজি ধরে গুগল পরবর্তী প্রজন্মের প্রবেশদ্বারে পা রাখছে।

হার্ডওয়্যারের দিক থেকে, গুগল তার অ্যান্ড্রয়েড এক্সআর অপারেটিং সিস্টেম প্ল্যাটফর্মকে হেড-মাউন্টেড ডিসপ্লে ও এক্সআর ডিভাইস থেকে শুরু করে স্মার্ট গ্লাস পর্যন্ত প্রসারিত করেছে।

অ্যান্ড্রয়েড এক্সআর হলো গুগল ও স্যামসাং-এর যৌথ উদ্যোগে তৈরি একটি প্ল্যাটফর্ম, যা কোয়ালকম স্ন্যাপড্রাগনের জন্য বিশেষভাবে অপ্টিমাইজ করা হয়েছে।

গুগল জানিয়েছে যে তাদের এআই চশমা দুটি বিভাগে বিভক্ত হবে: ছোট লেন্সযুক্ত ডিসপ্লে চশমা এবং অডিও চশমা। গত বছর আই/ও-তে ডিসপ্লে চশমাগুলো প্রদর্শন করা হয়েছিল এবং এই বছর প্রথম ডেভেলপাররা ডিসপ্লে অভিজ্ঞতা তৈরি করা শুরু করেছেন, পাশাপাশি এই বছরের শেষের দিকে বিশ্বস্ত পরীক্ষক প্রোগ্রামটিও সম্প্রসারিত হওয়ার কথা রয়েছে।

অডিও গ্লাস আরও আগেই বাজারে এসেছিল।

গুগল ঘোষণা করেছে যে এই শরৎকালে তাদের প্রথম অডিও গ্লাস বাজারে আসবে। এর হার্ডওয়্যার ও অভিজ্ঞতা উন্নয়নে স্যামসাং এবং ডিজাইনের দায়িত্বে রয়েছে ওয়ারবি পার্কার ও জেন্টল মনস্টার। এই গ্লাসগুলো স্মার্টফোনের সাথে সংযুক্ত হয় এবং অ্যান্ড্রয়েড ও আইওএস উভয়ই সমর্থন করে। জেমিনির উত্তরগুলো লেন্সে প্রদর্শিত না হয়ে, হেডফোনের মাধ্যমে ব্যক্তিগতভাবে শোনানো হয়।

উদ্বোধনী অনুষ্ঠানে, প্রদর্শক দেখান যে কীভাবে জেমিনি চশমাটি ব্যবহার করে গত সপ্তাহে বন্ধুর সাথে দেখা করার জায়গায় যেতে পারে, এবং পথে একটি কফি শপও যুক্ত করতে পারে; জেমিনি স্বয়ংক্রিয়ভাবে কফি অর্ডার করার জন্য ডোরড্যাশ খুলতে এবং ব্যবহারকারীর নিশ্চিতকরণের জন্য অপেক্ষা করতেও সক্ষম ছিল।

এটি নীরব বার্তাগুলির সারসংক্ষেপ করতে এবং ক্যালেন্ডারে পারিবারিক নৈশভোজ যোগ করতে পারে। এই চশমাটি ঘড়ির সাথে কাজ করে ব্যবহারকারীদের বিভিন্ন অনুষ্ঠানের ছবি তুলতে, ন্যানো ব্যানানা ব্যবহার করে কার্টুন ছবি তৈরি করতে এবং তারপর ঘড়িতে সেগুলির প্রিভিউ দেখতেও সাহায্য করে।

সংবাদ সম্মেলনের শেষে, জেমিনির অ্যাপ্লিকেশন সিনারিওগুলো সাইবারসিকিউরিটি পর্যন্তও সম্প্রসারিত করা হয়।

গুগল কোডমেন্ডার নামে একটি কোড নিরাপত্তা এজেন্ট চালু করেছে, যা স্বয়ংক্রিয়ভাবে সফটওয়্যারের গুরুতর দুর্বলতা খুঁজে বের করে এবং সমাধান করে। ব্যাপকভাবে চালু করার আগে, গুগল কোডমেন্ডার এপিআই পরীক্ষা করার জন্য একদল বিশেষজ্ঞকে আমন্ত্রণ জানাবে।

পুরো সংবাদ সম্মেলনটি এতটাই তথ্যবহুল ছিল যে তা প্রায় অভিভূত করার মতো ছিল। তবে, যখন এই এআই ফিচারগুলো সত্যিই কোটি কোটি মানুষের কাছে সহজলভ্য হবে, তখন সঙ্গে সঙ্গেই একটি গুরুতর হিসাবরক্ষণের সমস্যা দেখা দেবে: গুগল কীভাবে কম্পিউটিং শক্তির এই বিপুল ব্যয়ের অর্থ পুনরুদ্ধার করবে?

দুই দশকেরও বেশি সময় ধরে গুগল মুক্ত ইন্টারনেটের একটি আদর্শ মডেলের প্রতিনিধিত্ব করে আসছে। ব্যবহারকারীরা পরিষেবার বিনিময়ে তাদের মনোযোগ ও ডেটা প্রদান করে, আর গুগল বিজ্ঞাপন ও বিতরণের মাধ্যমে লাভবান হয়। এই মডেলটি গুগলকে ইন্টারনেট যুগের সবচেয়ে শক্তিশালী পরিকাঠামো কোম্পানিতে পরিণত করেছে।

তবে, বৃহৎ পরিসরে মডেল অনুমানের খরচ, একটিমাত্র অনুসন্ধানের ফলাফল যাচাই করার খরচের চেয়ে সম্পূর্ণ ভিন্ন মাত্রার।

দীর্ঘ-প্রসঙ্গ স্মৃতি, মাল্টিমোডাল জেনারেশন, ক্রস-অ্যাপ্লিকেশন এজেন্ট এবং এন্টারপ্রাইজ-স্তরের অটোমেশন—এই সমস্ত ক্ষমতার জন্য নিরবচ্ছিন্ন কম্পিউটিং শক্তি প্রয়োজন। এআই যত গভীরে যায়, 'বিনামূল্যে ফিচার আপগ্রেড'-এর মাধ্যমে এই খরচ বহন করা গুগলের জন্য ততই কঠিন হয়ে পড়ে।

এই কারণেই, পুরো গুগল আই/ও প্রেজেন্টেশন জুড়ে, যদিও দেখে মনে হচ্ছিল এটি অভিজ্ঞতা আপগ্রেড বিষয়ক, আসলে এটি সাবস্ক্রিপশন, এন্টারপ্রাইজ চুক্তি, কম্পিউটিং পাওয়ার বিল এবং দীর্ঘমেয়াদী পরিষেবা ফি-এর দিকেই ইঙ্গিত করছিল।

বিনামূল্যে প্রবেশের সুযোগগুলো অবশ্যই বিলুপ্ত হবে না, কারণ ব্যবহারকারী, ডেটা এবং ইকোসিস্টেমে নিজের অবস্থান গড়ে তোলার জন্য এগুলোই গুগলের ভিত্তি। কিন্তু এই প্রবেশপথগুলোর উপরে গুগল বুদ্ধিমান পরিষেবাগুলোর একটি নতুন স্তর যুক্ত করছে: আরও শক্তিশালী মডেল, দীর্ঘস্থায়ী মেমরি, আরও গভীর সিস্টেম পারমিশন, আরও জটিল কাজ সম্পাদন এবং আরও স্থিতিশীল এন্টারপ্রাইজ-গ্রেড পরিষেবা।

অন্য কথায়, গুগল একটি বিনামূল্যের ইন্টারনেট পরিষেবা প্রদানকারী সংস্থা থেকে একটি এআই সাবস্ক্রিপশন পরিকাঠামো সংস্থায় রূপান্তরিত হচ্ছে।

তবে একটি প্রশ্ন ওঠে: ব্যবহারকারীরা কি অনুসন্ধানের জন্য অর্থ প্রদান করতে ইচ্ছুক? সাধারণত, না।

কিন্তু যদি এটি এমন একটি 'অসাধারণ সর্বাঙ্গীণ সহকারী' হতো যা আপনার ইমেলগুলো ২৪/৭ সামলাতে পারত, বিভিন্ন কাজ পরিচালনা করতে পারত, রিপোর্ট বিশ্লেষণ করতে পারত, আপনার স্মার্ট হোমের দায়িত্ব নিতে পারত, এবং এমনকি অ্যাপ তৈরির জন্য কোড লিখতেও সাহায্য করতে পারত? আপনি কি এর জন্য প্রতি মাসে কয়েক দশ বা শত ডলার দিতে রাজি হতেন?

ঠিক এই মূল ব্যবসায়িক প্রস্তাবনাটিই গুগল আই/ও এই বছর যাচাই করতে আগ্রহী। এবং আজকের এই উত্তাল বাজারের দিকে তাকালে, উত্তরটি স্বতঃসিদ্ধ বলেই মনে হয়।

iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট iFanr (WeChat ID: ifanr) ফলো করুন, যেখানে যত তাড়াতাড়ি সম্ভব আপনার জন্য আরও আকর্ষণীয় কন্টেন্ট উপস্থাপন করা হবে।