গত বছরের Google I/O এর আগের দিন, OpenAI GPT-4o চালু করেছে।
এই বছর আক্রমণাত্মক এবং রক্ষণাত্মক পরিস্থিতি ভিন্ন।
কয়েকদিন আগে ওপেনএআই প্রকাশ করেছে যে জিপিটি-৫ হবে অল ইন ওয়ান, বিভিন্ন পণ্য একত্রিত করে। এইমাত্র, Google I/O সম্মেলনে এই ধারণাটি বাস্তবায়ন করেছে এবং সরাসরি তার সবচেয়ে শক্তিশালী AI ফ্যামিলি বাকেট বের করেছে।
জেমিনি 2.5 প্রো এবং ফ্ল্যাশ মডেলের প্রকাশ থেকে শুরু করে এআই মোড, ভিও 3, ইমেজেন 4 এবং ডেভেলপার এবং নির্মাতাদের জন্য এআই কিট পর্যন্ত, গুগল একটি প্রেস কনফারেন্সে মডেল থেকে পণ্যের পথকে প্রায় সংকুচিত করেছে।
আরও সুনির্দিষ্টভাবে বলতে গেলে, এই মুহুর্তে সবচেয়ে উষ্ণতম AI অ্যাপ্লিকেশন পরিস্থিতিগুলিকে Google তার পণ্যের ইন্টারফেসে "প্রি-বুরিড" করেছে, যা মানুষকে উপলব্ধি করে যে এটি এখনও শক্তিশালী ইঞ্জিনিয়ারিং শক্তি এবং পরিবেশগত একীকরণ ক্ষমতা সহ বিশ্বের একটি AI জায়ান্ট।
এতে অবাক হওয়ার কিছু নেই যে প্রায় দুই ঘন্টার প্রেস কনফারেন্সের পরে অনেক নেটিজেন রসিকতা করেছেন যে গুগলের হাতে প্রচুর সংখ্যক স্টার্ট-আপ মারা যাবে।
যাইহোক, এটা দেখতে কঠিন নয় যে প্রেস কনফারেন্সের কিছু ফাংশন এখনও "ট্রেলার" এবং ছোট-মাপের পরীক্ষার পর্যায়ে রয়েছে এবং সত্যিকার অর্থে বাস্তবায়িত হতে এখনও অনেক দূর যেতে পারে।
আমাকে সাহায্য করুন "টিকিট কিনুন + আসন খুঁজুন + ফর্ম পূরণ করুন" একযোগে, গুগলের নতুন এআই অনুসন্ধান ভলিউম পাগল হয়ে যাচ্ছে
AI অনুসন্ধানের অন্তর্নিহিত যুক্তি পুনর্লিখন করছে।
গত বছরের I/O সম্মেলনে, Google AI ওভারভিউ ফিচার চালু করেছে, যার এখন মাসিক সক্রিয় ব্যবহারকারীদের সংখ্যা 1.5 বিলিয়নেরও বেশি।
জেনারেটিভ এআই ধীরে ধীরে মানুষের অনুসন্ধানের উপায় পরিবর্তন করেছে, কিন্তু এর সাথে যা আসে তা হল আমরা আর অনুসন্ধান বাক্সে সহজ প্রশ্নগুলি প্রবেশ করাতে সন্তুষ্ট নই, বরং এর পরিবর্তে আরও জটিল, দীর্ঘ এবং আরও বহুমুখী প্রশ্ন জিজ্ঞাসা করি।
আজ, Google আবারও সার্চ এবং এআইকে একীভূত করার প্রয়াস বাড়িয়েছে, এন্ড-টু-এন্ড এআই সার্চ এক্সপেরিয়েন্স চালু করেছে – এআই মোড।
গুগলের সিইও সুন্দর পিচাই যেভাবে পরিচয় করিয়ে দিয়েছেন, এটিই সবচেয়ে শক্তিশালী এআই সার্চ ফর্ম গুগল এখন পর্যন্ত তৈরি করেছে। এটিতে কেবল আরও উন্নত যুক্তি এবং মাল্টিমোডাল বোঝার ক্ষমতাই নেই, তবে প্রাসঙ্গিক প্রশ্ন এবং ওয়েব লিঙ্কগুলির মাধ্যমে গভীরভাবে অনুসন্ধানকেও সমর্থন করে৷
উদাহরণস্বরূপ, যখন একজন ব্যবহারকারী একটি অনুসন্ধানের প্রশ্নের সম্মুখীন হয় যার জন্য জটিল ব্যাখ্যার প্রয়োজন হয়, তখন AI মোড "গভীর অনুসন্ধান" প্রক্রিয়া সক্রিয় করতে পারে, বিভিন্ন তথ্যের মধ্যে কারণ, এবং কয়েক মিনিটের মধ্যে একটি বিশেষজ্ঞ-স্তরের উদ্ধৃতি প্রতিবেদন তৈরি করতে পারে, আপনার গবেষণার সময় বাঁচায়।
একই সময়ে, Google অনুসন্ধানের রিয়েল-টাইম ইন্টারঅ্যাক্টিভিটি আরও উন্নত করতে অনুসন্ধানে প্রজেক্ট অ্যাস্ট্রার মাল্টিমোডাল ক্ষমতাগুলিকেও একীভূত করেছে। সার্চ লাইভ বৈশিষ্ট্যের সাহায্যে, ব্যবহারকারীরা রিয়েল টাইমে প্রশ্ন জিজ্ঞাসা করতে এবং প্রতিক্রিয়া পেতে তাদের ক্যামেরা চালু করতে পারেন।
এই বছরটি এজেন্টের প্রথম বছর, এবং ব্যবহারকারীদের আরও দক্ষতার সাথে কাজগুলি সম্পূর্ণ করতে সহায়তা করার জন্য Google ভেবেচিন্তে প্রজেক্ট মেরিনার এজেন্ট বৈশিষ্ট্যটি চালু করেছে৷
উদাহরণস্বরূপ, শুধুমাত্র একটি বাক্য দিয়ে, "নিম্ন স্তরে অবস্থিত এই শনিবারের খেলার জন্য দুটি সাশ্রয়ী মূল্যের টিকিট খুঁজে পেতে আমাকে সাহায্য করুন," AI মোড স্বয়ংক্রিয়ভাবে একাধিক টিকিটিং প্ল্যাটফর্ম জুড়ে বিকল্পগুলি অনুসন্ধান করতে পারে, রিয়েল টাইমে মূল্য এবং ইনভেন্টরি তুলনা করতে পারে এবং ফর্ম পূরণ করার মতো ক্লান্তিকর ক্রিয়াকলাপগুলি সম্পূর্ণ করতে পারে, দক্ষতার ব্যাপক উন্নতি করে৷
জেমিনি মডেল এবং Google শপিং গ্রাফ দ্বারা চালিত, Google AI মোড আপনাকে আপনার পণ্যগুলিকে সংকুচিত করতে এবং অনুপ্রেরণা প্রদান করতে সহায়তা করতে পারে৷ আপনি যদি দেখতে চান জামাকাপড় আপনাকে কেমন দেখায়, কেবল নিজের একটি ফটো আপলোড করুন যাতে আপনি পোশাকটি ব্যবহার করে দেখতে পারেন।
এছাড়াও, এআই মোডে শক্তিশালী ব্যক্তিগতকরণ ক্ষমতাও রয়েছে। এটি ব্যবহারকারীর প্রাসঙ্গিক পছন্দগুলির উপর ভিত্তি করে কাস্টমাইজড পরামর্শ প্রদান করতে পারে এবং চার্ট এবং ভিজ্যুয়ালাইজেশন ফলাফল তৈরি করতে পারে, বিশেষ করে খেলাধুলা এবং আর্থিক অনুসন্ধানে।
এই বৈশিষ্ট্যটি এখন সম্পূর্ণরূপে মার্কিন যুক্তরাষ্ট্রে চালু হয়েছে এবং ভবিষ্যতে আরও অঞ্চলে প্রসারিত হবে৷
কোড লিখতে এবং টোকেন সংরক্ষণ করতে সক্ষম হওয়ায়, জেমিনি 2.5 "ছাত্র মাস্টার" ব্যক্তিত্ব পায়
মডেল ক্ষমতার পরিপ্রেক্ষিতে, Google Gemini 2.5 Pro এর I/O সংস্করণ প্রকাশ করেছে, যা চার্টের শীর্ষে রয়েছে।
এখন, Gemini 2.5 Pro "Deep Think" নামে একটি অনুমান বর্ধিতকরণ মোড প্রবর্তন করেছে। এই বৈশিষ্ট্যটি একটি উত্তর তৈরি করার আগে একাধিক অনুমান বিবেচনা করে, প্রশ্নের প্রেক্ষাপটের গভীর উপলব্ধি প্রদান করে।
2.5 প্রো ডিপ থিঙ্ক 2025 ইউনাইটেড স্টেটস ম্যাথমেটিকাল অলিম্পিয়াড (ইউএসএএমও) এবং লাইভকোডবেঞ্চ (প্রোগ্রামিং বেঞ্চমার্ক) এ প্রথম স্থান অর্জন করেছে এবং MMMU (মাল্টিমোডাল যুক্তি পরীক্ষা করা) এ 84.0% স্কোর করেছে।
যাইহোক, গুগল বলেছে যে এটি অত্যাধুনিক নিরাপত্তা মূল্যায়ন পরিচালনা করতে আরও সময় ব্যয় করবে এবং নিরাপত্তা বিশেষজ্ঞদের কাছ থেকে আরও পরামর্শ চাইবে। প্রথম ধাপ হিসেবে, ডিপ থিঙ্ক ফিচারটি বর্তমানে জেমিনি API-এর মাধ্যমে অল্প পরিসরের পরীক্ষকদের জন্য উন্মুক্ত থাকবে।
এছাড়াও আপগ্রেড করা হয়েছে দক্ষতা-কেন্দ্রিক জেমিনি 2.5 ফ্ল্যাশ।
নতুন সংস্করণ 2.5 ফ্ল্যাশ-এর মূল মানদণ্ড যেমন যুক্তি, মাল্টিমোডালিটি, কোড এবং দীর্ঘ প্রেক্ষাপটে উন্নতি হয়েছে, যখন আরও দক্ষ হচ্ছে, মূল্যায়নে 20% থেকে 30% কম টোকেন ব্যবহার করা হয়েছে।
2.5 ফ্ল্যাশ এখন জেমিনি অ্যাপে সবার জন্য উপলব্ধ, এবং সাধারণত জুনের শুরুতে Google AI স্টুডিওর মাধ্যমে বিকাশকারীদের জন্য এবং Vertex AI-এর মাধ্যমে উদ্যোগগুলির জন্য প্রকাশ করা হবে৷
বিকাশকারীর অভিজ্ঞতার পরিপ্রেক্ষিতে, 2.5 প্রো এবং 2.5 ফ্ল্যাশ জেমিনি API এবং ভার্টেক্স AI-তে "থট সামারি" ফাংশন প্রবর্তন করবে, যা শিরোনাম, মূল তথ্য এবং কলিং সরঞ্জামগুলির সাথে একটি কাঠামোগত পদ্ধতিতে মডেলের যুক্তির পথ উপস্থাপন করতে পারে।
এতে লাভবান হবেন ডেভেলপাররাও। গুগল ঘোষণা করেছে যে এটি আনুষ্ঠানিকভাবে জেমিনি এপিআই এবং SDK-তে MCP সরঞ্জামগুলিকে সমর্থন করবে, যা ডেভেলপারদের সহজে আরও ওপেন সোর্স সরঞ্জাম এবং প্লাগ-ইন ইকোসিস্টেমে অ্যাক্সেস করতে দেয়।
সঙ্গীত, সিনেমা, এবং ছবি সব অনলাইন উপলব্ধ. গুগল এআইকে হিট করেছে
এই সম্মেলনে গুগল নতুন প্রজন্মের ইমেজ এবং ভিডিও মডেল নিয়ে এসেছে – Veo 3 এবং Imagen 4।
প্রথাগত ভিডিও প্রজন্মের বিপরীতে, Veo 3 একটি ভিডিও প্রজন্মের মডেল যা অডিও সমর্থন করে। এটি শহুরে রাস্তার দৃশ্যগুলিতে ট্র্যাফিক, পাখির গান এবং এমনকি চরিত্রের কথোপকথন অনুকরণ করতে পারে, উল্লেখযোগ্যভাবে নিমজ্জনের অনুভূতিকে বাড়িয়ে তোলে।
মডেলটি শুধুমাত্র টেক্সট এবং ইমেজ প্রম্পটের উপর ভিত্তি করে ভিডিও তৈরি করে না, তবে ঠোঁট সিঙ্কের সাথে শারীরিক পরিবেশকে সঠিকভাবে সিঙ্ক্রোনাইজ করে, ভিডিও তৈরির বাস্তবতাকে ব্যাপকভাবে উন্নত করে।
Veo 3 বর্তমানে Gemini অ্যাপ এবং ফ্লো প্ল্যাটফর্মে আল্ট্রা গ্রাহকদের জন্য উপলব্ধ, এবং Vertex AI প্ল্যাটফর্মে এন্টারপ্রাইজ ব্যবহারকারীদের জন্য সমর্থিত।
উপরে উল্লিখিত ফ্লো হল একটি AI ফিল্ম-মেকিং টুল যা নির্মাতাদের জন্য Google তৈরি করেছে।
অভিনেতা, অবস্থান, প্রপস এবং শৈলী পরিচালনা করতে ব্যবহারকারীরা প্রাকৃতিক ভাষায় চলচ্চিত্রের দৃশ্য বর্ণনা করে, স্বয়ংক্রিয়ভাবে বর্ণনামূলক অংশ তৈরি করে। ফ্লো এখন মার্কিন যুক্তরাষ্ট্রে জেমিনি প্রো এবং আল্ট্রা ব্যবহারকারীদের জন্য উপলব্ধ, বিশ্বব্যাপী কাজ চলছে।
ইমেজ জেনারেশনের ক্ষেত্রে, Imagen 4-এর নতুন সংস্করণটি সঠিকতা এবং গতিকে উন্নত করেছে এবং বাস্তবসম্মতভাবে কাপড়, জলের ফোঁটা এবং পশুর চুলকে বিশদভাবে প্রদর্শন করতে পারে, পাশাপাশি আরও বিমূর্ত শৈলী তৈরি করতে সক্ষম।
এটি 2K রেজোলিউশন এবং মাল্টিপল অ্যাসপেক্ট রেশিও সমর্থন করে এবং টাইপসেটিং এবং বানানে উল্লেখযোগ্যভাবে অপ্টিমাইজ করা হয়েছে, এটি গ্রিটিং কার্ড, পোস্টার এবং এমনকি কমিকস তৈরির জন্য উপযুক্ত করে তোলে।
চিত্র 4 আজ জেমিনি, হুইস্ক, ভার্টেক্স এআই এবং ওয়ার্কস্পেসের স্লাইড, ভিডস এবং ডক্সে উপলব্ধ। জানা গেছে যে দশগুণ দ্রুত একটি সংস্করণ ভবিষ্যতে চালু করা হবে।
মিউজিক তৈরির ক্ষেত্রে, গুগল লিরিয়া 2-চালিত মিউজিক এআই স্যান্ডবক্সে অ্যাক্সেস প্রসারিত করেছে এবং ইন্টারেক্টিভ মিউজিক জেনারেশন মডেল লিরিয়া রিয়েলটাইম চালু করেছে। মডেলটি এখন API এবং AI স্টুডিওর মাধ্যমে বিকাশকারীদের কাছে উপলব্ধ।
Veo 3, Imagen 4 এবং Lyria 2 দ্বারা উত্পন্ন বিষয়বস্তু SynthID ওয়াটারমার্ক বহন করতে থাকবে তা বিবেচনায় নিয়ে, Google একটি নতুন SynthID ডিটেক্টর প্রকাশ করেছে৷
ব্যবহারকারীদের শুধুমাত্র ফাইলগুলি আপলোড করতে হবে তাদের মধ্যে SynthID ওয়াটারমার্ক আছে কিনা তা শনাক্ত করতে, যা জাল বিরোধী এবং AI সামগ্রীর উৎস খুঁজে বের করার জন্য ব্যবহৃত হয়।
গুগল এমন একটি "বিশ্ব মডেল" তৈরি করতে চায় যা আপনাকে কাজগুলি সম্পূর্ণ করতে সহায়তা করতে পারে?
গুগল আশা করছে জেমিনিকে একটি "বিশ্ব মডেল" হিসেবে গড়ে তুলবে যা বাস্তব জগতের সমস্ত দিক পরিকল্পনা, বুঝতে এবং অনুকরণ করতে পারে।
গুগল ডিপমাইন্ডের সিইও ডেমিস হাসাবিস বলেছেন যে এই দিকনির্দেশটি প্রজেক্ট অ্যাস্ট্রার মূল ধারণাগুলির মধ্যে একটি।
গত এক বছরে, Google ধীরে ধীরে ভিডিও বোঝাপড়া, স্ক্রিন শেয়ারিং, মেমরি ফাংশন ইত্যাদিকে জেমিনি লাইভে একত্রিত করেছে। এখন, জেমিনীর নতুন ভয়েস আউটপুট নেটিভ অডিওর সাথে যুক্ত করা হয়েছে, যা আরও স্বাভাবিক; মেমরি এবং কম্পিউটার ব্যবহারের ক্ষমতা একই সাথে উন্নত করা হয়।
এছাড়াও, Google এজেন্টের ক্ষমতাগুলি কীভাবে ব্যবহার করতে হয় তাও অনুসন্ধান করছে যাতে লোকেরা মাল্টিটাস্কিং পরিচালনা করতে সহায়তা করে।
প্রজেক্ট মেরিনার তাদের মধ্যে একটি, যা একই সময়ে দশটি কাজ সম্পূর্ণ করতে পারে, যেমন তথ্য অনুসন্ধান, সংরক্ষণ, কেনাকাটা এবং গবেষণা। এটি এখন মার্কিন যুক্তরাষ্ট্রে আল্ট্রা ব্যবহারকারীদের জন্য উপলব্ধ এবং শীঘ্রই জেমিনি API এবং অন্যান্য মূল পণ্যগুলিতে একীভূত হবে৷
বিপুল সংখ্যক নতুন এআই বৈশিষ্ট্য প্রকাশ করা হয়েছে। একটি প্রকৃত হত্যাকারী বৈশিষ্ট্য আবির্ভূত হবে?
নোটবুকএলএম গতকাল আনুষ্ঠানিকভাবে ঘোষণা করেছে যে এটি চালু হওয়ার 24 ঘন্টার মধ্যে অ্যাপ স্টোরে 2 নং প্রোডাক্টিভিটি অ্যাপ এবং নং 9 সামগ্রিক অ্যাপে পরিণত হয়েছে।
AI নোট নেওয়ার সরঞ্জামগুলিতে Google-এর একটি গুরুত্বপূর্ণ অনুসন্ধান হিসাবে, NotebookLM অডিও ওভারভিউ এবং মাইন্ড ম্যাপিংয়ের মতো ফাংশন সরবরাহ করে।
তাদের মধ্যে, অডিও ওভারভিউ বর্তমানে 80 টিরও বেশি ভাষা সমর্থন করে এবং এই সপ্তাহে, গুগল ঘোষণা করেছে যে এটি এই বৈশিষ্ট্যটিতে আরও বেশি কাস্টমাইজযোগ্যতা প্রবর্তন করবে। ব্যবহারকারীরা তাদের প্রয়োজন অনুসারে সারাংশের দৈর্ঘ্য চয়ন করতে পারেন, তা দ্রুত ব্রাউজ করা হোক বা গভীরভাবে পড়া হোক।
এই বৈশিষ্ট্যটি প্রথমে ইংরেজিতে পাওয়া যাবে এবং পরে আরও ভাষায় প্রসারিত করা হবে।
একই সময়ে, Google ভিজ্যুয়াল প্রেজেন্টেশনের জন্য ব্যবহারকারীদের চাহিদার প্রতিও সাড়া দিচ্ছে এবং শীঘ্রই NotebookLM-এ একটি ভিডিও ওভারভিউ ফাংশন যোগ করবে। ব্যবহারকারীরা নোটের বিষয়বস্তুকে শিক্ষামূলক ভিডিওতে রূপান্তর করতে পারে শুধুমাত্র একটি ক্লিকের মাধ্যমে, আরও স্বজ্ঞাত উপায়ে তথ্য পৌঁছে দিতে।
এআই প্রোগ্রামিংয়ের ক্ষেত্রেও গুগল জুলসের সর্বশেষ অগ্রগতি নিয়ে এসেছে।
এই স্বায়ত্তশাসিত কোডিং সহকারী, যা মূলত Google Labs-এ উপস্থিত হয়েছিল, কোড বুঝতে পারে এবং স্বায়ত্তশাসিতভাবে বিকাশের কাজগুলি যেমন লেখার পরীক্ষা, বিল্ডিং ফাংশন এবং বাগ সংশোধন করতে পারে। এটি এখন আনুষ্ঠানিকভাবে পাবলিক বিটা পরীক্ষার পর্যায়ে প্রবেশ করেছে।
এছাড়াও, Google একটি নতুন সাবস্ক্রিপশন পরিষেবা চালু করেছে, Google AI Ultra।
প্ল্যানটি পেশাদার ব্যবহারকারীদের Google এর সবচেয়ে শক্তিশালী মডেল এবং উন্নত বৈশিষ্ট্যগুলিতে সীমাহীন অ্যাক্সেস প্রদান করে। এটি ফিল্মমেকার, ডেভেলপার, সৃজনশীল কর্মী ইত্যাদি পেশাদারদের জন্য উপযুক্ত, যার মাসিক ফি US$249.99।
প্রোগ্রামটি বর্তমানে মার্কিন যুক্তরাষ্ট্রে উপলব্ধ এবং শীঘ্রই অন্যান্য দেশে প্রসারিত হবে।
আসলে, এআই-এর আজ মডেল বা ফাংশনের কোনো অভাব নেই। যা সত্যিই দুষ্প্রাপ্য তা হল একটি "হত্যাকারী পণ্য" যা দৈনন্দিন জীবনে এম্বেড করা যেতে পারে এবং মূলধারার ব্যবহারকারীদের মনে সত্যিকার অর্থে প্রবেশ করতে পারে।
গুগল অবশ্যই এটি বুঝতে পারে এবং উত্তর খোঁজার জন্য কঠোর পরিশ্রম করছে।
অতএব, আমরা দেখতে পাচ্ছি যে এই প্রেস কনফারেন্সে, গুগল প্রায় সবকিছু করেছে এবং সবকিছু উল্লেখ করেছে: পাঠ্য, ছবি, ভিডিও, সঙ্গীত, অনুসন্ধান, এজেন্ট এবং সৃজনশীল সরঞ্জাম থেকে।
কার্ড প্রকাশ করা হয়েছে এবং প্রযুক্তি জায়গায় আছে. এখন, Google এর সমস্ত প্রয়োজন এমন একটি পদক্ষেপ যা সত্যিকার অর্থে ব্যবহারকারীর ব্যথার পয়েন্টগুলিকে আঘাত করবে৷
#iFanr: iFanr (WeChat ID: ifanr) এর অফিসিয়াল WeChat পাবলিক অ্যাকাউন্ট অনুসরণ করতে স্বাগতম, যেখানে যত তাড়াতাড়ি সম্ভব আরও উত্তেজনাপূর্ণ বিষয়বস্তু আপনার কাছে উপস্থাপন করা হবে।