গুগলের এআই সবেমাত্র কান পেয়েছে

Google Gemini AI লোগো।
গুগল

এআই চ্যাটবটগুলি ইতিমধ্যেই ছবি এবং ভিডিওর মাধ্যমে বিশ্বকে "দেখতে" সক্ষম। কিন্তু এখন, Google Gemini Pro এর সর্বশেষ আপডেটের অংশ হিসাবে অডিও-টু-স্পিচ কার্যকারিতা ঘোষণা করেছে। জেমিনি 1.5 প্রো-এ, চ্যাটবট এখন তার সিস্টেমে আপলোড করা অডিও ফাইলগুলি "শুনতে" পারে এবং তারপরে পাঠ্য তথ্য বের করতে পারে।

কোম্পানি এই LLM সংস্করণটিকে তার Vertex AI ডেভেলপমেন্ট প্ল্যাটফর্মে পাবলিক প্রিভিউ হিসেবে উপলব্ধ করেছে। এটি আরও এন্টারপ্রাইজ-কেন্দ্রিক ব্যবহারকারীদের বৈশিষ্ট্যটি নিয়ে পরীক্ষা করার অনুমতি দেবে এবং ফেব্রুয়ারিতে আরও ব্যক্তিগত রোলআউটের পরে যখন মডেলটি প্রথম ঘোষণা করা হয়েছিল তখন এর ভিত্তি প্রসারিত করবে। এটি মূলত ডেভেলপার এবং এন্টারপ্রাইজ গ্রাহকদের একটি সীমিত গোষ্ঠীর জন্য অফার করা হয়েছিল।

গুগল তার ক্লাউড নেক্সট সম্মেলনে আপডেট সম্পর্কে বিশদ ভাগ করেছে, যা বর্তমানে লাস ভেগাসে অনুষ্ঠিত হচ্ছে। জেমিনি আল্ট্রা এলএলএমকে কল করার পর যা তার জেমিনি অ্যাডভান্সড চ্যাটবটকে তার জেমিনি পরিবারের সবচেয়ে শক্তিশালী মডেল বলে, গুগল এখন জেমিনি 1.5 প্রোকে তার সবচেয়ে সক্ষম জেনারেটিভ মডেল বলছে৷ কোম্পানি যোগ করেছে যে এই সংস্করণটি মডেলের অতিরিক্ত টুইকিং ছাড়াই শেখার ক্ষেত্রে আরও ভাল।

জেমিনি 1.5 প্রো মাল্টিমোডাল যে এটি টিভি শো, চলচ্চিত্র, রেডিও সম্প্রচার এবং কনফারেন্স কল রেকর্ডিং সহ পাঠ্যে বিভিন্ন ধরনের অডিও ব্যাখ্যা করতে পারে। এটি এমনকি বহুভাষিক যে এটি বিভিন্ন ভাষায় অডিও প্রক্রিয়া করতে পারে। এলএলএম ভিডিও থেকে প্রতিলিপি তৈরি করতে সক্ষম হতে পারে; যাইহোক, এর গুণমান অবিশ্বাস্য হতে পারে, যেমন TechCrunch দ্বারা উল্লেখ করা হয়েছে

যখন প্রথম ঘোষণা করা হয়েছিল, Google ব্যাখ্যা করেছিল যে Gemini 1.5 Pro কাঁচা ডেটা প্রক্রিয়া করার জন্য একটি টোকেন সিস্টেম ব্যবহার করেছে। এক মিলিয়ন টোকেন প্রায় 700,000 শব্দ বা কোডের 30,000 লাইনের সমান। মিডিয়া আকারে, এটি এক ঘন্টা ভিডিও বা প্রায় 11 ঘন্টা অডিওর সমান।

জেমিনি 1.5 প্রো-এর কিছু ব্যক্তিগত প্রিভিউ ডেমো রয়েছে যা প্রদর্শন করে যে কীভাবে এলএলএম একটি ভিডিও ট্রান্সক্রিপ্টে নির্দিষ্ট মুহূর্তগুলি খুঁজে পেতে সক্ষম। উদাহরণস্বরূপ, এআই উত্সাহী রোয়ান চেউং প্রাথমিকভাবে অ্যাক্সেস পেয়েছিলেন এবং বিস্তারিতভাবে বর্ণনা করেছিলেন যে কীভাবে তার ডেমো একটি ক্রীড়া প্রতিযোগিতায় একটি সঠিক অ্যাকশন শট খুঁজে পেয়েছিল এবং ইভেন্টটির সংক্ষিপ্ত বিবরণ দিয়েছে, যেমনটি উপরে এম্বেড করা টুইটটিতে দেখা গেছে।

যাইহোক, Google উল্লেখ করেছে যে ইউনাইটেড হোলসেল মর্টগেজ, টিবিএস এবং রিপ্লিট সহ অন্যান্য প্রাথমিক গ্রহণকারীরা আরও এন্টারপ্রাইজ-কেন্দ্রিক ব্যবহারের ক্ষেত্রে বেছে নিচ্ছে, যেমন বন্ধকী আন্ডাররাইটিং, স্বয়ংক্রিয় মেটাডেটা ট্যাগিং, এবং কোড তৈরি করা, ব্যাখ্যা করা এবং আপডেট করা।