GPT-4o মোকাবেলায় গুগল “এআই ফ্যামিলি বাকেট” প্রকাশ করেছে! সার্চ ইঞ্জিনে একটি বিরল প্রধান আপডেট, উদ্বেগ দূর করতে 121টি “AI” বাক্য

ওপেনএআই গত রাতে ChatGPT-4o প্রকাশ করার পরে, চাপ ছিল Google I/O-এর উপর, যেন Google যাই হোক না কেন "Wang Feng in AI" শিরোনাম থেকে মুক্তি পেতে পারে না।

অন্যদিকে, গুগল এআই 121 বার উল্লেখ করেছে এবং প্রায় 2 ঘন্টার প্রেস কনফারেন্সের মাধ্যমে দশটিরও বেশি নতুন পণ্য এবং আপগ্রেড চালু করেছে এটি বলা যেতে পারে যে এটি "ভলিউম এবং পরিচালনায় সম্পূর্ণ", এর সম্পূর্ণ কভারেজ ফায়ারপাওয়ার, কিন্তু অনেক চমক নেই।

আসুন আমরা প্রথমে আপনাকে একবারে এই সম্মেলনের হাইলাইটগুলির একটি সারসংক্ষেপ দিই দয়া করে আরও কার্যকরী বিশ্লেষণের জন্য পড়ুন৷

সংবাদ সম্মেলনের মূল বিষয়:

  • গুগল সার্চ এআই: প্রকাশিত এআই ওভারভিউ, এআই সার্চ সারাংশ ফাংশনের একটি উন্নত সংস্করণ এবং বহু-পদক্ষেপের যুক্তি ক্ষমতা।
  • জেমিনি বড় মডেল: জেমিনি 1.5 ফ্ল্যাশ (1 মিলিয়ন প্রসঙ্গ);
  • জেমা বড় মডেল: প্রকাশ করা হয়েছে ওপেন সোর্স মাল্টি-মোডাল বড় মডেল পালি জেমা এবং জেমা 2।
  • Google Workspace-এ AI: Google-এর প্রোডাক্টের সিরিজ একত্রিত করতে Gemini-এর ক্ষমতা এবং সাইড প্যানেল ফর্ম ব্যবহার করুন।
  • জেমিনি অ্যাপ: জেমিনি অ্যাপের মোবাইল সংস্করণ শীঘ্রই এআই-এর সাথে ভিডিও কথোপকথন সমর্থন করবে এবং সাম্প্রতিক সপ্তাহগুলিতে প্রকাশিত হবে।
  • প্রজেক্ট অ্যাস্ট্রা: ইমেজ, মিউজিক এবং ভিডিও যেমন Imagen3, Music AI Sandbox এবং Veo-এর জন্য জেনারেটিভ AI সহ সাম্প্রতিক মাল্টি-মডাল AI প্রকল্প।

অনুসন্ধান করে শুরু, বিস্ফোরিত করতে অনুসন্ধান কিং ব্যবহার করুন

Google অনুসন্ধান হল Google-এর বিনিয়োগ এবং উদ্ভাবনের বৃহত্তম ক্ষেত্রগুলির মধ্যে একটি, এবং এটি তাদের প্রতিষ্ঠাতা পণ্য।

25 বছর আগে, গুগল অনুসন্ধান চালু করেছিল এবং আজ রাতে গুগল আবার অনুসন্ধানের সীমানা ঠেলে দিচ্ছে।

সহজ কথায়, AIGC-এর Google অনুসন্ধানের মাধ্যমে, আপনি আরও কিছু করতে পারেন:

আপনি যা ভাবছেন, আপনার যা কিছু করা দরকার, শুধু জিজ্ঞাসা করুন (এটি) এবং Google অনুসন্ধান এটি খুঁজে পাবে।

গুগল সার্চের সমস্ত বিবর্তন এর জন্য কাস্টমাইজ করা জেমিনি মডেলের উপর ভিত্তি করে।

গুগল প্রেস কনফারেন্সে পরিচয় করিয়ে দেয় যে "স্বাতন্ত্র্যসূচক" গুগল অনুসন্ধানের তিনটি প্রধান অনন্য সুবিধা রয়েছে:

  • Google-এর রিয়েল-টাইম তথ্যে মানুষ, স্থান এবং জিনিস সম্পর্কে এক ট্রিলিয়নেরও বেশি তথ্য রয়েছে
  • একটি শীর্ষ-রেটেড পণ্য এবং সেরা অনলাইন পরিষেবাগুলির মধ্যে একটি৷
  • মিথুন রাশির শক্তি

এই তিনটি জিনিস একত্রিত করা অনুসন্ধানে Google এর নতুন ক্ষমতা আনলক করে।

প্রথম নতুন ফাংশন হল এআই রিভিউ ব্যবহারকারীরা সার্চ ফলাফলের শীর্ষে বৃহৎ এআই মডেলের দ্বারা তৈরি সারসংক্ষেপ পেতে পারেন, যার ফলে সমগ্র অনুসন্ধান প্রক্রিয়াকে সহজ করা হয় এবং জটিল সমস্যাগুলির পুনরুদ্ধার প্রক্রিয়া সহজ হয়।

গুগল বলছে এই বছরের শেষ নাগাদ এক বিলিয়নেরও বেশি মানুষ গুগল সার্চে এআই রিভিউ ফিচার ব্যবহার করবে এবং গুগল দাবি করছে যে এটি হবে ২৫ বছরের মধ্যে তার সার্চ ইঞ্জিনের সবচেয়ে বড় আপডেটগুলোর একটি।

মাল্টি-স্টেপ রিজনিং হল গুগল সার্চে আরেকটি গুরুত্বপূর্ণ বৈশিষ্ট্য।

নতুন বহু-পদক্ষেপের যুক্তির মাধ্যমে, ভবিষ্যতে কিছু জীবন, কাজ এবং ভ্রমণের পরিকল্পনা করা আমাদের জন্য খুব সহজ হয়ে যাবে।

উদাহরণস্বরূপ, আপনি "আশেপাশে সেরা যোগ স্টুডিও" খুঁজে পেতে অনুসন্ধান বারটি ব্যবহার করতে পারেন এবং তারপরে কাছাকাছি যোগ স্টুডিওগুলির সমস্ত গুরুত্বপূর্ণ তথ্য যেমন মূল্যায়ন স্কোর, কোর্স সুপারিশ, দূরত্ব ইত্যাদি ব্লকগুলিতে শ্রেণীবদ্ধ করা হবে এবং স্পষ্টভাবে প্রদর্শিত হবে অনুসন্ধান ফলাফল.

Google এর নিজস্ব বিশাল ডাটাবেসের উপর নির্ভর করে, AI অনুসন্ধান প্রক্রিয়া চলাকালীন সর্বশেষ এবং সর্বাধিক ব্যাপক উচ্চ-মানের তথ্যের উপর কল করতে পারে, তাই অনুসন্ধান ফলাফলের নির্ভুলতা এবং বিশ্বাসযোগ্যতা আরও নিশ্চিত।

বর্তমানে, Google বিশ্বজুড়ে 250 মিলিয়নেরও বেশি অবস্থানগুলিকে অন্তর্ভুক্ত করে, যেগুলি রিয়েল টাইমে আপডেট করা হয় এবং গুরুত্বপূর্ণ তথ্য যেমন রেটিং, পর্যালোচনা এবং ব্যবসার সময় অন্তর্ভুক্ত করে৷

অনুসন্ধানে পরিকল্পনা করা আরেকটি আপডেট যা আপনার উপর বোঝা কমিয়ে দেয়।

ধরা যাক আপনি আপনার খাবারের পুনর্গঠন করছেন এবং স্ক্র্যাচ থেকে পরিকল্পনা করছেন এবং প্রাতঃরাশ, দুপুরের খাবার এবং রাতের খাবারের জন্য ম্যাকারনি এবং পনির খেতে চান না।

সহজভাবে আপনার প্রয়োজনীয়তাগুলি অনুসন্ধান বাক্সে রাখুন, এবং Google অনুসন্ধান আপনাকে একটি নতুন সাপ্তাহিক রেসিপি দেবে যা আপনার প্রয়োজনীয়তা অনুসারে এবং যুক্তিসঙ্গতভাবে সাজানো।

তাছাড়া, আপনি যেকোন সময় শর্ত এবং বিবরণ পরিবর্তন করতে পারেন এবং সর্বশেষ প্রম্পটের উপর ভিত্তি করে অনুসন্ধানের ফলাফল রিয়েল টাইমে আপডেট করা হবে।

আমরা যদি অন্য কোম্পানির পণ্যগুলিতে উপরের ফাংশনগুলি দেখে থাকি বা ব্যবহার করে থাকি, তাহলে ভিডিওর সাথে জিজ্ঞাসা করুন আপনাকে অবশ্যই কিছু চমক দেবে।

জীবনের অনেকগুলি বস্তু রয়েছে, তাদের নিজস্ব একচেটিয়া নাম সহ যখন কিছু সরঞ্জামের ছোটখাটো সমস্যা হয়, তখন সংশ্লিষ্ট মেরামতের পদ্ধতিও রয়েছে। কিন্তু অনেক ক্ষেত্রে শুধুমাত্র পেশাদাররা বলতে পারেন, এবং শুধুমাত্র তারাই "সঠিক ওষুধ লিখে দিতে পারেন।"

এখন গুগল সার্চের আস্ক উইথ ভিডিওর মাধ্যমে, প্রত্যেককে বিশেষজ্ঞ বলা যেতে পারে, যা আপনার মোবাইল ফোনে একটি বিশ্বকোষের সমতুল্য।

রেকর্ডের অংশগুলি আর কাজ করছে না এবং আমি জানি না কোথা থেকে শুরু করব ক্যামেরার শাটার হঠাৎ ব্যর্থ হয়ে যায়… অতীতে, আপনাকে এটি প্রস্তুতকারকের কাছে ফেরত পাঠাতে অনেক কষ্ট করতে হতে পারে৷ বিক্রয়োত্তর পরিষেবার জন্য, কিন্তু এখন আপনি সমস্যার একটি ছবি তুলতে Google ডিভাইসের লেন্স ব্যবহার করতে পারেন, এবং Google অনুসন্ধান আপনাকে সমস্যাগুলির প্রাথমিক নির্ণয় এবং কিছু ছোটখাট ত্রুটির সমাধান করতে সহায়তা করতে পারে৷ ঘটনাস্থলে প্রদান করা হবে।

প্রেস কনফারেন্সে রিয়েল-টাইম ডেমোনস্ট্রেশানে, AI পুরো মেরামতের পদক্ষেপগুলিকে একের পর এক তালিকাবদ্ধ করেছে, প্রদর্শক দ্রুত ছোটখাটো সমস্যাগুলি সমাধান করতে পারে।

এই ফাংশনটি AI ব্যবহার করে ভিডিও ফ্রেমকে ফ্রেমে পচন দেয়, প্রতিটি ফ্রেমের মূল তথ্য মিথুনের দীর্ঘ পরিচিতি উইন্ডোতে আমদানি করে একে একে বিশ্লেষণ করে এবং অন্তর্দৃষ্টি খুঁজে পেতে ইন্টারনেটে সম্পর্কিত নিবন্ধ, ফোরাম, ভিডিও ইত্যাদির মাধ্যমে চিরুনি দেয়। ভিডিওর স্মার্ট পরামর্শের সাথে জিজ্ঞাসা করুন।

প্রথাগত টেক্সট ইনপুটের সাথে তুলনা করে, ভিডিওর সবচেয়ে বড় সুবিধা হল যে আমাদের এবং AI এর মধ্যে মিথস্ক্রিয়া প্রক্রিয়া আরও স্বজ্ঞাত হয়ে ওঠে যেমন "এখানে" এবং "এই"-এর মতো অস্পষ্ট শব্দগুলি ব্যবহার করে আমরা কী উল্লেখ করছি তাও বড় মডেলকে জানাতে পারে৷

গুগল বলেছে যে এই সর্বশেষ AI বৈশিষ্ট্যগুলি আগামী কয়েক সপ্তাহের মধ্যে ল্যাবরেটরি ফাংশনে চালু হবে, যার মানে আরও শক্তিশালী গুগল অনুসন্ধান অবতরণ থেকে খুব বেশি দূরে নয়।

পরবর্তী সংস্করণগুলিতে, এটি পৃষ্ঠার ভিডিওগুলির স্বয়ংক্রিয় সাবটাইটেলগুলির উপর ভিত্তি করে উত্তর খুঁজে পেতে সক্ষম হবে আমি ভাবছি যে এটি সেই ব্লগারদের চাকরি কেড়ে নেবে যারা "1 মিনিটে XX মুভি দেখেছেন"৷

ওপেনএআই-এর লক্ষ্যে ছবি, গান এবং চলচ্চিত্র

যদি গত দুই দিনে GPT-4o AI হয় যা আবারও বিশ্বকে একটু ধাক্কা দেয়, তাহলে আজ রাতে Google দ্বারা আনুষ্ঠানিকভাবে ঘোষিত প্রজেক্ট অ্যাস্ট্রা সেই শকেরই ধারাবাহিকতা।

প্রোজেক্ট অ্যাস্ট্রা হল GoogleMind-এর একটি প্রোটোটাইপ – একটি সাধারণ কৃত্রিম বুদ্ধিমত্তা সহকারী৷

GPT-4o-এর মতো, ব্যবহারকারীরা AI এর সাথে রিয়েল-টাইম কথোপকথন এবং এর মাধ্যমে ভিডিও চ্যাট করতে পারে।

প্রেস কনফারেন্সে প্রদর্শন এই নতুন বৈশিষ্ট্যটি খুব ভালভাবে প্রদর্শন করতে পারে প্রদর্শনী ভিডিওতে, কর্মীরা তাদের চারপাশের বস্তুর দিকে মোবাইল ফোনের লেন্স নির্দেশ করে এবং প্রজেক্ট অ্যাস্ট্রাকে কিছু প্রশ্ন জিজ্ঞাসা করেছিল এবং এটি প্রায় শূন্য বিলম্বের সাথে সঠিকভাবে উত্তর দিতে সক্ষম হয়েছিল। .

উদাহরণস্বরূপ, প্রজেক্ট অ্যাস্ট্রা বলতে পারে যে স্পিকারের উপরের অর্ধেকটি একটি টুইটার, এবং কম্পিউটার স্ক্রিনে প্রদর্শিত কোড থেকে সহজেই এর নির্দিষ্ট ফাংশন সনাক্ত করতে পারে।

গুগল বলে:

আমাদের নতুন প্রজেক্ট একটি ভবিষ্যত AI সহকারী তৈরির উপর ফোকাস করে যা আসলে দৈনন্দিন জীবনে সাহায্য করতে পারে।

আরও শক্তিশালী AI পারফরম্যান্সের উপর ভিত্তি করে, Google I/O-তে আরও তিনটি ব্যবহারিক ফাংশন ঘোষণা করেছে যেগুলি "ইমেজ", "মিউজিক" এবং "ভিডিও" ক্ষেত্রগুলিতে রয়েছে, যা উন্নত প্রযুক্তির "ভবিষ্যত বোধ" প্রতিফলিত করে।

Imagen 3 হল Google দ্বারা প্রকাশিত সাম্প্রতিক চিত্র প্রজন্মের মডেল।

এটি আমাদের প্রম্পট শব্দগুলিকে আরও ভালভাবে বুঝতে পারে এবং আরও বাস্তবসম্মত চিত্র তৈরি করতে সেগুলি ব্যবহার করতে পারে।

প্রেস কনফারেন্সে প্রদর্শিত "উলফ" এর জেনারেটেড ছবি হল যে ইমেজেন 3 একটি বর্ণনায় 8টি বিশদ তথ্য নির্ভুলভাবে বের করেছে এবং সেগুলির সবকটি ছবিতে প্রতিফলিত হয়েছে।

এটি খুঁজে পাওয়া কঠিন নয় যে তৈরি করা ছবিগুলি কেবল বিশদেই সঠিক নয়, খুব বাস্তবসম্মতও।

ইমেজেন 3 আরও কিছু বিমূর্ত ছবি সৃষ্টি পরিচালনা করতে পারে, যেমন "রামধনু রঙ", "পালকের আলো" এবং "কালো পটভূমি" এর প্রম্পটের উপর ভিত্তি করে তৈরি সৃজনশীল ছবি।

এটা ঠিক আপনি কি চান জানেন মত.

মুখপাত্র এমনকি রসিকতার সাথে প্রেস কনফারেন্সে দেখিয়েছিলেন যে "আপনি এটি অন্য লোকের মুখে দাড়ি গণনা করতে ব্যবহার করতে পারেন।"

মিউজিক জেনারেশনেও গুগল নতুন সাফল্য এনেছে।

মিউজিক এআই স্যান্ডবক্স হল লঞ্চ করা সর্বশেষ মিউজিক জেনারেশন মডেলটি Google এবার আই/ও সাইটে শেয়ার করার জন্য মার্ক রিবিলেটকে আমন্ত্রণ জানিয়েছে।

শিল্পীর তৈরি একটি সংক্ষিপ্ত মিউজিক ডেমোর উপর ভিত্তি করে, মিউজিক এআই স্যান্ডবক্সকে প্রসারিত এবং প্রসারিত করা যেতে পারে এটি ব্যবহারকারীর প্রম্পট ইনপুট যেমন মিউজিক স্টাইল এবং টাইপ ইত্যাদির উপর ভিত্তি করে একটি দ্বিতীয় মিউজিক তৈরি করতে পারে। .

গুগল বলেছে যে তারা এবং ইউটিউব মিউজিক এআই স্যান্ডবক্স তৈরি করেছে:

এটি পেশাদার AI মিউজিক টুলের একটি সেট যা স্ক্র্যাচ থেকে নতুন ইন্সট্রুমেন্ট পার্টস তৈরি করতে পারে, ট্র্যাকের মধ্যে স্টাইল কনভার্ট করতে পারে, ইত্যাদি ডিজাইন করতে এবং পরীক্ষা করতে আমাদের সাহায্য করতে পারে।

Veo নামক আরেকটি ব্যবহারিক মডেল ভিডিও তৈরি করার উপর দৃষ্টি নিবদ্ধ করে।

ব্যবহারকারীদের শুধুমাত্র প্রাসঙ্গিক পাঠ্য, চিত্র বা ভিডিও প্রম্পট প্রবেশ করতে হবে এবং Veo 60 সেকেন্ড পর্যন্ত উচ্চ-মানের 1080p ভিডিও তৈরি করতে পারে।

এটি বিভিন্ন ভিজ্যুয়াল এবং সিনেমাটিক শৈলীতে নির্দেশাবলীতে বিবরণ ক্যাপচার করে।

উদাহরণস্বরূপ, আমরা প্রম্পটে জিনিসপত্র, ল্যান্ডস্কেপ বা টাইম-ল্যাপস এরিয়াল ফটো লিখতে পারি এবং ভিডিওটি আরও সম্পাদনা করতে অন্যান্য প্রম্পট ব্যবহার করতে পারি।

দীর্ঘদিন ধরে, ভিডিও জেনারেশন এআই "কেবল তাত্ত্বিকভাবে প্রতিষ্ঠিত" হয়েছে, তাদের মধ্যে "ব্যবহারযোগ্যতা" এর সবচেয়ে বড় থ্রেশহোল্ড হল: ভিডিও জেনারেশনের সময় মাত্র কয়েক সেকেন্ড। শুধুমাত্র এক বা দুটি আন্দোলনে বারবার লাফ দিতে পারে।

এই কারণেই সোরা অনেক আলোচনার কারণ হয়ে দাঁড়িয়েছে যখন এটি আজ রাতে শুরু হয়েছে, Google-এর Veo ফটো রিয়ালিজম থেকে শুরু করে অ্যানিমেশন পর্যন্ত, এটি বেশিরভাগ ফিল্ম এবং টেলিভিশন শৈলীকে কভার করতে পারে৷

প্রোজেক্ট অ্যাস্ট্রা ছাড়াও, Google আমাদের একটি কাস্টমাইজ করা যায় এমন মিথুন – রত্ন সরবরাহ করে।

Google বলেছে যে এটি নির্দিষ্ট বৈশিষ্ট্যগুলি বজায় রেখে কাজগুলি সম্পূর্ণ করতে পারে এবং হাজার হাজার লোকের জন্য একটি ব্যক্তিগত সহকারী হতে পারে ব্যবহারকারীরা একটি যোগ বন্ধু, একটি ভার্চুয়াল জনপ্রিয় চরিত্র, একটি ফিটনেস অংশীদার, একটি সৃজনশীল লেখার প্রশিক্ষক বা এমনকি একটি WeChat অ্যাকাউন্ট হতে পারে৷ পয়েন্ট টিউটর, ইত্যাদি সব একটি সমস্যা.

মিথুন দীর্ঘ টেক্সট সম্পর্কে পাগল, এবং মিথুন পরিবার একটি নতুন সদস্য যোগ করেছে

জেমিনি প্রকল্পটি তার প্রকাশের পর থেকে অনেক মনোযোগ আকর্ষণ করেছে। প্রথমে কিছু বিতর্ক ছিল, কিন্তু পরে এটি তার খ্যাতি পুনরুদ্ধার করার জন্য নিজের শক্তির উপর নির্ভর করেছিল এবং এখন এটি আরও বেশি পরিণত হচ্ছে।

পিচাইয়ের মতে, বর্তমানে 1.5 মিলিয়নেরও বেশি ডেভেলপাররা জেমিনি মডেল ব্যবহার করছেন এবং ব্যবহারকারীর সংখ্যা 2 বিলিয়নে পৌঁছেছে এখন পিচাই আবার "জেমিনি যুগ" উল্লেখ করছেন, এটিকে সমস্ত পণ্যের সাথে একীভূত করার এবং নতুন আনার লক্ষ্য নিয়ে। ব্যবহারকারীদের কাছে পণ্যগুলি নির্মাতা, বিকাশকারী এবং স্টার্টআপের জন্য নতুন সুযোগ তৈরি করে।

সর্বশেষ জেমিনি 1.5 প্রো বর্তমানে 1 মিলিয়ন টোকেন পাঠ্য ভলিউম সমর্থন করে এবং এই বছরের শেষের দিকে বলা হয় যে এই সংখ্যাটি 2 মিলিয়নে পৌঁছাবে, 2 ঘন্টা ভিডিও, 22 ঘন্টা অডিও, 60,000 লাইনের বেশি কোড বা তার বেশি প্রক্রিয়া করতে সক্ষম। একই সময়ে 1.4 মিলিয়ন শব্দেরও বেশি।

এছাড়াও, সম্মেলনটি জেমিনি 1.5 প্রো-এর উপর ভিত্তি করে জেমিনি অ্যাডভান্সড ঘোষণা করেছে, যা "একাধিক বড় নথি, মোট 1500 পৃষ্ঠা পর্যন্ত, বা 100টি ইমেল সংক্ষিপ্তকরণ" পরিচালনা করতে সক্ষম বলে বলা হয় এবং 35টি ভাষা সমর্থন করে এবং 150 টিরও বেশি দেশ/অঞ্চল।

এটা বলতে হবে যে টেক্সট ভলিউমের পরিপ্রেক্ষিতে, মিথুন প্রকৃতপক্ষে অনেক বড়, "যে কোনো ইনপুটকে যেকোনো আউটপুটে রূপান্তরের লক্ষ্যের দিকে একটি বড় পদক্ষেপ।"

নিরাপত্তা সবসময় শীর্ষ অগ্রাধিকার

এআই-এর প্রথম দিন থেকে, কীভাবে এআই-উত্পন্ন সামগ্রী সনাক্ত করা যায় তা নিয়ে একটি চলমান বিতর্ক চলছে। Google-এর পাল্টা ব্যবস্থা হল AI-জেনারেটেড ইমেজ এবং অডিওতে অদৃশ্য ওয়াটারমার্ক যোগ করা যাতে সেগুলিকে সহজে আলাদা করা যায়।

ভবিষ্যতে, Google এই সুযোগকে টেক্সট এবং ভিডিওতে প্রসারিত করবে, এবং পরবর্তী কয়েক মাসে, জেনারেটিভ AI টুলকিট এবং ওপেন সোর্স SynthID টেক্সট ওয়াটারমার্কিং আপডেট করার মাধ্যমে, এটি আরও বেশি ডেভেলপারদের AI আরও সহজে এবং দায়িত্বশীলভাবে তৈরি করতে সাহায্য করবে৷

জেমিনি এটিতে একত্রিত হওয়ার পরে, কল চলাকালীন সন্দেহজনক কার্যকলাপ শনাক্ত হলে অ্যান্ড্রয়েড একটি সতর্কতা জারি করবে, যেমন আপনার সামাজিক নিরাপত্তা নম্বর এবং ব্যাঙ্কের তথ্য প্রদান করতে বলা হয় এটি সরাসরি ফোনে "অ্যান্টি-ফ্রড সেন্টার" ইনস্টল করার মতো৷ .

অ্যাকসেসিবিলিটি ফিচার টকব্যাক জেমিনি ন্যানো ছবির বর্ণনা আরও পরিষ্কার এবং সমৃদ্ধ হবে, যা Google-এর সামঞ্জস্যপূর্ণ মানবিক যত্নকে প্রতিফলিত করে ভয়েস ফিডব্যাকের মাধ্যমে তাদের ফোনগুলিকে আরও ভালভাবে পরিচালনা করতে সাহায্য করবে৷

আজ রাতে গুগলের পারফরম্যান্সের জন্য, NVIDIA রিসার্চ ম্যানেজার জিম ফ্যানের মূল্যায়ন খুবই প্রাসঙ্গিক ছিল।

Google-এর সদ্য প্রকাশিত মডেলটি মাল্টি-মডেল ইনপুট বলে মনে হচ্ছে, কিন্তু মাল্টি-মডেল আউটপুট নয় Imagen3 এবং মিউজিক AI স্যান্ডবক্স এখনও জেমিনি থেকে স্বাধীন উপাদান হিসেবে আলাদা। সমস্ত মডেল I/O এর নেটিভ একত্রীকরণ অনিবার্য ভবিষ্যত।

এটি "আরো রোবোটিক ভয়েস ব্যবহার করুন" "এই ছবিটি সম্পাদনা করুন" "সামঞ্জস্যপূর্ণ কমিক স্ট্রিপ তৈরি করুন" এর মতো কাজগুলি সম্পাদন করতে পারে।

এবং আবেগ এবং পটভূমির শব্দের মতো মডেলের সীমারেখায় তথ্য না হারিয়ে, নতুন মডেলটি নতুন প্রাসঙ্গিক ক্ষমতা খুলে দেয় এবং ব্যবহারকারীরা কয়েকটি উদাহরণ সহ মডেলটিকে শেখাতে পারেন এবং অভিনব উপায়ে বিভিন্ন অর্থ একত্রিত করতে পারেন।

GPT-4o নিখুঁত নয়, তবে আন্দ্রে-এর LLM-এ-অপারেটিং-সিস্টেম রূপককে ব্যাখ্যা করার জন্য এটি ফর্ম ফ্যাক্টরটি সঠিকভাবে পায়:

যতটা সম্ভব ফাইল এক্সটেনশনকে স্থানীয়ভাবে সমর্থন করার জন্য আমাদের মডেলটি প্রয়োজন।

Google একটি জিনিস সঠিকভাবে করছে: তারা অবশেষে অনুসন্ধান বাক্সে কৃত্রিম বুদ্ধিমত্তাকে সংহত করার জন্য একটি গুরুতর প্রচেষ্টা করছে।

মিথুনকে সেরা হতে হবে না, তবে এটি সর্বাধিক ব্যবহৃত হতে পারে।

*ওয়াং মেংও এই নিবন্ধটিতে অবদান রেখেছেন

# Aifaner এর অফিসিয়াল WeChat পাবলিক অ্যাকাউন্ট অনুসরণ করতে স্বাগতম: Aifaner (WeChat ID: ifanr) যত তাড়াতাড়ি সম্ভব আপনাকে আরও উত্তেজনাপূর্ণ সামগ্রী সরবরাহ করা হবে।

Ai Faner | মূল লিঙ্ক · মন্তব্য দেখুন · Sina Weibo