একটি AI-কে খুব বন্ধুত্বপূর্ণ সুরে কথা বলা এবং আমার ওয়ার্কস্টেশনের বিশৃঙ্খলা পরিষ্কার করতে বলা শুনতে কিছুটা বিরক্তিকর। আমি এটির জন্য কিছুটা গর্বিত, তবে আমি অনুমান করি যে এটি এলোমেলোভাবে ছড়িয়ে ছিটিয়ে থাকা গ্যাজেটগুলিকে স্ট্যাক করার এবং তারের জগাখিচুড়ি পরিষ্কার করার সময়।
আমার বোনও রাজি হবে। কিন্তু একটি এআই আমার টেবিল "দেখতে" পরে অ্যাকশনে ঝাঁপিয়ে পড়ে, জগাখিচুড়ি চিনতে পারে এবং গৃহিণীর পরামর্শকে বাদ দিয়ে দেয় বড় ছবি। গুগলের জেমিনি এআই চ্যাটবট এখন তা করতে পারে। এবং আরো অনেক কিছু।
এখানে গোপন সস হল প্রজেক্ট অ্যাস্ট্রা নামে একটি সাম্প্রতিক বৈশিষ্ট্য আপডেট। এটি কয়েক বছর ধরে বিকাশের মধ্যে রয়েছে, এবং অবশেষে এই মাসের শুরুর দিকে রোল আউট শুরু হয়েছে ৷ অত্যধিক ধারণা হল আপনার ফোনে একটি সর্বদর্শন, সর্ব-শ্রবণ এবং স্পষ্টতই বুদ্ধিমান এআই পরিবেশন করা।
Google এই পরাশক্তিগুলোকে একটি অনুপ্রেরণাদায়ক নামের অধীনে হাক করে: জেমিনি লাইভ উইথ ক্যামেরা এবং স্ক্রিন শেয়ারিং। কোম্পানির ডিপমাইন্ড ইউনিটে বিকশিত, কোম্পানিটি "সর্বজনীন এআই সহকারী" হিসাবে তার বিকাশ শুরু করেছিল। চূড়ান্ত নামটি উচ্চাভিলাষী নয় এটা লজ্জাজনক।

এর অ্যাক্সেস পরিস্থিতি দিয়ে শুরু করা যাক। ক্ষমতা এখন Pixel 9 এবং Galaxy S25 ব্যবহারকারীদের জন্য উপলব্ধ। কিন্তু আপনার কাছে যদি জেমিনি অ্যাডভান্সড সাবস্ক্রিপশন সহ একটি অ্যান্ড্রয়েড ফোন থাকে তবে আপনি নতুন টুলকিট অ্যাক্সেস করতে পারেন।
যে উপায় দ্বারা প্রতি মাসে একটি $20 হবে. আমি উল্লিখিত দুটি ফোনে এটি চেষ্টা করেছি এবং এখন এটি আমার OnePlus 13- এ রোল করার জন্য প্রস্তুত। সবচেয়ে সুন্দর অংশ? এটি অ্যাক্সেস করার জন্য আপনাকে কোনও প্রযুক্তিগত হুপসের মধ্য দিয়ে যেতে হবে না।
একটি পাওয়ার/ভলিউম বোতাম কম্বো, অথবা জেমিনিকে ডেকে আনতে স্ক্রীন কর্নার সোয়াইপ আপনার প্রয়োজন। আপনি কোন অ্যাপটি চালাচ্ছেন তা বিবেচ্য নয়, আপনি OS এর প্রতিটি কোণে একটি ওভারলে হিসাবে নতুন ক্যামেরা এবং স্ক্রিন-শেয়ারিং চপগুলি অ্যাক্সেস করতে পারেন৷
আপনার চারপাশের বিশ্বকে বোঝানো
আমি একটি পেইন্টিং এ ক্যামেরা নির্দেশ করে শুরু, এবং এটি সম্পর্কে জিজ্ঞাসা. জেমিনি লাইভ এটিকে মধুবনী শৈলীর পেইন্টিং হিসাবে সঠিকভাবে সনাক্ত করতে সক্ষম হয়েছিল, রঙের সাহসী ব্যবহার এবং প্রাণীদের চিত্রণ ডিকোডিং।

তারপরে এটি আমাকে একটি সংক্ষিপ্ত ইতিহাস পাঠ এবং বছরের পর বছর ধরে যে বৈচিত্র্যগুলি বিকাশ করেছে তা দিতে এগিয়ে গেল। তথ্যটি সঠিক ছিল, সবচেয়ে দানাদার স্তরে। সৌভাগ্যক্রমে, আপনি মিথুনের সাথে একটি টেক্সট-ভিত্তিক পিছিয়ে থাকা বেছে নিতে পারেন, যদি আপনি এমন জায়গায় থাকেন যেখানে ভয়েস কথোপকথন বিশ্রী হতে পারে।
জেমিনি লাইভ-এর নতুন ক্যামেরা এবং স্ক্রিন শেয়ারিং অবতার সম্পর্কে আমি যা সবচেয়ে বেশি পছন্দ করি তা হল এটি খুব বেশি চটি নয়। আপনি যেকোনো মুহূর্তে এটিকে বাধা দিতে পারেন, যা শুধুমাত্র কথোপকথনের "প্রাকৃতিক" আবেদন যোগ করে।
আমি মিথুনকে বিভিন্ন পরিস্থিতিতে চেষ্টা করেছি। আমি এর জন্য প্রস্তুত ছিলাম না।
এটি যে উত্তরগুলি প্রদান করে তা সাধারণত সংক্ষিপ্ত হয়, যেন এটি আপনাকে একটি অত্যধিক দীর্ঘ উত্তর দেওয়ার পরিবর্তে একটি ফলো-আপ প্রশ্ন জিজ্ঞাসা করার সুযোগ দিতে চায় (বা এমনকি ধাক্কা দেয়)। এটি বিভিন্ন বিষয় এবং ভিজ্যুয়াল দৃশ্যের সম্পূর্ণ পরিসরে উৎকৃষ্ট, তবে কয়েকটি ত্রুটি রয়েছে।

এটি এখনও Google লেন্স ব্যবহার করতে পারে না, যার মানে মিথুন আপনার ফোনের স্ক্রীনে দেখা ছবিগুলিকে ওয়েবে মিলে যাওয়া ফলাফলের সাথে তুলনা করতে পারে না৷ তদুপরি, আপনি যদি জেমিনিকে একটি বিষয় বা ব্যক্তিত্বের সাম্প্রতিক বিকাশগুলি সন্ধান করতে বলেন তবে এটি রিয়েল-টাইমে তথ্য অ্যাক্সেস করতে পারে না।
আমি এটিকে উদ্ভিদের প্রজাতি, রেস্তোরাঁর তালিকা, নোটিশ বোর্ড থেকে ডেটা তোলা এবং সাম্প্রতিক ফ্লুতে আমার মেডিকেল প্রেসক্রিপশনের বোধগম্যতা সম্পর্কে জিজ্ঞাসা করেছি। জেমিনি বেশ ভাল পারফরম্যান্স করেছে, আমি এখনও পর্যন্ত AI চ্যাটবট পারফর্ম করার অভিজ্ঞতার চেয়ে বেশি।
একটি জ্ঞান ব্যাঙ্ক আনলক করা
এর পরে, আমি জটিল একাডেমিক উপাদান বোঝার জন্য মিথুনকে ঠেলে দিয়েছি। ক্যামেরার ফ্রেমে মেশিন লার্নিং এর একটা বই রাখলাম। জেমিনি লাইভ কেবল এটিকে স্বীকৃতি দেয়নি, তবে বইটির বিষয়বস্তু এবং এর মূল বিষয়গুলির একটি ওভারভিউ দেওয়ার জন্যও এগিয়ে গেছে।

কৌতূহলবশত, আমি পৃষ্ঠাগুলি উল্টাতে শুরু করলাম এবং অধ্যায়ের তালিকায় নামলাম। এআই অগ্রগতি স্বীকার করেছে, কথা বলা বন্ধ করে দিয়েছে এবং আমাকে জিজ্ঞাসা করেছে যে আমি এখন বিষয় তালিকাটি পরীক্ষা করে দেখছি এমন কোনো বিশেষ অধ্যায়ে আমি আগ্রহী কিনা।
এই মুহুর্তে আমি বিস্মিত হয়েছিলাম।
আমি এটিকে কয়েকটি জটিল বিষয় ভেঙ্গে ফেলতে বলেছিলাম, এবং AI একটি সম্মানজনক কাজ করেছে, এমনকি অন-পেজ উপাদানের সুযোগের বাইরে গিয়ে এবং এর বিস্তৃত জ্ঞান ব্যাঙ্ক থেকে তথ্য সংগ্রহ করে।
উদাহরণ স্বরূপ, আমি যখন ভীষম সাহনির মূল উপন্যাস তমাস-এর পরিচিতি পাতার বিষয়বস্তু সম্পর্কে জিজ্ঞাসা করেছিলাম, তখন এআই সঠিকভাবে সাহিত্য আকাদেমি পুরস্কারের উল্লেখটি তুলে ধরেছিল। তারপরে এটি এমন বিশদ বিবরণ উল্লেখ করে যা পৃষ্ঠায় তালিকাভুক্তও ছিল না, যেমন বছর এটি মর্যাদাপূর্ণ সাহিত্য সম্মান জিতেছিল এবং বইটি কী সম্পর্কে।
উল্টো দিকে, জেমিনি লাইভের হিন্দি ভাষা পাঠ করা ভয়ঙ্কর ছিল। এটা শুধু খারাপ উচ্চারণই ছিল না, কিন্তু সত্য যে মিথুন বারবার খাঁটি অশ্লীল এবং অ-শব্দ উচ্চারণ করছিল। উর্দু, ফার্সি এবং আরবি পড়ার চেষ্টা করার সময়, এটি একটি যথেষ্ট ভাল কাজ করেছে, কিন্তু প্রায়শই এলোমেলো লাইন থেকে শব্দগুলি মিশ্রিত করে।

উর্দু কবিতার সাথে আমার প্রথম প্রয়াসে, এটি কেবল উর্দু পাঠকেই স্বীকৃতি দেয়নি, কবিতাটির একটি সঠিক সারাংশও দিয়েছে। সবচেয়ে বড় চ্যালেঞ্জ, আবার, বর্ণনা ছিল. উর্দু ভাষার একটি ইংরেজি সংস্করণ শুনে সত্যিই আমার কানে ব্যথা হয়েছিল।
আশ্চর্যজনক জায়গায় এক্সেল
এআই একটি চমত্কার সমস্যা সমাধানের টুল, এবং এটি প্রমাণ করার জন্য অসংখ্য বেঞ্চমার্ক রয়েছে। আমি তাপগতিবিদ্যা, ইলেক্ট্রোকেমিক্যাল সমীকরণ, এবং হাতে লেখা নোটবুকে উপস্থিত পরিসংখ্যানগত সমস্যাগুলির সাথে ডিল করার জন্য পদার্থবিজ্ঞানের সমস্যাগুলির বিরুদ্ধে এটি পরীক্ষা করেছি। জেমিনি লাইভ এই ধরনের কাজগুলিতে একটি চমত্কার কাজ করেছে৷
এটি এমনকি সৃজনশীল কাজেও পারদর্শী ছিল। আমার বোন, যিনি একজন ফ্যাশন ডিজাইনার, ক্যামেরা ভিউতে তার একটি স্কেচ উপস্থাপন করেছেন এবং প্রতিক্রিয়ার পাশাপাশি উন্নতির জন্য জিজ্ঞাসা করেছেন৷ জেমিনি লাইভ ডিজাইনের প্রশংসা করে শুরু করেছে, কয়েকটি ফ্যাশন ব্র্যান্ডের ডিজাইনের আদর্শের সাথে সমান্তরাল আঁকছে এবং কয়েকটি সুপারিশ করেছে।

যখন আরও উৎসাহিত করা হয়, তখন এআই আমার বোনকে হাতে আঁকা স্কেচগুলিকে ডিজিটাল ধারণায় রূপান্তর করার জন্য সেরা সরঞ্জামগুলির বিষয়েও পরামর্শ দেয়। এটি সফ্টওয়্যার স্ট্যাক এবং যেখানে কেউ শেখার উপাদান খুঁজে পেতে পারে সেই বিষয়ে সহায়ক তথ্য প্রদান করে নির্দেশনার এই শব্দগুলি অনুসরণ করে।
যখন আমি ক্যামেরা ভিউতে কয়েকটি ডুরাসেল ব্যাটারি রাখি, তখন এটি কেবল তাদের সঠিকভাবে চিনতে পারেনি, তবে আমাকে হাইপারলোকাল ই-কমার্স প্ল্যাটফর্মগুলিও বলেছিল যেগুলি কয়েক মিনিটের মধ্যে আমার কাছে পৌঁছে দিতে পারে।
পরিষেবাগুলি – ব্লিঙ্কিট এবং সুইগি ইনস্টামার্ট নামে – শুধুমাত্র ভারতে উপলব্ধ এবং বেশিরভাগই শহুরে লোকেলের জন্য সংরক্ষিত৷ এমনকি একটি অস্পষ্ট আলোকিত ঘরে, এটি প্রথম প্রচেষ্টায় এক জোড়া তারযুক্ত ইয়ারফোন সনাক্ত করতে সক্ষম হয়েছিল।
পরিস্থিতি সচেতনতা তার শক্তিশালী মামলা.
আপনার সাধারণ মিথুন চ্যাট বা আপনি Google অনুসন্ধানের AI ওভারভিউ বিভাগে যা পান তার তুলনায়, জেমিনি লাইভ কথোপকথনগুলি জ্ঞানকে ছড়িয়ে দেওয়ার জন্য আরও সতর্ক দৃষ্টিভঙ্গি গ্রহণ করে, বিশেষত যদি এটি প্রকৃতির সংবেদনশীল হয়। আমি লক্ষ্য করেছি যে খাবারের সুপারিশ এবং চিকিত্সার মতো বিষয়গুলি ক্রমবর্ধমান সতর্কতার সাথে পরিচালনা করা হয় এবং ব্যবহারকারীদের প্রায়শই সঠিক বিশেষজ্ঞের সংস্থান খোঁজার জন্য চাপ দেওয়া হয়।
কয়েকটি পরিচিত ত্রুটি

আমার অপ্রতিরোধ্য টেকঅ্যাওয়ে হল যে মিথুনের "প্রজেক্ট অ্যাস্ট্রা" মেকওভারটি দুর্দান্ত চিত্তাকর্ষক। স্মার্টফোনগুলি কী অর্জন করতে পারে তার ভবিষ্যতের একটি আভাস। কিছু উন্নতি, ইন্টিগ্রেশন এবং ক্রস-অ্যাপ ওয়ার্কফ্লো সহ, এটি Google অনুসন্ধানকে একটি পুরানো অবশেষের মতো অনুভব করতে পারে৷ কিন্তু আপাতত, কয়েকটি স্পষ্ট ত্রুটি রয়েছে।
কয়েকবার, আমি লক্ষ্য করেছি যে মেমরি সিস্টেমটি বিকল হয়ে গেছে। যখন এআইকে ক্যামেরা ভিউতে একটি ফিটনেস ব্যান্ড সনাক্ত করতে বলা হয়েছিল, তখন এটি সঠিকভাবে এটিকে স্যামসাং গ্যালাক্সি ফিট 3 হিসাবে স্বীকৃতি দেয়। কিন্তু যখন আমি একটি ফলো-আপ প্রশ্ন পুশ করেছিলাম, তখন এটি ভুলভাবে ডিভাইসটিকে হুয়াওয়ের ফিটনেস ব্যান্ড হিসেবে ধরে নেয়।
এটি নির্লজ্জভাবে মিথ্যাও বলতে পারে। এবং বেশ আত্মবিশ্বাসের সাথে, আমি বলতে পারি। উদাহরণস্বরূপ, যখন আমি পরিধানযোগ্য ডিভাইসের আমার পর্যালোচনার সংক্ষিপ্ত বিবরণ দিতে বলেছিলাম, তখন এআই প্রতিক্রিয়া জানায় যে ডিজিটাল ট্রেন্ডস এখনও এটি পর্যালোচনা করেনি। বাস্তবে, নিবন্ধটি এক সপ্তাহ আগে প্রকাশিত হয়েছিল।
এর পরে, আমি স্ক্রিন শেয়ারিং সক্ষম করার পরে আমি এটিকে আমার লেখক পৃষ্ঠায় কয়েকটি নিবন্ধের মধ্য দিয়ে যেতে বলেছি। মিথুন গল্পগুলি ব্যাখ্যা করার জন্য একটি শালীন কাজ করেছে, কিন্তু মাঝে মাঝে প্রাসঙ্গিক বোঝাপড়ায় হোঁচট খেয়েছে। উদাহরণস্বরূপ, এটি ভুলভাবে উল্লেখ করেছে যে শুধুমাত্র Intel এবং AMD NPU গুলি তৈরি করতে পারে যা Copilot+ ব্যাজের জন্য যোগ্যতা অর্জন করে।

অন্যদিকে, নিবন্ধটি স্পষ্টভাবে উল্লেখ করেছে যে কোয়ালকম প্রতিযোগিতার আগে সেই মানদণ্ড পূরণকারী প্রথম। এবং এটি শুধুমাত্র গত বছরের শেষের দিকে যে AMD এবং Intel অবশেষে সমতল করতে পারে এবং প্রসেসরগুলির একটি নতুন পোর্টফোলিও সহ সেই AI চিপ বেসলাইনটি পূরণ করতে পারে।
একটি নিবন্ধ সম্পর্কে কথোপকথনের মাঝপথে, এটি আবার একটি স্মৃতি সমস্যায় পড়েছিল। যে গল্পটি আলোচনা করা হয়েছিল তার সংক্ষিপ্তসারের পরিবর্তে, এটি স্ক্রিন ভাগ করে নেওয়ার মাধ্যমে দেখা প্রথম নিবন্ধটির কথা বলতে ফিরে গেল। যখন আমি বর্ণনার মাঝপথে এটিকে বাধা দিয়েছিলাম, মিথুন তার ভুলটি সংশোধন করেছিল।
অ-ইংরেজি ভাষার বর্ণনার সাথে আমি আরেকটি সমস্যা লক্ষ্য করেছি যে জেমিনি লাইভ বর্ণনার মাঝপথে ভয়েস এবং গতি এলোমেলোভাবে পরিবর্তন করেছে। এটি বেশ ঝাঁকুনিপূর্ণ ছিল, এবং উচ্চারণটি ছিল একেবারে যান্ত্রিক, মানুষের মতো ইংরেজি কথোপকথন দক্ষতা থেকে অনেক আলাদা।

শৈলীগত ফন্টের বিরুদ্ধেও মেশিনের দৃষ্টি সংগ্রাম স্পষ্ট। কয়েকটি অনুষ্ঠানে, এটি আত্মবিশ্বাসের সাথে ভুল তথ্য ছড়িয়ে দেয় এবং যখন নিজেকে সংশোধন করতে বলা হয়, তখন এআই সেই বিষয়ে সর্বশেষ তথ্য খুঁজে পেতে অক্ষমতা প্রকাশ করে। এই দৃশ্যগুলি বিরল, কিন্তু মিথুনের ত্রুটিগুলি এখানে থাকার জন্য রয়েছে৷
সবকিছুর সংক্ষিপ্তসারে, আমি মনে করি ক্যামেরা এবং স্ক্রিন শেয়ারিং সহ জেমিনি লাইভ এখন পর্যন্ত AI এর সবচেয়ে বড় লাফগুলির মধ্যে একটি। এটি এখন পর্যন্ত জেনারেটিভ এআই-এর সবচেয়ে ফলপ্রসূ বাস্তবায়নের একটি। এটির প্রয়োজন শুধু বৈচিত্র্যের একটি ড্যাশ এবং এর "আত্মবিশ্বাসী মিথ্যাবাদী" সিন্ড্রোমের জন্য একটি সমাধান।
জিনিসগুলি এখন অবশ্যই সঠিক পথে রয়েছে এবং অপ্রতিরোধ্যভাবে তাই, তবে প্রযুক্তি-ভবিষ্যতবাদী স্বপ্নের নিখুঁত এআই সঙ্গী হওয়া থেকে এখনও কয়েকটি গুরুত্বপূর্ণ মাইলফলক দূরে।