
১৯৬৮ সালে সান ফ্রান্সিসকোতে, কম্পিউটার বিজ্ঞানী ডগলাস এঙ্গেলবার্ট দুটি ধাতব চাকাযুক্ত একটি ছোট কাঠের বাক্স হাতে নিয়ে বিশ্বের সামনে এক নতুন প্রজাতির পরিচয় করিয়ে দেন। এই অনুষ্ঠানটি পরবর্তীতে "সকল ডেমোর জননী" নামে পরিচিতি লাভ করে।
সেই প্রথমবার মানুষ প্রকাশ্যে পর্দায় ডিজিটাল কার্সার চালনা করতে মাউস ব্যবহার করেছিল। পরবর্তী দশকগুলোতে এই ছোট্ট তীরচিহ্নটি কার্যত সর্বত্র বিরাজমান হয়ে ওঠে। এটি অফিস সফটওয়্যার, গেম ইন্টারফেস, ব্রাউজার উইন্ডো এবং অগণিত স্প্রেডশিট জুড়ে বিচরণ করত এবং ডিজিটাল জগতে প্রবেশের সাথে সাথে মানবজাতির সবচেয়ে পরিচিত অথচ নীরব পথপ্রদর্শক হয়ে ওঠে।

তবে, গত অর্ধ শতাব্দীতে কম্পিউটারের কম্পিউটিং ক্ষমতা, গঠন এবং প্রয়োগের ক্ষেত্র প্রায় বদলে গেলেও মাউস কার্সরের মূল সত্তা প্রায় বদলায়নি: এটি জানে স্ক্রিনের কোন স্থানাঙ্কে এটি আছে, X এবং Y কোণ চেনে, কিন্তু জানে না যে আপনি কোডের কোনো লাইন, কোনো চালান নাকি কোনো ল্যান্ডস্কেপ ছবির ওপর কার্সর রাখছেন।
ক্রমাগত ঝলকানো পিক্সেলগুলোর সম্মুখীন হয়ে এটি কেবল খুব সাধারণ কিছু কাজই করতে পারে: ক্লিক করা, ড্র্যাগ করা এবং পরবর্তী ক্লিকের জন্য অপেক্ষা করা।
আজ গুগল জেমিনির মাধ্যমে মাউস কার্সারকে নতুনভাবে উদ্ভাবন করতে চলেছে।

সম্প্রতি সমাপ্ত হওয়া অ্যান্ড্রয়েড শো-তে গুগল অ্যান্ড্রয়েড, এআই এবং হার্ডওয়্যার ইকোসিস্টেমকে ঘিরে তাদের প্রায় সমস্ত পরিকল্পনা তুলে ধরেছে। এগুলোর মধ্যে, 'ম্যাজিক পয়েন্টার' নামক একটি নতুন ফিচার পুরোনো মাউস কার্সারকে 'চোখ' এবং 'মস্তিষ্ক' দান করেছে।
গুগলের উদ্দেশ্য স্পষ্ট: ভবিষ্যতের এআই ইন্টারঅ্যাকশন দীর্ঘ নির্দেশের উপর নির্ভর করবে না, বরং বাস্তব জীবনের মতোই কেবল স্ক্রিনের দিকে নির্দেশ করে বলবে, "এটা ওখানে সরান।" সুতরাং প্রশ্ন হলো, যখন মাউস কার্সার অবশেষে স্ক্রিনকে "বুঝতে" শিখবে, তখন এটি মানুষ-কম্পিউটার ইন্টারঅ্যাকশনকে কোন দিকে নিয়ে যাবে?

চোখ খোলা এই এআই তীরটি ঠিক কী করতে পারে?
এই প্রযুক্তির তাৎপর্য বুঝতে হলে, আমাদের প্রথমে বর্তমান এআই সরঞ্জামগুলোর সবচেয়ে অসুবিধাজনক দিকটি দেখতে হবে: মিথস্ক্রিয়ার খরচ।
গত কয়েক বছরে বৃহৎ ভাষা মডেলগুলোর সক্ষমতা অভাবনীয়ভাবে বৃদ্ধি পেয়েছে, কিন্তু সেগুলো ব্যবহারের ক্ষেত্রে প্রবেশে বাধা এখনও অনেক বেশি। কৃত্রিম বুদ্ধিমত্তা যাতে অভিপ্রায় সঠিকভাবে বুঝতে পারে, সেজন্য ব্যবহারকারীরা একটি জটিল 'সংকেত শব্দ প্রকৌশল' শিখতে বাধ্য হন: যেমন ভূমিকা নির্ধারণ করা, প্রেক্ষাপট সম্পর্কিত তথ্য যোগ করা এবং আউটপুট ফরম্যাট সীমিত করা। একটি সাধারণ প্রয়োজনের জন্য কয়েকশ শব্দের ছোট প্রবন্ধ লেখা এখন একটি সাধারণ ব্যাপার।
এছাড়াও, প্রচলিত এআই টুলগুলো প্রায়শই আলাদা ওয়েব পেজ বা অ্যাপ্লিকেশন উইন্ডোতে চলে, যা ব্যবহারকারীর কাজের ধারায় ঘন ঘন বাধা সৃষ্টি করে। উদাহরণস্বরূপ, যখন আপনি একটি ৫০-পৃষ্ঠার পিডিএফ পড়ছেন এবং এআই-কে দিয়ে একটি চার্ট তৈরি করাতে চান, তখন আপনাকে সাধারণত নিম্নলিখিত ধাপগুলো অনুসরণ করতে হয়: স্ক্রিনশট নেওয়া -> সংরক্ষণ করা -> ব্রাউজার খোলা -> এআই-এর ওয়েবপেজে যাওয়া -> ছবিটি আপলোড করা -> নির্দিষ্ট শব্দটি প্রবেশ করানো।

গুগল অ্যাপ্লিকেশনের মধ্যে এই কষ্টসাধ্য চলাচল প্রক্রিয়াকে "এআই ডিট্যুর" বলে। এই ধরনের পরিবর্তন শুধু অদক্ষই নয়, এটি মানুষের একাগ্র মনোযোগ বা তথাকথিত "ফ্লো" অবস্থাকেও সহজেই ব্যাহত করতে পারে।
এই লক্ষ্যে, গুগলের প্রথম ইন্টারঅ্যাকশন নীতি হলো ‘ফ্লো’। তাদের পরীক্ষামূলক এআই কার্সার প্রোটোটাইপে, এআই-এর ক্ষমতা আর কোনো নির্দিষ্ট অ্যাপ বা ওয়েবপেজে সীমাবদ্ধ থাকে না, বরং তা মাউস কার্সারের সাথে সংযুক্ত থাকে, যা যেকোনো সময় ব্যবহারের জন্য প্রস্তুত।
এটি চালু করার পদ্ধতিও ন্যূনতম রাখা হয়েছে: কোনো কিবোর্ড শর্টকাট মুখস্থ করার প্রয়োজন নেই; শুধু মাউসটি 'নাড়ালে'ই, বর্তমানে হোভার করা কন্টেন্টের উপর ভিত্তি করে এআই ইন্টারফেসটি স্বয়ংক্রিয়ভাবে প্রদর্শিত হবে এবং অত্যন্ত প্রাসঙ্গিক অপারেশনের পরামর্শ দেবে। একটি ছবি নির্বাচন করলে এটি 'তুলনা' করতে চান কিনা তা জিজ্ঞাসা করবে; কোনো অনুচ্ছেদের উপর হোভার করলে তা স্বতঃস্ফূর্তভাবে পরিমার্জনের সমাধান দেবে।

পুরো প্রক্রিয়াটির জন্য কোনো নির্দেশনার প্রয়োজন হয় না এবং এটি সম্পূর্ণরূপে স্বজ্ঞা দ্বারা পরিচালিত হয়। আসুন কয়েকটি অত্যন্ত স্বজ্ঞাত পরিস্থিতি দেখা যাক:
প্রথমত, চিত্র বর্ণনার চূড়ান্ত রূপ।
কোনো কার্টুন শহরের দৃশ্য দেখার সময়, প্রচলিত মাউস দিয়ে শুধু ক্লিক এবং জুম ইন করা যায়। কিন্তু এখন, আপনি ছবির পটভূমিতে থাকা কোনো ভবনের ওপর এআই কার্সরটি নিয়ে গিয়ে মাইক্রোফোনে বলতে পারেন, "ছবির এই অংশটি এখানে সরান।"

‘এই জায়গাটা’ কী, বা ভবনটির চেহারা কেমন, তা ব্যাখ্যা করার কোনো প্রয়োজন নেই। এআই কার্সরটি সরাসরি আপনার নির্দেশ করা পিক্সেলটি বুঝে নেয়, সংশ্লিষ্ট উপাদানটি শনাক্ত করে এবং সফলভাবে এগিয়ে যায়।
অতীতে, একটি মাউস সিস্টেমকে কেবল বলতে পারত ‘আমি কোথায় ক্লিক করেছি’; এখন, এটি সিস্টেমকে বলতে শুরু করেছে ‘আমি কী বোঝাতে চাইছি’।
দ্বিতীয়ত, ভূমিকাসূচক শব্দ কম এবং স্বাভাবিক প্রসঙ্গ বেশি ব্যবহার করুন।
যখন আপনি কোনো ওয়েবপেজে অত্যন্ত জটিল কোনো বেকিং রেসিপি দেখেন, তখন আপনার কপি-পেস্ট করার প্রয়োজন নেই, কিংবা "অনুগ্রহ করে নিচের রেসিপিতে থাকা সমস্ত উপকরণের পরিমাণ দুই দিয়ে গুণ করুন"-এর মতো কিছু লেখারও দরকার নেই। আপনার শুধু কার্সার দিয়ে লেখাটি হাইলাইট করে সহজভাবে বলতে হবে, "'এই'গুলোর পরিমাণ দ্বিগুণ করুন।"

চোখের পলকে, এআইটি সেখানেই আপনার জন্য একটি নতুন রেসিপি লিখে দিল।
তৃতীয়ত, পিক্সেলগুলোকে ইন্টারেক্টিভ সত্তায় রূপান্তর করুন।
কম্পিউটারের কাছে একটি স্ক্রিন হলো কয়েক মিলিয়ন উজ্জ্বল পিক্সেল মাত্র। কিন্তু একটি এআই কার্সার সেই স্থির পিক্সেলগুলোকে জীবন্ত সত্তায় রূপান্তরিত করতে পারে।
উদাহরণস্বরূপ, আপনি একটি ভ্রমণ ভ্লগ দেখছেন, এবং ভিডিওতে একটি চমৎকার দেখতে রেস্তোরাঁ চোখের পলকে ভেসে উঠল। আপনি ভিডিওটি পজ করে সেটির উপর কার্সর রাখলেন, আর সাথে সাথে আগের প্রাণহীন ভিডিওটি তৎক্ষণাৎ একটি বাস্তব, ইন্টারেক্টিভ স্থানে রূপান্তরিত হলো এবং তার পাশে রেস্তোরাঁটির জন্য একটি রিজার্ভেশন লিঙ্ক ভেসে উঠল।

উদাহরণস্বরূপ, আপনি casually হিজিবিজি লেখায় ভরা একটি স্টিকি নোটের ছবি তুললেন, আর মাউসের এক টোকায় কালিটি একটি চেকমার্ক-ভিত্তিক করণীয় কাজের তালিকায় রূপান্তরিত হয়ে গেল। কিছু খেয়াল করলেন? আগে আপনাকে AI-কে খুঁজতে হতো; এখন AI আপনার মাউসকে অনুসরণ করে এবং বাধ্য হয়ে আপনার আঙুলের ডগায় চলে আসে।
এআই প্রম্পট বন্ধ করুন, মানবিক স্বজ্ঞায় ফিরে যান
আরও নিবিড়ভাবে পর্যবেক্ষণ করলে দেখা যায়, মানবজাতির জন্য যোগাযোগের সবচেয়ে শক্তিশালী মাধ্যমটি আসলে সর্বনাম।
যখন আপনি ও আপনার সহকর্মীরা স্ক্রিনের সামনে বসে কোনো ডিজাইন সংশোধন করেন, তখন আপনি কখনোই স্পষ্ট ও সাবলীল কণ্ঠে বলবেন না, “অনুগ্রহ করে স্ক্রিনের উপরের বাম কোণের নীল আয়তক্ষেত্রটি (X:120, Y:350) ৫০ পিক্সেল ডানে সরান।” আপনি বরং স্ক্রিনের দিকে আঙুল দিয়ে দেখিয়ে বলবেন:
এটাকে আরেকটু ডানদিকে সরান এবং কিছুটা পাতলা করুন।
ঐ রেস্তোরাঁটা দেখতে সুন্দর লাগছে, আমরা সেখানে কীভাবে যাব?
কোডের এই ত্রুটি বার্তাটির অর্থ কী?
আমাদের দৈনন্দিন জীবনে আমরা ‘এটা’ এবং ‘ওটা’-র ওপর ব্যাপকভাবে নির্ভর করি। ন্যূনতম কথ্য ভাষার সঙ্গে অঙ্গভঙ্গিই মানুষের জন্য সবচেয়ে কার্যকর যোগাযোগের মাধ্যম। এর কারণ হলো, আমরা একই ভৌত পরিসরে বাস করি এবং একই দৃশ্যগত প্রেক্ষাপট ভাগ করে নিই।

গুগল বিচক্ষণতার সাথে এই বিষয়টি অনুধাবন করে এটিকে একটি পণ্যের নীতিতে পরিণত করেছে: 'এই' এবং 'সেই'-এর শক্তিকে গ্রহণ করুন।
মানুষকে জটিল ইঙ্গিতপূর্ণ শব্দের কাঠামো শিখতে বাধ্য করার পরিবর্তে, আমাদের এর উল্টোটা করা উচিত: অভিপ্রায় প্রকাশের কঠিন কাজটি আমাদের থেকে সরিয়ে দেওয়া এবং যন্ত্রকে মানুষের সবচেয়ে অলস ও সহজাত 'ইঙ্গিত' প্রদর্শনের সাথে খাপ খাইয়ে নিতে দেওয়া।
সুখবরটি হলো যে, এই ইন্টারঅ্যাকশন পদ্ধতিটি ইতোমধ্যেই বাস্তবায়িত হচ্ছে। ক্রোম ব্রাউজারের জেমিনি আজ থেকে সর্বপ্রথম এটি সমর্থন করছে; গুগলের সদ্য চালু হওয়া গুগলবুক ল্যাপটপ সিরিজে ‘ম্যাজিক পয়েন্টার’ সরাসরি অপারেটিং সিস্টেমের সাথে সমন্বিত করা হয়েছে, যা সমস্ত অ্যাপ্লিকেশনকে এর আওতায় নিয়ে আসে।
গুগলবুকের উচ্চাকাঙ্ক্ষা শুধু একটি মাউসের মধ্যেই সীমাবদ্ধ নয়। গুগল এই পণ্যটিকে "অ্যান্ড্রয়েড ফোনের নিখুঁত সঙ্গী" হিসেবে সংজ্ঞায়িত করে।

অ্যাপলের আইফোন মিররিং-এর মতোই, ব্যবহারকারীরা তাদের গুগলবুক ডেস্কটপে অ্যান্ড্রয়েড অ্যাপগুলো নির্বিঘ্নে প্রজেক্ট করতে পারেন, সেগুলোকে নেটিভ অ্যাস্পেক্ট রেশিওতে চালাতে পারেন এবং ফাইল ম্যানেজারে ডিভাইসগুলোর মধ্যে অবাধে নেভিগেট করতে পারেন, যা ফোন, ট্যাবলেট এবং ল্যাপটপের মধ্যকার ইকোসিস্টেমের বাধা সম্পূর্ণরূপে ভেঙে দেয়। এছাড়াও, জেমিনি প্রয়োজন অনুযায়ী ডেস্কটপে কাস্টম ডাইনামিক উইজেট তৈরি করতে পারে (যেমন একজন যাত্রীর রিয়েল-টাইম ফ্লাইট কার্ড)।
হার্ডওয়্যার ডিজাইনের দিক থেকে, সমস্ত গুগলবুক মডেলে বডির উপর একটি 'গ্লোবার' লাইট স্ট্রিপ যুক্ত করা হয়েছে, যার ফলে এটিকে প্রচলিত ক্রোমবুক বা উইন্ডোজ ল্যাপটপ থেকে এক নজরেই আলাদা করা যায়।

গুগলবুকের প্রথম ব্যাচটি এসার, আসুস, ডেল, এইচপি এবং লেনোভো দ্বারা নির্মিত হবে এবং এই শরৎকালে এগুলো বাজারে পাওয়া যাবে বলে আশা করা হচ্ছে।
মজার ব্যাপার হলো, এই তালিকায় স্যামসাংয়ের নাম নেই। সাম্প্রতিক প্রতিবেদন থেকে জানা যাচ্ছে যে, স্যামসাং গুগলের নতুন অপারেটিং সিস্টেম চালিত একটি গ্যালাক্সি ল্যাপটপ তৈরির প্রস্তুতি নিচ্ছে এবং তাদের পরবর্তী আনপ্যাকড ইভেন্টটি ২২শে জুলাই অনুষ্ঠিত হতে পারে বলে শোনা যাচ্ছে।
এর অন্তর্নিহিত চালিকাশক্তির কথা বলতে গেলে, যদিও গুগল এর নাম উল্লেখ করেনি, তবে পুরো নিবন্ধ জুড়ে "বুদ্ধিমত্তার জন্য জন্ম নেওয়া একটি আধুনিক অপারেটিং সিস্টেম"-এর উপর জোর দেওয়া এবং অ্যান্ড্রয়েড ও ক্রোমওএস-এর গভীর সমন্বয়—এই সবকিছুই বহু-আলোচিত "অ্যালুমিনিয়াম" সিস্টেমের দিকেই ইঙ্গিত করে।
এর অর্থ হলো, এআই অপারেটিং সিস্টেম স্তরের একটি অবকাঠামোতে পরিণত হতে শুরু করেছে। আর যখন এআই সত্যিই আপনার মাউস কার্সার হয়ে ওঠে, তখন এটি সবকিছুর মধ্যে হস্তক্ষেপ করার ক্ষমতা অর্জন করে—আপনি যা দেখেন, তাই পান; আপনি যেদিকে নির্দেশ করেন, তাই নিয়ন্ত্রণ করেন।
কৃত্রিম বুদ্ধিমত্তা ও মানুষ-কম্পিউটারের মিথস্ক্রিয়া এক সন্ধিক্ষণে দাঁড়িয়ে আছে।
১৯৬৮ সালের দিকে ফিরে তাকালে দেখা যায়, বিশ্বকে বিস্মিত করা প্রথম মাউসটির একটি অবিশ্বাস্যরকম সহজ কাজ ছিল: অবস্থান নির্ণয় করা। গত পঞ্চাশ বছরে স্ক্রল হুইল, সাইড বাটন, এমনকি ফ্যান ও ওজন দিয়েও মাউসকে উন্নত করা হয়েছে, কিন্তু এর আত্মা এখনও একটি ফাঁকা স্লেটের মতো: এটি নির্ভুলভাবে স্থানাঙ্ক চিহ্নিত করে, কিন্তু সেই স্থানাঙ্কের পেছনের অর্থ কখনোই অনুধাবন করতে পারে না।
গুগলের এআই কার্সার মিথস্ক্রিয়ার ইতিহাসে এক অভূতপূর্ব বিবর্তন ঘটিয়েছে: এটি শুধু আপনি কোথায় আছেন তাই জানে না, বরং আপনার অবস্থানটি কী, সেটাও জানে।
গত এক বছরে, তহবিল সংগ্রহকারী অগণিত স্টার্টআপ পরবর্তী ‘এআই যুগের সুপার গেটওয়ে’ তৈরি করতে উঠেপড়ে লেগেছে। সবাই ডায়ালগ বক্সের বাস্তবতা এবং এজেন্ট ওয়ার্কফ্লোর জটিলতার উপর উন্মত্তভাবে মনোনিবেশ করেছে। কিন্তু গুগল এখন পুরো ইন্ডাস্ট্রিকে একটি কঠোর শিক্ষা দিয়েছে:
সেরা প্রযুক্তি কোনটি? এটি হলো এক সূক্ষ্ম, সর্বব্যাপী প্রভাব। চ্যাটবক্সগুলো কখনোই কৃত্রিম বুদ্ধিমত্তার চূড়ান্ত রূপ নয়; এগুলো কেবল একটি ক্রান্তিকালীন আপোস মাত্র। সেরা কৃত্রিম বুদ্ধিমত্তার উচিত নেপথ্যে চলে যাওয়া এবং আপনার দৈনন্দিন কার্যকলাপের সাথে অঙ্গীভূত অবকাঠামোতে পরিণত হওয়া, কেবল খোলার প্রয়োজন হয় এমন একটি আলাদা অ্যাপ্লিকেশন হিসেবে নয়।

সাদা পটভূমিতে কালো লেখা সহ কমান্ড-লাইন ইন্টারফেস (CLI) থেকে শুরু করে মাউস ক্লিক সহ গ্রাফিক্যাল ইউজার ইন্টারফেস (GUI), এবং তারপর মোবাইল যুগের টাচস্ক্রিন সোয়াইপিং (NUI) পর্যন্ত—বৃহৎ ল্যাঙ্গুয়েজ মডেলগুলো বিগত কয়েক বছরে আমাদেরকে অল্প সময়ের জন্য টাইপিং-ভিত্তিক যোগাযোগের যুগে ফিরিয়ে নিয়ে গেছে, যার ফলে অগণিত মানুষ প্রম্পট অ্যাংজাইটিতে ভুগেছেন।
কিন্তু আজকের পর আমরা জানি যে, এটা ছিল ভোরের আগে শুধুই একটি সাময়িক বিচ্যুতি। সত্যিকারের কার্যকরী এআই-কে অবশেষে মানুষের মতো করে ভাবতে শিখতে হবে: আপনার প্রতিটি চাহনি বুঝতে এবং আপনার বলা প্রতিটি ‘এটা ওখানে রাখো’ কথা অনুধাবন করতে।
আটান্ন বছর আগে, যখন ডগলাস এঙ্গেলবার্ট সেই সাধারণ কাঠের ইঁদুরটি হাতে নিয়েছিলেন, তখন তাঁর পরম স্বপ্ন ছিল "মানুষের বুদ্ধিমত্তা বৃদ্ধি করা"।
আটান্ন বছর পরে, এই প্রাচীন পয়েন্টারটিতে কৃত্রিম বুদ্ধিমত্তা সংহত হওয়ার সাথে সাথে, যন্ত্রগুলো অবশেষে বিশ্বকে সত্যিকার অর্থে 'বুঝতে' শুরু করছে। প্রম্পট ইঞ্জিনিয়ারদের যুগের অবসান ঘটছে, এবং প্রতিটি অস্পষ্ট 'এই' ও 'সেই'-এর সাথে মানব-কম্পিউটার মিথস্ক্রিয়ার চূড়ান্ত বদ্ধ চক্রটি এক ঐতিহাসিক উল্লম্ফন ঘটাবে।
এটি উপভোগ করার লিঙ্কটি এখানে দেওয়া হলো:
https://aistudio.google.com/apps/bundled/ai-pointer-create?showPreview=true&showAssistant=true&fullscreenApplet=true
https://aistudio.google.com/apps/bundled/ai-pointer-find?showPreview=true&showAssistant=true&fullscreenApplet=true
লেখক: মো চংইউ
iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট iFanr (WeChat ID: ifanr) ফলো করুন, যেখানে যত তাড়াতাড়ি সম্ভব আপনার জন্য আরও আকর্ষণীয় কন্টেন্ট উপস্থাপন করা হবে।
