অবশেষে, আমি শুনতে পাচ্ছি GPT-5 আমার সাথে মানুষের ভাষায় কথা বলছে।

আমি ভাবছি, এর আগে কারও এমন অভিজ্ঞতা হয়েছে কি না।

যখনই আমি কোনো জরুরি অবস্থার সম্মুখীন হই এবং বিভিন্ন কোম্পানির স্বয়ংক্রিয় গ্রাহক পরিষেবাতে ফোন করি, ফোনের অপর প্রান্ত থেকে সবসময় একই রকম স্পষ্ট কিন্তু আবেগহীন কণ্ঠস্বর শোনা যায়: "অনুসন্ধান পরিষেবার জন্য ১ চাপুন, ম্যানুয়াল পরিষেবার জন্য ০ চাপুন…" তারপর দীর্ঘক্ষণ ধরে সঙ্গীত বাজে, এবং সেই অসহ্যকর "দুঃখিত, আমি বুঝতে পারিনি, অনুগ্রহ করে আবার বলুন।"

কিন্তু এইমাত্র ওপেনএআই তাদের রিয়েলটাইম স্পিচ মডেলের রিয়েলটাইম এপিআই স্যুট প্রকাশ করেছে। তাদের ডেমো দেখার পর মনে হচ্ছে, তারা সত্যিই চায় মেশিনগুলো 'মানুষের ভাষায়' কথা বলুক এবং 'মানুষের কাজ' সম্পাদন করুক।

ডেটা-সংরক্ষণ সংস্করণটি নিম্নরূপ:

GPT-Realtime-2: প্রোডাকশন পরিবেশে ব্যবহারযোগ্য ভয়েস এজেন্ট তৈরি করা। এরা গভীরভাবে চিন্তা করতে, বিভিন্ন কাজ সম্পাদন করতে, বাধা সামলাতে এবং কথোপকথন স্বাভাবিকভাবে চালিয়ে যেতে সক্ষম।
GPT-Realtime-Translate: ৭০টিরও বেশি ইনপুট ভাষা এবং ১৩টি আউটপুট ভাষার রিয়েল-টাইম অনুবাদ সমর্থন করে, যা ভাষার বাধা দূর করে এবং মানুষকে আরও স্বাভাবিকভাবে যোগাযোগ করতে সাহায্য করে।
GPT-Realtime-Whisper: অডিও স্ট্রিমের রিয়েল-টাইম ট্রান্সক্রিপশন, যা সাবটাইটেল এবং টীকা তৈরি করে।

অবশেষে, এআই 'এক মুহূর্ত অপেক্ষা করুন' বলতে শিখল।

যদি মানবরূপদান হয় বাহ্যিক আবরণ, তবে অন্তর্নিহিত যুক্তিবোধই হলো সারবস্তু।

এবারের প্রধান প্রতিযোগী নিঃসন্দেহে GPT-Realtime-2। বেঞ্চমার্ক ফলাফল থেকে দেখা যায় যে, GPT-Realtime-2 তার পূর্বসূরীর চেয়ে Big Bench Audio-তে ১৫.২% এবং Audio MultiChallenge-এ ১৩.৮% বেশি ভালো পারফর্ম করেছে। Zillow অভ্যন্তরীণভাবে সবচেয়ে কঠিন অ্যাডভার্সারিয়াল টেস্টটি চালিয়েছিল এবং এতে সফলতার হার ৬৯% থেকে বেড়ে ৯৫% হয়েছে, যা ২৬ শতাংশ পয়েন্টের একটি উন্নতি।

অতীতে, ভয়েস অ্যাসিস্ট্যান্টদের চিন্তাভাবনার প্রক্রিয়া ছিল খুবই সরল। আপনি যদি বলতেন "একটি গান চালাও," এটি একটি গান চালাত; যদি বলতেন "আলো নিভিয়ে দাও," এটি আলো নিভিয়ে দিত। আপনি যদি এটিকে একসাথে তিনটি কাজ দিতেন এবং তারপর দু'বার আপনার সিদ্ধান্ত পরিবর্তন করতেন, তবে এটি সম্ভবত সাথে সাথেই কাজটি ছেড়ে দিত।

কিন্তু GPT-Realtime-2 এক্ষেত্রে আলাদা, কারণ OpenAI সরাসরি এর স্পিচ মডেলে GPT-5 পর্যায়ের যুক্তিবোধের ক্ষমতা যুক্ত করেছে, যা আমাকে এই অনুভূতি দেয় যে GPT-5 যেন "মানুষের ভাষায় কথা বলে"।

একটি খুব বাস্তব উদাহরণ দেওয়া যাক, ধরুন আপনি গাড়ি চালাচ্ছেন এবং স্বাভাবিকভাবে আপনার গাড়িকে বলছেন: "সাবওয়ে স্টেশনের কাছে একটা বাড়ি খুঁজে দাও, ভাড়া যেন খুব বেশি না হয়, প্রধান রাস্তাগুলো এড়িয়ে চলো, আর সম্ভব হলে, শনিবার বিকেলে একজন রিয়েল এস্টেট এজেন্টকে দিয়ে বাড়িটা দেখানোর ব্যবস্থা করো।"

▲ নেট নাগরিক @clairevo দেখিয়েছেন কিভাবে GPT-Realtime-2 ব্যবহার করে একটি সম্পূর্ণ PRD (Product Requirements Document) লেখার প্রক্রিয়া সম্পন্ন করা যায়: প্রথমে, মৌখিকভাবে প্রয়োজনীয়তাগুলো বলতে হয়, AI ডকুমেন্টটি তৈরি করে, তারপর ভয়েসের মাধ্যমে ফরম্যাটে পরিবর্তনের অনুরোধ করতে হয়, এবং AI সেই অনুযায়ী আপডেট করে। পুরো প্রক্রিয়াটি কথোপকথন-চালিত, কিবোর্ড স্পর্শ না করেই সম্পন্ন হয়। https://x.com/clairevo/status/2052477386059653366

এটি এখন আর সাধারণ কথন শনাক্তকরণ নয়; এটিকে আপনার বিভিন্ন সীমাবদ্ধতা বুঝতে হবে, মানচিত্রে অবস্থান ফিল্টার করতে হবে, দাম তুলনা করতে হবে এবং সবশেষে এজেন্টের সময়সূচীর সাথে মেলাতে হবে। এই জটিল কাজটি ভালোভাবে সামলাতে, ওপেনএআই এটিকে দুটি অত্যন্ত বিশেষ দক্ষতার সেট দিয়ে সজ্জিত করেছে।

প্রথম স্কিলটির নাম "প্যারালাল টুল কলস"। এটি এখন মাল্টি-থ্রেডেড পদ্ধতিতে কাজ করতে পারে, আপনার সাথে কথা বলার পাশাপাশি একই সাথে নিজের মনে বেশ কয়েকটি টুল—যেমন ম্যাপ, ক্যালেন্ডার এবং রেন্টাল অ্যাপ—চালু করতে পারে। আপনি ফোনে এটিকে বিড়বিড় করে বলতে শুনতে পাবেন, "আপনার শিডিউল দেখছি…" "কাছাকাছি প্রপার্টি খুঁজছি…"। এটা ঠিক যেন একজন দক্ষ সহকারীকে ফোন করার মতো, এবং আপনি শুনতে পাবেন যে সে তার কিবোর্ডে টাইপ করে তথ্য খুঁজছে।

▲ ব্যবহারকারী বেন বাদেজো ওপেনক্ল (OpenClaw) ব্যবহার করে ভয়েস-চালিত এআই-এর মাধ্যমে GPT-Realtime-2-এর সাথে সরাসরি কথোপকথনের মাধ্যমে তার ব্রাউজার নিয়ন্ত্রণ করেন; প্রথমে গুগল খোলেন এবং তারপরে ওয়াল স্ট্রিট জার্নালের ওয়েবসাইটে রিডাইরেক্ট করেন। পুরো প্রক্রিয়া জুড়ে, এআই-টি কেবল কাজগুলোই সম্পাদন করেনি, বরং ব্রাউজারের অনুমতি ছাড়াই এটি কীভাবে সাহায্য করতে পারে তাও স্বতঃস্ফূর্তভাবে ব্যাখ্যা করেছে। https://x.com/BenjaminBadejo/status/2052511264476147762

এর ফলে দ্বিতীয় আপডেটটি আসে, যা আমার মতে সবচেয়ে মানবিক – "প্রস্তাবনা"।

যখন মানুষ জটিল বিষয় নিয়ে চিন্তা করে বা কাজ করে, তখন তারা তাৎক্ষণিকভাবে প্রতিক্রিয়া জানাতে পারে না। আমরা সাধারণত বলি, "উম, আমাকে একটু ভাবতে দিন" অথবা "এক মুহূর্ত অপেক্ষা করুন, আমি এটা খুঁজে দেখি।" এখন এআই-ও এই কৌশলটি শিখে ফেলেছে। যখন এটি পটভূমিতে দ্রুতগতিতে ডেটা সংগ্রহ করতে থাকে, তখন খুব স্বাভাবিকভাবেই আপনাকে বলবে, "ঠিক আছে, কোনো সমস্যা নেই, যাচাই করার জন্য আমাকে একটু সময় দিন।"
এই আপাতদৃষ্টিতে ‘সুস্পষ্ট’ নকশাটি আসলে অপেক্ষা করার সময় আমাদের উদ্বেগ অনেকটাই কমিয়ে দেয়।

মজার ব্যাপার হলো, ডেভেলপাররা এখন এর ইনফারেন্স ইনটেনসিটি (ন্যূনতম থেকে অত্যন্ত উচ্চ পর্যন্ত: মিনিমাল, লো, মিডিয়াম, হাই, এক্সহাই) নিয়ন্ত্রণ করতে পারেন। আপনি যদি একে জিজ্ঞাসা করেন আজ বৃষ্টি হবে কি না, এটি আপনাকে যত দ্রুত সম্ভব উত্তর দেবে; আর যদি আপনি একে "একটি কফি শপ খোলা লাভজনক হবে কি না, আপনি কি তা বিশ্লেষণ করতে পারবেন?"-এর মতো কোনো জটিল ব্যবসায়িক প্রশ্ন দেন, তবে এটি আপনার জন্য ধীরে ধীরে তা বিশ্লেষণ করতে এর সর্বোচ্চ কম্পিউটিং শক্তি ব্যবহার করবে।

যুগপৎ অনুবাদ পরিষেবা কি অত্যন্ত সস্তা করা সম্ভব?

GPT-Realtime-2 ছাড়াও আরও একটি অত্যন্ত আকর্ষণীয় সহায়ক চরিত্র রয়েছে: GPT-Realtime-Translate (রিয়েল-টাইম অনুবাদ)।

আমরা দৈনন্দিন জীবনে যে অনুবাদ সফটওয়্যারগুলো ব্যবহার করি, তার বেশিরভাগই ‘টার্ন-বেসড’। কথা বলার জন্য বাটন চেপে ধরে রাখতে হয়, তারপর ছেড়ে দিয়ে কয়েক সেকেন্ড অপেক্ষা করলে যন্ত্রটি পরিষ্কারভাবে শব্দগুলো পড়ে শোনায়। ভ্রমণের সময় পথ জিজ্ঞাসা করার জন্য এটা ঠিক আছে, কিন্তু যদি আপনি সত্যিই কোনো বহুজাতিক সম্মেলনে এটি ব্যবহার করেন, তবে সেই অস্বস্তিকর নীরবতা এবং ফ্যালফ্যাল করে তাকিয়ে থাকা এতটাই লজ্জাজনক যে, আপনি আপনার পায়ের আঙুল দিয়ে একটি তিন বেডরুমের অ্যাপার্টমেন্টও খুঁড়ে ফেলতে পারবেন।

কিন্তু এই নতুন মডেলের প্রধান বৈশিষ্ট্য হলো 'রিয়েল-টাইম অনুবাদ'।

এটি ৭০টিরও বেশি ভাষায় ইনপুট সমর্থন করে, যার ফলে আপনি একদিকে অনর্গল কথা বলতে পারেন এবং প্রায় সঙ্গে সঙ্গেই অন্যদিকে তার অনুবাদ পেয়ে যান। আরও বেশি চিত্তাকর্ষক হলো বিভিন্ন উচ্চারণভঙ্গির প্রতি এর সহনশীলতা। বোলনাএআই (BolnaAI) নামের একটি ভারতীয় সংস্থা তীব্র হিন্দি উচ্চারণভঙ্গি দিয়ে এটি পরীক্ষা করে দেখেছে যে, মডেলটি শুধু বিভ্রান্তই হয়নি, বরং এর নির্ভুলতাও অন্যান্য অনুরূপ পণ্যের তুলনায় উল্লেখযোগ্যভাবে বেশি ছিল।

▲ ডেভেলপার পিটার গোস্তেভ একটি ক্রোম এক্সটেনশন তৈরি করেছেন যা সরাসরি ইউটিউব ভিডিওর সাথে যুক্ত হয়ে, ভিডিও চলার সময় রিয়েল টাইমে এর বিষয়বস্তুকে একাধিক ভাষায় অনুবাদ করে। চীনা অনুবাদটি বেশ ভালো, তবে উচ্চারণে সামান্য টান রয়ে গেছে। https://x.com/petergostev/status/2052443418526134761

ভবিষ্যতে, যখন আপনি সাবটাইটেল ছাড়া বিদেশী বিশেষজ্ঞদের অনলাইন টিউটোরিয়াল দেখবেন, বা যুগপৎ অনুবাদ ছাড়া বিদেশী সংবাদ সম্মেলন শুনবেন, তখন শুধু এই প্লাগইনটি চালু করুন, এবং এটি মূল ভিডিওর ছন্দ অনুসরণ করে সাবলীলভাবে আপনার পরিচিত মাতৃভাষা আপনার কানে পৌঁছে দেবে।

এছাড়াও, সদ্য প্রকাশিত GPT-Realtime-Whisper (অতি-স্বল্প বিলম্বের স্পিচ-টু-টেক্সট) ফাংশনের সাহায্যে, ভবিষ্যতের মিটিংগুলিতে নেতা কথা বলার সময়েই আপনার স্ক্রিনটি রিয়েল টাইমে পাই চার্টটিকে একটি সুস্পষ্টভাবে কাঠামোবদ্ধ মিটিং সারাংশে রূপান্তরিত করবে।

মূল্যের ক্ষেত্রে, GPT-Realtime-Whisper-এর জন্য প্রতি মিনিটে $0.017, GPT-Realtime-Translate-এর জন্য প্রতি মিনিটে $0.034 এবং GPT-Realtime-2-এর জন্য টোকেন প্রতি চার্জ করা হয়, যেখানে অডিও ইনপুটের জন্য প্রতি মিলিয়ন টোকেনে $32 এবং অডিও আউটপুটের জন্য প্রতি মিলিয়ন টোকেনে $64।

যখন আমরা এই ফাংশনগুলোকে একসাথে দেখি, তখন আমরা দেখতে পাই যে সফটওয়্যারটির যুক্তিতে একটি মৌলিক পরিবর্তন ঘটছে।
আগে আমাদের শিখতে হতো কীভাবে কোড টাইপ করতে হয়, কীভাবে জটিল মেনুতে নেভিগেট করতে হয়, এবং কীভাবে আমাদের প্রয়োজনগুলোকে এমন কীওয়ার্ডে অনুবাদ করতে হয় যা এআই বুঝতে পারে। কিন্তু বর্তমান প্রবণতা হলো…

এর পরিবর্তে এআই আমাদের সাথে মানিয়ে নিতে শুরু করছে।

কণ্ঠস্বর একটি অস্বস্তিকর 'অ্যাক্সেসিবিলিটি ফিচার' থেকে ডিজিটাল বিশ্বকে নিয়ন্ত্রণ করার জন্য আমাদের সবচেয়ে স্বাভাবিক ইন্টারফেসে রূপান্তরিত হচ্ছে। কারণ, সর্বোপরি, কথা বলা মানুষের জন্য সবচেয়ে কম শেখা প্রবৃত্তি।

প্রযুক্তিগত উন্নয়নের শেষ পর্যায়ে, জটিলতাগুলোকে আড়াল করে সবচেয়ে সরল ও স্বাভাবিক দিকগুলো সাধারণ মানুষের জন্য ছেড়ে দেওয়ার একটি প্রবণতা দেখা যায়। হয়তো অদূর ভবিষ্যতে, বাইরে বেরোনোর সময় আপনার শুধু হেডফোন সঙ্গে নিলেই চলবে এবং আপনি কেবল নিজের কণ্ঠস্বর দিয়েই আপনার সমস্ত কাজ ও দৈনন্দিন জীবনের দায়িত্ব সামলাতে পারবেন।

তবে, এটি বেশ চিন্তার উদ্রেককারীও বটে। একবার আমরা এমন একটি এআই-তে অভ্যস্ত হয়ে গেলে, যা সর্বদা আবেগগতভাবে স্থিতিশীল এবং এমনকি সমস্ত অন্তর্নিহিত অর্থও বুঝতে পারে, তখন কি আমরা বাস্তব জগতে মানুষের মধ্যেকার ভুল বোঝাবুঝি এবং অদক্ষ যোগাযোগকে আর সহ্য করতে পারব?

এখানে ব্লগের ঠিকানা:
https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট iFanr (WeChat ID: ifanr) ফলো করুন, যেখানে যত তাড়াতাড়ি সম্ভব আপনার জন্য আরও আকর্ষণীয় কন্টেন্ট উপস্থাপন করা হবে।