ওপেনএআই-এর এই নতুন ভয়েস আপডেটের কারণে সিরি ও অ্যালেক্সাকে দেখে মনে হচ্ছে তাদের আবার স্কুলে যাওয়া দরকার।

ওপেনএআই তার রিয়েলটাইম এপিআই-তে তিনটি নতুন অডিও মডেল চালু করেছে , এবং যারা ভয়েস-চালিত অ্যাপ তৈরি করেন তাদের জন্য এগুলো একটি বড় ব্যাপার। এই তিনটি মডেল হলো GPT-Realtime-2, GPT-Realtime-Translate, এবং GPT-Realtime-Whisper।

একসাথে, তারা ভয়েস এআই-কে সাধারণ পারস্পরিক প্রতিক্রিয়ার গণ্ডি পেরিয়ে এমন এক পর্যায়ে নিয়ে যায় যা আপনাকে বুঝতে পারে, পদক্ষেপ নিতে পারে এবং একটি সত্যিকারের কথোপকথন চালিয়ে যেতে পারে।

তাদের ডেমো দেখে যা বোঝা যাচ্ছে, তাতে ভয়েস এআই মডেলের কার্যপদ্ধতির পরবর্তী বিবর্তন আমরা এইমাত্র দেখলাম।

তাহলে এই মডেলগুলো আসলে কী করতে পারে?

GPT-Realtime-2 হলো এর প্রধান আকর্ষণ। এটি সরাসরি ভয়েস কথোপকথনে GPT-5-শ্রেণির যুক্তিবোধ নিয়ে আসে, যার অর্থ হলো এটি কথোপকথনের ধারা বিচ্ছিন্ন না করেই আরও কঠিন অনুরোধ সামলাতে পারে।

এটি একই সাথে একাধিক টুল কল করতে পারে এবং এমনকি “আপনার ক্যালেন্ডার দেখছি” বা “আমাকে বিষয়টি দেখতে দিন”-এর মতো বাক্যাংশ ব্যবহার করে এটি কী করছে তা বর্ণনাও করতে পারে। এছাড়াও, এটির ১২৮কে টোকেনের একটি বৃহত্তর কনটেক্সট উইন্ডো রয়েছে, যার অর্থ দীর্ঘতর ও আরও সুসংহত সেশন। ডেভেলপাররা অনুরোধের জটিলতার উপর ভিত্তি করে রিজনিং এফোর্টও সামঞ্জস্য করতে পারেন।

GPT-Realtime-Translate সম্ভবত আমার সবচেয়ে প্রিয়। বাস্তব জীবনে স্টার ট্রেক -এর ইউনিভার্সাল ট্রান্সলেটর পাওয়ার সবচেয়ে কাছাকাছি আমরা এটাই পেয়েছি। এটি ৭০টিরও বেশি ইনপুট ভাষা এবং ১৩টি আউটপুট ভাষায় সরাসরি কথ্য ভাষার অনুবাদ সমর্থন করে।

ডেমোটির সবচেয়ে ভালো দিক ছিল যে, একজন নতুন ব্যক্তি যোগ দিয়ে ভিন্ন ভাষায় কথা বললেও, GPT-Realtime-Translate কোনো সমস্যা ছাড়াই রিয়েল টাইমে উভয় বক্তার কথা ইংরেজিতে অনুবাদ করে দিয়েছিল।

সবশেষে রয়েছে GPT-Realtime-Whisper। বেশিরভাগ স্পিচ-টু-টেক্সট মডেল সম্পূর্ণ অনুবাদ দেওয়ার আগে বক্তার কথা শেষ হওয়ার জন্য অপেক্ষা করে । এটি একটি স্ট্রিমিং ট্রান্সক্রিপশন মডেল যা বক্তার কথা বলার সাথে সাথেই সেটিকে টেক্সটে রূপান্তর করে। এটি লাইভ ক্যাপশন, মিটিং নোট এবং যেকোনো ভয়েস-চালিত ওয়ার্কফ্লোর জন্য উপযোগী, যেখানে ট্রান্সক্রিপশনের জন্য অপেক্ষা করার কোনো সুযোগ নেই।

যে কেউ কি এই নতুন ভয়েস এআই মডেলগুলো ব্যবহার করতে পারবে?

বর্তমানে, ওপেনএআই ডেভেলপারদের জন্য এই মডেলগুলো প্রকাশ করেছে। কিন্তু তাদের তৈরি করা অ্যাপগুলো সবাইকে প্রভাবিত করবে। উদাহরণস্বরূপ, একজন ডেভেলপার একটি রিয়েল-টাইম অনুবাদক অ্যাপ তৈরি করতে পারেন, যা ব্যবহারকারীদের বিভিন্ন ভাষার মানুষের সাথে কথোপকথনের সুযোগ দেবে।

অনেক কোম্পানি ইতিমধ্যেই এই নতুন মডেলগুলো পরীক্ষা করছে। জিলো এমন একটি ভয়েস অ্যাসিস্ট্যান্ট তৈরি করছে যা শুধুমাত্র একবার মুখে বলার মাধ্যমেই বাড়ি খুঁজতে এবং ট্যুরের সময় নির্ধারণ করতে পারবে। প্রাইসলাইন আপনার ফ্লাইট ও হোটেল যাচাই করতে, সেগুলো বাতিল করতে এবং নতুন বুক করতে পারে। ভিমিও এটি রিয়েল-টাইম ট্রান্সক্রিপশনের জন্য ব্যবহার করছে, ইত্যাদি।

Whisper-এর জন্য প্রতি মিনিটে $0.017, Translate-এর জন্য প্রতি মিনিটে $0.034 এবং GPT-Realtime-2-এর জন্য প্রতি ১০ লক্ষ অডিও ইনপুট টোকেনের মূল্য $32 থেকে শুরু হয়।