ধারণাটি আকর্ষণীয় হলেও, ভয়েস টাইপিংয়ের জন্য স্পিচ-টু-টেক্সট ফিচারটি ব্যবহার করে আমি কখনোই পুরোপুরি আনন্দ পাইনি। আমি বুঝি এটি কেন তৈরি করা হয়েছে, এবং প্রয়োজনে আমি এটি ব্যবহারও করেছি। কিন্তু আমার কাছে এটিকে ফোনের সেইসব ফিচারের মতোই মনে হয়েছে, যা কেবল দরকারি হওয়ার জন্য যথেষ্টবার কাজ করে, কিন্তু সুবিধাজনকভাবে নির্ভরযোগ্য হওয়ার জন্য যথেষ্ট ঘন ঘন কাজ করে না।
বিষয়টা শুধু স্পষ্টভাবে কথা বলার মধ্যেই সীমাবদ্ধ নয়; সমস্যাটা আরেকটু সূক্ষ্ম। আপনাকে বাক্যের মাঝখানে একই কথা বারবার বলা এড়াতে হবে, অথবা এমন ভান করতে হবে যেন আপনার মস্তিষ্ক স্বাভাবিকভাবেই একবারে সাবলীলভাবে পরিচ্ছন্ন টেক্সট মেসেজ তৈরি করে। আর যেহেতু আমার মস্তিষ্ক তা পারে না, তাই আমি জিবোর্ডের জন্য গুগলের নতুন র্যাম্বলার ফিচারটির অপেক্ষায় আছি। এটি অ্যান্ড্রয়েডের জেমিনি ইন্টেলিজেন্সের একটি অংশ, কিন্তু যা আমার মনোযোগ আকর্ষণ করেছে তা হলো এটি কীভাবে কাজ করে।
র্যাম্বলার মানুষের স্বাভাবিক কথাবার্তাকে সংক্ষিপ্ত লেখায় রূপান্তরিত করে। গুগলের মতে , এটি মানুষের কথা বলার আসল ভঙ্গি বুঝতে পারে, যার মধ্যে রয়েছে নিজের ভুল সংশোধন, পুনরাবৃত্ত শব্দ এবং ‘উম’, ‘আহ’ ও ‘লাইক’-এর মতো অপ্রয়োজনীয় ধ্বনি। এই বিষয়টি শুনতে একঘেয়ে লাগতে পারে, যতক্ষণ না আপনি ভাবছেন যে ফোন ব্যবহারের ক্ষেত্রে টাইপিংই প্রায়শই সবচেয়ে ধীরগতির কাজ।
অবশেষে হয়তো বড় ফোনই আমার জন্য উপযুক্ত হবে।
আধুনিক স্মার্টফোনগুলোতে এখন প্রায় ৭-ইঞ্চি ডিসপ্লে থাকে, যা দেখা, পড়া এবং গেম খেলার জন্য চমৎকার। কিন্তু এগুলোতে টাইপ করা বা এক হাতে ব্যবহার করা এখনও বেশ বিরক্তিকর। আর স্ক্রিন লম্বা হওয়ার সাথে সাথে, চওড়া কিবোর্ডের দূরের অক্ষরগুলোতে চাপ দেওয়ার জন্য হাত বাড়ানোর এক অস্বস্তিকর খেলা খেলতে হয়। হাঁটার সময়, ব্যাগ বহন করার সময়, ট্যাক্সিতে বসে বা হাতে কফি নিয়ে উত্তর দেওয়ার চেষ্টা করলে সাধারণত টাইপিংয়ে ভুল হয়, উত্তর ছোট হয়ে যায়, অথবা দুটো হাত খালি হওয়া পর্যন্ত অপেক্ষা করতে হয়।
ভয়েস টাইপিংই এর সবচেয়ে সহজ সমাধান হওয়া উচিত ছিল। সমস্যা হলো, সরাসরি কথাকে টেক্সটে রূপান্তর করলে প্রায়শই আপনি যা বলেছেন ঠিক তাই শোনা যায়, আর মানুষ কোনো নির্দিষ্ট বাক্য গঠন মেনে কথা বলে না। আসল কথাবার্তায় বিরতি, পুনরায় শুরু করা, অসম্পূর্ণ চিন্তা এবং এলোমেলো সংশোধন থাকে। একটি ভয়েস নোট সেই বিশৃঙ্খলা বহন করতে পারে, কারণ সেখানে কণ্ঠস্বরের জোর সাহায্য করে। কিন্তু একটি টেক্সট মেসেজ তা পারে না।
র্যাম্বলারের সমাধানটি সহজ। গুগল আপনাকে কথোপকথন বা ভয়েস নোটে স্বাভাবিকভাবে কথা বলার সুযোগ দিচ্ছে। কিন্তু হুবহু শব্দচয়ন ও নির্ভুলতার ওপর জোর দেওয়ার পরিবর্তে, র্যাম্বলার গুরুত্বপূর্ণ অংশগুলো বেছে নিয়ে সেগুলোকে এমন একটি বার্তায় সাজিয়ে দেবে, যা শুনতে আপনারই মতো লাগবে।
দ্বিভাষিক দিকটি আসলে বিশাল।
দ্বিভাষী হওয়ার সবচেয়ে ভালো দিকটি হলো স্বাভাবিক কথোপকথনের সময় দুটি ভিন্ন ভাষার মিশে যাওয়া। তাই এটা শুনে খুব ভালো লাগলো যে একেবারে শুরু থেকেই বহুভাষিক সুবিধা পাওয়া যাচ্ছে। গুগল বলছে, জেমিনির বহুভাষিক মডেল ব্যবহার করে র্যাম্বলার একটিমাত্র মেসেজের মধ্যেই ভাষা পরিবর্তন করতে পারে, যার মধ্যে ইংরেজির সাথে হিন্দি মেশানোর মতো উদাহরণও রয়েছে। আমার মতো অনেকেই শুধু একটি ভাষায় মেসেজ করেন না।
ব্যক্তি, মেজাজ বা প্রেক্ষাপটের ওপর নির্ভর করে আমরা ভাষা পরিবর্তন করি। যখন কোনো বাক্য স্বাভাবিকভাবে বিভিন্ন ভাষার মধ্যে আসা-যাওয়া করে, তখন সাধারণ ভয়েস টাইপিংয়ে সমস্যা হতে পারে। এটি হয়তো শব্দগুলো ঠিকঠাক বসাতে পারে, কিন্তু বাক্যের ছন্দটা ধরে রাখতে পারে না। র্যাম্বলার যদি অপ্রয়োজনীয় অংশগুলো বাদ দিয়েও মিশ্র ভাষার সেই সাবলীল প্রবাহটি বজায় রাখতে পারে, তবে এটি একটি সাধারণ ‘কথাটাকে পেশাদারী শোনান’ ধরনের এআই বাটনের চেয়ে অনেক বেশি কার্যকরী হয়ে ওঠে।
এটা যে টাইপিংয়ের চেয়ে দ্রুততর, তা এখনও প্রমাণ করতে হবে।
আমি নিশ্চিত নই যে এটি সবার জন্য একটি দৈনন্দিন অভ্যাসে পরিণত হবে। অনেকেই ইতোমধ্যেই যথেষ্ট দ্রুত টাইপ করেন। কেউ কেউ ভয়েস নোট পছন্দ করেন। আবার, ট্রান্সক্রিপশন যতই উন্নত হোক না কেন, অন্যরা হয়তো জনসমক্ষে ফোনে কথা বলতে চাইবেন না। এছাড়াও, একটি গোপনীয়তার নিশ্চয়তা পরীক্ষাও রয়েছে। কোম্পানিটি দাবি করে যে, র্যাম্বলার চালু থাকলে তা দেখা যাবে এবং অডিও শুধুমাত্র রিয়েল-টাইমে ট্রান্সক্রাইব করার জন্য ব্যবহৃত হবে, যা সংরক্ষণ করা হবে না। তবুও, টিকে থাকার জন্য এটিকে প্রমাণ করতে হবে যে এটি দ্রুত এবং কম পরিশ্রমের একটি পদ্ধতি। তবে অন্তত, গুগল এই প্রতিশ্রুতি দিচ্ছে যে কথা বলার আগে আপনাকে দুবার ভাবতে হবে না বা নিখুঁত বাক্য তৈরি করতে হবে না।
