এই এআই প্রযুক্তি এমন শব্দও বুঝতে পারে যা উচ্চস্বরে বলা হয় না।

পোহাং ইউনিভার্সিটি অফ সায়েন্স অ্যান্ড টেকনোলজি (পোস্টেক)-এর গবেষকরা একটি যুগান্তকারী পরিধানযোগ্য প্রযুক্তি উদ্ভাবন করেছেন, যা ঘাড়ের পেশীর সূক্ষ্ম নড়াচড়া পড়ে নীরব কথাকে শ্রবণযোগ্য কণ্ঠে রূপান্তরিত করতে পারে। অধ্যাপক সুং-মিন পার্ক এবং ড. সুংউক হং-এর নেতৃত্বে পরিচালিত এই গবেষণাটি ‘সাইবর্গ অ্যান্ড বায়োনিক সিস্টেমস’ জার্নালে প্রকাশিত হয়েছে, যা মানুষ ও যন্ত্রের যোগাযোগের ক্ষেত্রে একটি উল্লেখযোগ্য অগ্রগতি।

পেশী সঞ্চালন থেকে কথ্য শব্দ পর্যন্ত

এই উদ্ভাবনটি একটি সহজ কিন্তু শক্তিশালী ধারণার উপর ভিত্তি করে গড়ে উঠেছে: কথা বলা কেবল ধ্বনির মধ্যেই সীমাবদ্ধ নয়। যখন কোনো ব্যক্তি কথা বলেন—কিংবা এমনকি নিঃশব্দে কথা বলার চেষ্টা করেন—তখন তাঁর গলার চারপাশের পেশী ও ত্বকে সূক্ষ্ম নড়াচড়া ঘটে। এই নড়াচড়াগুলোই উদ্দিষ্ট কথার এক ধরনের ‘অদৃশ্য মানচিত্র’ তৈরি করে।

এটি ধারণ করার জন্য, গবেষকরা মাল্টিঅ্যাক্সিয়াল স্ট্রেইন ম্যাপিং সেন্সর নামক একটি পরিধানযোগ্য ডিভাইস তৈরি করেছেন। এই সিস্টেমে একটি ক্ষুদ্র ক্যামেরার সাথে রেফারেন্স মার্কারযুক্ত নমনীয় সিলিকন যুক্ত করা হয়েছে, যা এটিকে ত্বকের ক্ষুদ্রতম বিকৃতিও শনাক্ত করতে সক্ষম করে। দৈনন্দিন ব্যবহারের জন্য ডিজাইন করা এই সেন্সরটি আরামে গলায় পরা যায় এবং এর অবস্থান পরিবর্তন করলে এটি স্বয়ংক্রিয়ভাবে পুনরায় ক্যালিব্রেট হয়ে যায়।

সংগৃহীত ডেটা এরপর কৃত্রিম বুদ্ধিমত্তা ব্যবহার করে প্রক্রিয়াজাত করা হয়, যা স্বরভঙ্গির ধরণ বিশ্লেষণ করে উদ্দিষ্ট শব্দ বা বাক্য পুনর্গঠন করে। ব্যবহারকারীর কণ্ঠস্বরের প্রোফাইলের ওপর প্রশিক্ষিত ভয়েস সিন্থেসিসের সাথে এটিকে যুক্ত করার মাধ্যমে, সিস্টেমটি এমন বক্তৃতা তৈরি করতে পারে যা ব্যক্তির স্বাভাবিক কণ্ঠস্বরের সাথে ঘনিষ্ঠভাবে সাদৃশ্যপূর্ণ – এমনকি যখন কোনো শব্দ উৎপন্ন হয় না তখনও।

বিদ্যমান ব্যবস্থাগুলোকে অতিক্রম করার একটি বাস্তবসম্মত পদক্ষেপ

প্রচলিত কণ্ঠস্বর পুনরুদ্ধার পদ্ধতিগুলো ইলেক্ট্রোমায়োগ্রাফি (EMG) বা ইলেক্ট্রোএনসেফালোগ্রাফি (EEG)-এর মতো প্রযুক্তির উপর নির্ভর করে, যার জন্য প্রায়শই বড় আকারের যন্ত্রপাতির প্রয়োজন হয় এবং যা দীর্ঘক্ষণ ব্যবহারে অস্বস্তিকর হতে পারে।

পোস্টেক দলের পদ্ধতিটি একটি হালকা ও পরিধানযোগ্য বিকল্প প্রদানের মাধ্যমে এই বাধাগুলো দূর করে। পরীক্ষায়, সিস্টেমটি বক্তৃতা পুনর্গঠনে উচ্চ নির্ভুলতা প্রদর্শন করেছে, এমনকি শিল্প কারখানার মতো কোলাহলপূর্ণ পরিবেশেও, যেখানে প্রচলিত মাইক্রোফোনগুলো ঠিকমতো কাজ করতে পারে না।

বাস্তব জগতের প্রভাব এবং ভবিষ্যৎ সম্ভাবনা

এই প্রযুক্তির প্রভাব সুদূরপ্রসারী। এটি স্বরযন্ত্রের ক্ষতি বা স্বরযন্ত্রের অস্ত্রোপচারের কারণে কণ্ঠস্বর হারানো রোগীদের জন্য যোগাযোগের একটি নতুন পথ খুলে দিতে পারে, যা তাদের নিজস্ব কণ্ঠস্বর ব্যবহার করে পুনরায় ‘কথা’ বলতে সক্ষম করবে।

স্বাস্থ্যসেবার বাইরেও, এই সিস্টেমটি এমন পরিবেশে নীরব যোগাযোগ সক্ষম করতে পারে যেখানে উচ্চস্বরে কথা বলা অবাস্তব – যেমন লাইব্রেরি, মিটিং বা কোলাহলপূর্ণ কর্মক্ষেত্র। এটি আরও স্বাভাবিক মানব-এআই ইন্টারফেসের পথও খুলে দেয়, যেখানে শারীরিক কণ্ঠস্বর ছাড়াই অভিপ্রায়কে কথায় রূপান্তরিত করা যায়।

ভবিষ্যতের দিকে তাকিয়ে

গবেষকদের লক্ষ্য হলো বাস্তব জগতে আরও ব্যাপকভাবে প্রয়োগের জন্য প্রযুক্তিটিকে পরিমার্জন করা, যার মাধ্যমে নির্ভুলতা বাড়ানো এবং ভাষাগত সক্ষমতা প্রসারিত করা যাবে। ভবিষ্যতের সংস্করণগুলো সাধারণ ডিভাইসগুলোর সাথে আরও নির্বিঘ্নে সংযুক্ত হতে পারে, যা ব্যক্তিগত ও পেশাগত উভয় ক্ষেত্রেই মানুষের যোগাযোগের পদ্ধতিতে আমূল পরিবর্তন আনতে পারে।

যেহেতু কৃত্রিম বুদ্ধিমত্তা পরিধানযোগ্য প্রযুক্তির সাথে ক্রমাগত একীভূত হচ্ছে, এই ধরনের উদ্ভাবনগুলো আরও স্বজ্ঞামূলক ও বাধাহীন মিথস্ক্রিয়ার পদ্ধতির দিকে একটি পরিবর্তনের ইঙ্গিত দিচ্ছে – যেখানে অবশেষে এমনকি অনুচ্চারিত কথাও শোনা যাবে।