তোমার মস্তিষ্ক AI কণ্ঠস্বর সনাক্ত করতে পারে, এমনকি তুমি না পারলেও

আপনি সম্ভবত একটি AI ক্লোন থেকে আসল মানুষের কণ্ঠস্বর চিনতে পারবেন না, এবং আপনি এই সংগ্রামে একা নন। কিন্তু এখানেই অবাক করার বিষয়। যাইহোক, আপনার মস্তিষ্ক ইতিমধ্যেই পার্থক্যটি খুঁজে বের করতে শুরু করেছে।

তিয়ানজিন বিশ্ববিদ্যালয় এবং হংকংয়ের চাইনিজ বিশ্ববিদ্যালয়ের গবেষকরা ৩০ জন শ্রোতার কৃত্রিম বুদ্ধিমত্তা (এআই) দ্বারা তৈরি বক্তৃতা শনাক্ত করার ক্ষমতা পরীক্ষা করেছেন এবং ফলাফলগুলি ছিল অত্যন্ত নম্র।

অংশগ্রহণকারীরা তাদের উন্নতিতে সাহায্য করার জন্য পরিকল্পিত একটি সংক্ষিপ্ত প্রশিক্ষণ অধিবেশনের পরেও, প্রকৃত কণ্ঠস্বর এবং কৃত্রিম কণ্ঠস্বর আলাদা করতে ধারাবাহিকভাবে ব্যর্থ হন। তবুও যখন বিজ্ঞানীরা ইলেক্ট্রোএনসেফালোগ্রাফি (EEG) ক্যাপ থেকে স্নায়ু রেকর্ডিং পরীক্ষা করেন, তখন তারা পৃষ্ঠের নীচে অন্য কিছু ঘটছে তা আবিষ্কার করেন। শ্রবণ ব্যবস্থা নীরবে তার হোমওয়ার্ক করছিল।

তুমি যা মিস করো, মস্তিষ্ক তা শুনতে পায়।

eNeuro-তে প্রকাশিত এই গবেষণায়, দুই ধরণের AI কণ্ঠস্বরের পাশাপাশি প্রকৃত মানুষের দ্বারা উচ্চারিত বাক্য ব্যবহার করা হয়েছে। একটি সেট ছিল মৌলিক কৃত্রিম বক্তৃতা, অন্যটি ছিল আরও মানবিক শব্দ শোনার জন্য সূক্ষ্মভাবে সুর করা।

শ্রোতারা প্রতিটি কণ্ঠস্বর আসল নাকি নকল তা অনুমান করার জন্য বোতাম টিপেছিলেন, এবং তারা ভুল করেছিলেন। অনেক। কিন্তু স্নায়ু কার্যকলাপ ট্র্যাক করার EEG ক্যাপগুলি আরও আকর্ষণীয় গল্প বলেছিল।

মাত্র ১২ মিনিটের প্রশিক্ষণের পর, সেই স্নায়বিক প্রতিক্রিয়াগুলি পৃথক হতে শুরু করে। মস্তিষ্ক তিনটি স্বতন্ত্র মুহূর্তে, প্রায় ৫৫ মিলিসেকেন্ড, ২১০ মিলিসেকেন্ড এবং ৪৫৫ মিলিসেকেন্ডে, একটি কণ্ঠস্বর শোনার পর থেকে সিন্থেটিক স্পিচকে আলাদাভাবে ট্যাগ করতে শুরু করে। এগুলি প্রাথমিক প্রক্রিয়াকরণের পর্যায়, সচেতন চিন্তাভাবনা ছবিতে প্রবেশ করার অনেক আগে।

কেন তোমার কান তোমার মস্তিষ্কের আগে?

তুমি উপলব্ধি এবং সিদ্ধান্তের মধ্যে একটা ব্যবধান নিয়ে কাজ করছো। তোমার শ্রবণ ব্যবস্থা AI কণ্ঠস্বরে সূক্ষ্ম ধ্বনিগত আঙুলের ছাপ নিবন্ধন করে, কিন্তু এটি এখনও তোমার মনের "এটি নকল" বোতামের সাথে সেই সংকেতগুলিকে সংযুক্ত করেনি।

গবেষকরা এই সংযোগ বিচ্ছিন্নতা ব্যাখ্যা করে এমন কণ্ঠস্বরের মধ্যে প্রকৃত শারীরিক পার্থক্য খুঁজে পেয়েছেন। অ্যাকোস্টিক বিশ্লেষণে দেখা গেছে যে বাস্তব এবং AI বক্তৃতা 5.4 থেকে 11.7 Hz মড্যুলেশন পরিসরে পরিবর্তিত হয়, যা আমাদের মস্তিষ্ক কীভাবে দ্রুত বক্তৃতা বিবরণ যেমন ধ্বনি এবং সিলেবল অনসেট ট্র্যাক করে তার সাথে যুক্ত। AI কণ্ঠস্বর, এমনকি যেগুলি অবিশ্বাস্যভাবে প্রাকৃতিক শোনায়, দৃশ্যত সেই মাইক্রো বৈচিত্র্যগুলিকে পুরোপুরিভাবে মেলে না। তবুও।

ডিপফেক স্ক্যামের ক্ষেত্রে এর অর্থ কী?

এই গবেষণা আসলে সুসংবাদ নিয়ে আসে। এর অর্থ হল ভয়েস ক্লোনিং জালিয়াতির বিরুদ্ধে মানুষ অসহায় নয়, এবং জৈবিক হার্ডওয়্যারটি ঠিকঠাক কাজ করে। আমাদের কেবল এটি কীভাবে ব্যবহার করতে হয় তা শিখতে হবে।

ভবিষ্যতের সরঞ্জামগুলি মানুষকে তাদের মস্তিষ্ক ইতিমধ্যেই যে নির্দিষ্ট সংকেতগুলি সনাক্ত করছে তা শুনতে শেখাতে পারে। "সাবধান থাকুন" এর মতো সাধারণ পরামর্শের পরিবর্তে, আমরা লক্ষ্যযুক্ত প্রশিক্ষণ প্রোগ্রাম পেতে পারি যা স্নায়বিক উপলব্ধিকে সচেতন সিদ্ধান্ত গ্রহণের সাথে সংযুক্ত করতে সহায়তা করে। তথ্য বিদ্যমান, সংকেত বিদ্যমান, এবং এখন এটি সেই বিন্দুগুলিকে সংযুক্ত করার বিষয়ে।

আপাতত, এই পরিস্থিতি অদ্ভুতভাবে আশ্বস্ত করছে। আপনার মস্তিষ্ক আপনার ধারণার চেয়েও বেশি পরিশ্রম করছে, এবং এটি ইতিমধ্যেই AI কণ্ঠস্বরের সাথে খাপ খাইয়ে নিচ্ছে, যদিও আপনার সচেতন মন এখনও পুরোপুরিভাবে তা গ্রহণ করেনি।

"আপনার মস্তিষ্ক AI কণ্ঠস্বর সনাক্ত করতে পারে এমনকি আপনি না পারলেও" পোস্টটি প্রথম প্রকাশিত হয়েছিল ডিজিটাল ট্রেন্ডস- এ।