Apple M2 দ্বারা চালিত AI হেডফোন একসাথে একাধিক স্পিকার অনুবাদ করতে পারে

গুগলের পিক্সেল বাডস ওয়্যারলেস ইয়ারবাডগুলি এখন কিছু সময়ের জন্য একটি দুর্দান্ত রিয়েল-টাইম অনুবাদ সুবিধা অফার করেছে। গত কয়েক বছরে, Timkettle এর মতো ব্র্যান্ডগুলি ব্যবসায়িক গ্রাহকদের জন্য একই ধরনের ইয়ারবাড অফার করেছে । যাইহোক, এই সমস্ত সমাধান অনুবাদের জন্য একবারে একটি অডিও স্ট্রিম পরিচালনা করতে পারে।

ইউনিভার্সিটি অফ ওয়াশিংটন (UW) এর লোকেরা এআই-চালিত হেডফোনের আকারে সত্যিই অসাধারণ কিছু তৈরি করেছে যা একসাথে একাধিক স্পিকারের ভয়েস অনুবাদ করতে পারে। এটিকে একটি জনাকীর্ণ বারে একটি বহুভুজ হিসাবে ভাবুন, তার চারপাশের লোকেদের বক্তৃতা বুঝতে সক্ষম, বিভিন্ন ভাষায় কথা বলা, একযোগে।

দলটি তাদের উদ্ভাবনকে স্থানিক বক্তৃতা অনুবাদ হিসাবে উল্লেখ করছে এবং এটি বাইনরাল হেডফোনের সৌজন্যে আসে। অজানাদের জন্য, বাইনোরাল অডিও সাউন্ড এফেক্টের অনুকরণ করার চেষ্টা করে ঠিক যেভাবে মানুষের কান তাদের স্বাভাবিকভাবে উপলব্ধি করে। সেগুলি রেকর্ড করার জন্য, মাইকগুলি একটি ডামি মাথায় রাখা হয়, প্রতিটি পাশে মানুষের কানের সমান দূরত্বে।

পদ্ধতিটি অত্যন্ত গুরুত্বপূর্ণ কারণ আমাদের কান কেবল শব্দই শুনতে পায় না, তবে তারা এর উত্সের দিক নির্ধারণ করতে আমাদের সহায়তা করে। অত্যধিক লক্ষ্য হল একটি স্টিরিও প্রভাব সহ একটি প্রাকৃতিক সাউন্ড স্টেজ তৈরি করা যা একটি লাইভ কনসার্টের মতো অনুভূতি প্রদান করতে পারে। অথবা, আধুনিক প্রেক্ষাপটে, স্থানিক শ্রবণ

কাজটি প্রফেসর শ্যাম গোল্লাকোটার নেতৃত্বে একটি দলের সৌজন্যে এসেছে, যার বিস্তৃত ভাণ্ডারে এমন অ্যাপ রয়েছে যা স্মার্টওয়াচে পানির নিচে জিপিএস রাখতে পারে , বিটলকে ফটোগ্রাফারে পরিণত করতে পারে , ব্রেন ইমপ্লান্ট যা ইলেকট্রনিক্সের সাথে যোগাযোগ করতে পারে , একটি মোবাইল অ্যাপ যা সংক্রমণ শুনতে পারে এবং আরও অনেক কিছু।

মাল্টি-স্পিকার অনুবাদ কিভাবে কাজ করে?

"প্রথমবারের মতো, আমরা প্রতিটি ব্যক্তির কণ্ঠস্বরের শব্দ এবং এটি যে দিক থেকে আসছে তা সংরক্ষণ করেছি," গোল্লাকোটা ব্যাখ্যা করেন, বর্তমানে ইনস্টিটিউটের পল জি অ্যালেন স্কুল অফ কম্পিউটার সায়েন্স অ্যান্ড ইঞ্জিনিয়ারিংয়ের একজন অধ্যাপক৷

দলটি তাদের স্ট্যাকটিকে একটি রাডারের সাথে তুলনা করে, কারণ এটি আশেপাশের স্পিকারের সংখ্যা সনাক্ত করে এবং লোকে শোনার সীমার ভিতরে এবং বাইরে যাওয়ার সাথে সাথে সেই সংখ্যাটি রিয়েল-টাইমে আপডেট করে। পুরো পদ্ধতিটি ডিভাইসে কাজ করে এবং অনুবাদের জন্য ক্লাউড সার্ভারে ব্যবহারকারীর ভয়েস স্ট্রিম পাঠানো জড়িত নয়। হ্যাঁ, গোপনীয়তা!

বক্তৃতা অনুবাদ ছাড়াও, কিটটি "প্রতিটি বক্তার কণ্ঠস্বরের অভিব্যক্তিপূর্ণ গুণাবলী এবং ভলিউম বজায় রাখে।" অধিকন্তু, স্পিকার রুম জুড়ে চলার সাথে সাথে দিকনির্দেশক এবং অডিও তীব্রতা সমন্বয় করা হয়। মজার বিষয় হল, অ্যাপল এমন একটি সিস্টেম তৈরি করছে বলেও বলা হয় যা এয়ারপডগুলিকে রিয়েল-টাইমে অডিও অনুবাদ করতে দেয়

কিভাবে এটা সব জীবনে আসে?

UW টিম প্রায় এক ডজন আউটডোর এবং ইনডোর সেটিংসে AI হেডফোনের অনুবাদ ক্ষমতা পরীক্ষা করেছে। যতদূর পারফরম্যান্স যায়, সিস্টেমটি 2-4 সেকেন্ডের মধ্যে অনুবাদিত অডিও নিতে, প্রক্রিয়া করতে এবং উত্পাদন করতে পারে। পরীক্ষায় অংশগ্রহণকারীরা 3-4 সেকেন্ডের বিলম্ব পছন্দ করে বলে মনে হয়েছে, কিন্তু দল অনুবাদ পাইপলাইনের গতি বাড়ানোর জন্য কাজ করছে।

এখনও অবধি, দলটি শুধুমাত্র স্প্যানিশ, জার্মান এবং ফরাসি ভাষার অনুবাদগুলি পরীক্ষা করেছে, তবে তারা পুলে আরও যোগ করার আশাবাদী৷ প্রযুক্তিগতভাবে, তারা অন্ধ উত্স বিচ্ছেদ, স্থানীয়করণ, রিয়েল-টাইম এক্সপ্রেসিভ অনুবাদ এবং বাইনোরাল রেন্ডারিংকে একটি একক প্রবাহে ঘনীভূত করেছে, যা বেশ চিত্তাকর্ষক কীর্তি।

সিস্টেমটি যতদূর যায়, দলটি একটি অ্যাপল এম 2 সিলিকনে রিয়েল-টাইমে চলতে সক্ষম একটি স্পিচ ট্রান্সলেশন মডেল তৈরি করেছে, রিয়েল-টাইম ইনফারেন্স অর্জন করেছে। অডিও দায়িত্বগুলি Sony-এর একজোড়া শব্দ-বাতিলকারী WH-1000XM4 হেডফোন এবং একটি Sonic Presence SP15C বাইনোরাল ইউএসবি মাইক দ্বারা পরিচালিত হয়েছিল৷

এবং এখানে সেরা অংশ. "প্রুফ-অফ-কনসেপ্ট ডিভাইসের কোডটি অন্যদের তৈরি করার জন্য উপলব্ধ," প্রতিষ্ঠানের প্রেস বিজ্ঞপ্তিতে বলা হয়েছে। এর অর্থ হল বৈজ্ঞানিক এবং ওপেন সোর্স টিঙ্কারিং সম্প্রদায় UW টিমের দ্বারা স্থাপিত ভিত্তিগুলির উপর আরও উন্নত প্রকল্পগুলি শিখতে এবং ভিত্তি করতে পারে।