आवाज पहचान कैसे काम करती है?

कभी-कभी, हम खुद को अन्य लोगों की तुलना में अपने डिजिटल उपकरणों से अधिक बोलते हुए पाते हैं। हम जो कह रहे हैं उसे समझने के लिए हमारे उपकरणों पर डिजिटल सहायक ध्वनि पहचान का उपयोग करते हैं। इस वजह से, हम अपने फोन या स्मार्ट स्पीकर से बातचीत करके ही अपने जीवन के कई पहलुओं को मैनेज कर पाते हैं।

भले ही आवाज की पहचान हमारे जीवन का इतना बड़ा हिस्सा है, हम आमतौर पर यह नहीं सोचते कि यह क्या काम करता है। आवाज की पहचान के साथ पर्दे के पीछे बहुत कुछ होता है, इसलिए यहां एक गोता है कि यह क्या काम करता है।

आवाज पहचान क्या है?

आधुनिक उपकरण आमतौर पर एक डिजिटल सहायक के साथ लोड होते हैं, एक प्रोग्राम जो आपके डिवाइस पर कुछ कार्यों को करने के लिए आवाज पहचान का उपयोग करता है। वॉयस रिकग्निशन एल्गोरिदम का एक सेट है जिसका उपयोग सहायक आपके भाषण को डिजिटल सिग्नल में बदलने और यह पता लगाने के लिए करते हैं कि आप क्या कह रहे हैं। माइक्रोसॉफ्ट वर्ड जैसे प्रोग्राम शब्दों को टाइप करने में मदद के लिए वॉयस रिकग्निशन का इस्तेमाल करते हैं

पहली आवाज पहचान प्रणाली

पहली आवाज पहचान प्रणाली को ऑड्रे सिस्टम कहा जाता था। यह नाम "ऑटोमेटेड डिजिट रिकग्निशन" का संकुचन था। 1952 में बेल लेबोरेटरीज द्वारा आविष्कार किया गया, ऑड्रे संख्यात्मक अंकों को पहचानने में सक्षम था। स्पीकर एक नंबर कहेगा, और ऑड्रे 10 संबंधित लाइटबल्बों में से एक को रोशन करेगा।

यह आविष्कार जितना महत्वपूर्ण था, उतनी ही अच्छी प्रतिक्रिया नहीं मिली। कंप्यूटर सिस्टम अपने आप में लगभग छह फीट लंबा था और बहुत अधिक जगह घेरता था। इसके आकार के बावजूद, यह केवल 0-9 संख्याओं को ही समझ सकता था। साथ ही, केवल एक विशिष्ट प्रकार की आवाज़ वाला व्यक्ति ही ऑड्रे का उपयोग कर सकता था, इसलिए इसे मुख्य रूप से एक व्यक्ति द्वारा संचालित किया गया था।

जबकि इसमें इसके दोष थे, ऑड्रे आवाज की पहचान बनाने के लिए एक लंबी यात्रा में पहला कदम था जो आज है। अगली आवाज पहचान प्रणाली के आने में ज्यादा समय नहीं लगा, जो शब्दों के अनुक्रम को समझ सकता था।

संबंधित: Google सहायक का उपयोग करके अपनी आवाज़ से Android फ़ोन को लॉक/अनलॉक कैसे करें

आवाज की पहचान ऑडियो को डिजिटल सिग्नल में बदलने के साथ शुरू होती है

हम क्या कह रहे हैं, इसका पता लगाने के लिए ध्वनि पहचान प्रणाली को कुछ चरणों से गुजरना पड़ता है। जब आपके डिवाइस का माइक्रोफ़ोन आपके ऑडियो को उठाता है, तो यह एक विद्युत प्रवाह में परिवर्तित हो जाता है जो एनालॉग से डिजिटल कनवर्टर (ADC) तक जाता है। जैसा कि नाम से पता चलता है, एडीसी विद्युत प्रवाह (एकेए, एनालॉग सिग्नल) को डिजिटल बाइनरी सिग्नल में परिवर्तित करता है।

जैसे ही एडीसी में करंट प्रवाहित होता है, यह करंट के नमूने लेता है और निश्चित समय पर अपने वोल्टेज को डिक्रिप्ट करता है। किसी निश्चित समय पर वोल्टेज को नमूना कहा जाता है। प्रत्येक नमूना एक सेकंड की लंबाई का केवल कई हजारवां हिस्सा है। नमूने के वोल्टेज के आधार पर, एडीसी आठ बाइनरी अंकों (डेटा का एक बाइट) की एक श्रृंखला प्रदान करेगा।

ऑडियो स्पष्टता के लिए संसाधित है

डिवाइस को स्पीकर को बेहतर ढंग से समझने के लिए, स्पष्टता में सुधार के लिए ऑडियो को संसाधित करने की आवश्यकता है। डिवाइस को कभी-कभी शोर भरे वातावरण में भाषण को समझने का काम सौंपा जाता है; इस प्रकार, पृष्ठभूमि के शोर को खत्म करने में मदद करने के लिए ऑडियो पर कुछ फिल्टर लगाए जाते हैं। कुछ आवाज पहचान प्रणालियों के लिए, मानव की श्रवण सीमा से अधिक और निम्न आवृत्तियों को फ़िल्टर किया जाता है।

सिस्टम न केवल अवांछित आवृत्तियों से छुटकारा पाता है; ऑडियो में कुछ आवृत्तियों पर भी जोर दिया जाता है ताकि कंप्यूटर आवाज को बेहतर ढंग से पहचान सके और इसे पृष्ठभूमि के शोर से अलग कर सके। कुछ वॉयस रिकग्निशन सिस्टम वास्तव में ऑडियो को कई असतत आवृत्तियों में विभाजित करते हैं।

संबंधित: अपने नाम का सही उच्चारण करने के लिए Google सहायक को कैसे सिखाएं

अन्य पहलुओं, जैसे कि ऑडियो की गति और मात्रा, को संदर्भ ऑडियो नमूनों से बेहतर मिलान करने के लिए समायोजित किया जाता है, जिसका उपयोग वॉयस रिकग्निशन सिस्टम तुलना करने के लिए करता है। ये निस्पंदन और denoising प्रक्रियाएं वास्तव में समग्र सटीकता में सुधार करने में मदद करती हैं।

आवाज पहचान प्रणाली फिर शब्द बनाना शुरू करती है

वॉयस रिकग्निशन सिस्टम भाषण का विश्लेषण करने के दो लोकप्रिय तरीके हैं। एक को हिडन मार्कोव मॉडल कहा जाता है, और दूसरी विधि तंत्रिका नेटवर्क के माध्यम से होती है।

हिडन मार्कोव मॉडल विधि

हिडन मार्कोव मॉडल अधिकांश वॉयस रिकग्निशन सिस्टम में नियोजित विधि है। इस प्रक्रिया का एक महत्वपूर्ण हिस्सा बोले गए शब्दों को उनके स्वरों (किसी भाषा का सबसे छोटा तत्व) में तोड़ना है। प्रत्येक भाषा में एक सीमित संख्या में स्वर होते हैं, यही वजह है कि छिपी हुई मार्कोव मॉडल पद्धति इतनी अच्छी तरह से काम करती है।

अंग्रेजी भाषा में लगभग 40 स्वर हैं। जब वॉयस रिकग्निशन सिस्टम एक की पहचान करता है, तो यह इस बात की प्रायिकता निर्धारित करता है कि अगला क्या होगा।

उदाहरण के लिए, यदि स्पीकर "टा" ध्वनि का उच्चारण करता है, तो एक निश्चित संभावना है कि "टैप" शब्द बनाने के लिए अगला फोनेम "पी" होगा। इस बात की भी संभावना है कि अगला स्वर "s" होगा, लेकिन इसकी संभावना बहुत कम है। यदि अगला स्वर "पी" जैसा दिखता है, तो सिस्टम उच्च निश्चितता के साथ मान सकता है कि शब्द "टैप" है।

तंत्रिका नेटवर्क विधि

एक तंत्रिका नेटवर्क एक डिजिटल मस्तिष्क की तरह है जो मानव मस्तिष्क की तरह ही बहुत कुछ सीखता है। आर्टिफिशियल इंटेलिजेंस और डीप लर्निंग की प्रगति में तंत्रिका नेटवर्क महत्वपूर्ण भूमिका निभाते हैं।

ध्वनि पहचान का उपयोग करने वाले तंत्रिका नेटवर्क के प्रकार को आवर्तक तंत्रिका नेटवर्क (RNN) कहा जाता है। GeeksforGeeks के अनुसार, RNN वह है जहाँ "[the] पिछले चरण [s] के आउटपुट को वर्तमान चरण के इनपुट के रूप में फीड किया जाता है।" इसका मतलब यह है कि जब आरएनएन थोड़ा सा डेटा संसाधित करता है, तो वह उस डेटा का उपयोग अगले बिट डेटा के साथ क्या करता है उसे प्रभावित करने के लिए करता है- यह अनिवार्य रूप से अनुभव से सीखता है।

एक निश्चित भाषा के लिए एक आरएनएन जितना अधिक उजागर होगा, आवाज की पहचान उतनी ही सटीक होगी। यदि सिस्टम 100 बार "टा" ध्वनि की पहचान करता है, और उसके बाद "पी" ध्वनि 90 बार आती है, तो नेटवर्क मूल रूप से सीख सकता है कि "पी" आमतौर पर "टा" के बाद आता है।

इस वजह से, जब वॉयस रिकग्निशन सिस्टम एक फोनेम की पहचान करता है, तो यह अर्जित डेटा का उपयोग यह अनुमान लगाने के लिए करता है कि कौन आगे आने की संभावना है। क्योंकि आरएनएन लगातार सीखते हैं, जितना अधिक इसका उपयोग किया जाएगा, आवाज की पहचान उतनी ही सटीक होगी।

वॉयस रिकग्निशन सिस्टम शब्दों की पहचान करने के बाद (चाहे छिपे हुए मारवोक मॉडल के साथ या आरएनएन के साथ), वह जानकारी प्रोसेसर को भेजी जाती है। सिस्टम तब उस कार्य को अंजाम देता है जिसे वह करने के लिए होता है।

आधुनिक तकनीक में आवाज की पहचान एक प्रधान बन गई है

आवाज की पहचान हमारे आधुनिक तकनीकी परिदृश्य का एक बड़ा हिस्सा बन गई है। इसे दुनिया भर में कई उद्योगों और सेवाओं में लागू किया गया है; वास्तव में, बहुत से लोग ध्वनि-सक्रिय सहायकों के साथ अपने पूरे जीवन को नियंत्रित करते हैं। आप अपने Apple घड़ियों पर सिरी जैसे सहायकों को लोड कर सकते हैं। 1952 में जो सपना था वह हकीकत बन गया है, और यह जल्द ही कभी भी रुकता नहीं दिख रहा है।