आवाज की पहचान बहुत बढ़िया है, लेकिन यह इतनी अच्छी कैसे हो गई?

वॉयस रिकग्निशन टेक्नोलॉजी का विकास का एक समृद्ध इतिहास है जो इसे आज तक ले गया है। यह आधुनिक जीवन के मूल में है, जो हमें केवल एक उपकरण से बात करके कार्य करने की क्षमता प्रदान करता है। तो, यह आश्चर्यजनक तकनीक वर्षों से कैसे विकसित हुई है? चलो एक नज़र मारें।

1952: ऑड्रे सिस्टम

आवाज पहचान में पहला कदम 1950 के दशक की शुरुआत में आया था। बेल लेबोरेटरीज ने 1952 में पहली मशीन विकसित की जो मानव आवाज को समझ सकती थी और इसका नाम ऑड्रे सिस्टम रखा गया। ऑड्रे नाम ऑटोमैटिक डिजिट रिकग्निशन वाक्यांश के संकुचन की तरह था। हालांकि यह एक प्रमुख नवाचार था, लेकिन इसकी कुछ प्रमुख सीमाएँ थीं।

सबसे प्रमुख रूप से, ऑड्रे केवल संख्यात्मक अंक 0-9 को पहचान सकता था, कोई शब्द नहीं। ऑड्रे फीडबैक देगा जब स्पीकर ने 10 में से 1 लाइटबल्ब को रोशन करके एक नंबर कहा, प्रत्येक एक अंक के अनुरूप।

जबकि यह 90% सटीकता के साथ संख्याओं को समझ सकता था, ऑड्रे एक विशिष्ट आवाज प्रकार तक ही सीमित था। यही कारण है कि डेवलपर्स में से एक एचके डेविस वास्तव में इसका इस्तेमाल करने वाला एकमात्र व्यक्ति था। जब कोई नंबर बोला जाता था, तो स्पीकर को अगला बोलने से पहले कम से कम 300 मिलीसेकंड इंतजार करना पड़ता था।

यह न केवल कार्यक्षमता में सीमित था, बल्कि उपयोगिता में भी सीमित था। एक ऐसी मशीन के लिए बहुत अधिक उपयोग नहीं था जो केवल संख्याओं को समझ सके। एक संभावित उपयोग टेलीफोन नंबर डायल करना था, लेकिन नंबरों को हाथ से डायल करना बहुत तेज़ और आसान था। हालांकि ऑड्रे का एक सुंदर अस्तित्व नहीं था, फिर भी यह मानव उपलब्धि में एक महान मील का पत्थर के रूप में खड़ा है।

सम्बंधित: माइक्रोसॉफ्ट वर्ड पर वॉयस-टाइपिंग का उपयोग कैसे करें

1962: आईबीएम का शूबॉक्स

ऑड्रे के एक दशक बाद, आईबीएम ने वॉयस रिकग्निशन सिस्टम विकसित करने में हाथ आजमाया। 1962 के विश्व मेले में, आईबीएम ने शोबॉक्स नामक एक आवाज पहचान प्रणाली को दिखाया। ऑड्रे की तरह, इसका मुख्य काम अंक 0-9 को समझना था, लेकिन यह छह शब्दों को भी समझ सकता था: प्लस, माइनस, फॉल्स, टोटल, सबटोटल और ऑफ।

शूबॉक्स एक गणित की मशीन थी जो साधारण अंकगणितीय प्रश्नों को हल कर सकती थी। प्रतिक्रिया के लिए, रोशनी के बजाय, Shoebox परिणामों को कागज पर प्रिंट करने में सक्षम था। इसने इसे कैलकुलेटर के रूप में उपयोगी बना दिया, हालांकि स्पीकर को अभी भी प्रत्येक संख्या/शब्द के बीच रुकने की आवश्यकता होगी।

1971: आईबीएम की स्वचालित कॉल पहचान

ऑड्रे और शूबॉक्स के बाद, दुनिया भर की अन्य प्रयोगशालाओं ने आवाज पहचानने की तकनीक विकसित की। हालाँकि, यह 1970 के दशक तक शुरू नहीं हुआ, जब 1971 में, IBM ने अपनी तरह का पहला आविष्कार बाजार में लाया। इसे स्वचालित कॉल पहचान प्रणाली कहा जाता था। यह पहला वॉयस रिकग्निशन सिस्टम था जिसका इस्तेमाल टेलीफोन सिस्टम पर किया गया था।

इंजीनियर कॉल करेंगे और उत्तरी कैरोलिना के रैले में एक कंप्यूटर से जुड़े रहेंगे। कॉलर तब अपनी शब्दावली में 5,000 शब्दों में से एक का उच्चारण करेगा और उत्तर के रूप में "बोली जाने वाली" प्रतिक्रिया प्राप्त करेगा।

सम्बंधित: मैक पर वॉयस डिक्टेशन का उपयोग कैसे करें

1976: हार्पी

1970 के दशक की शुरुआत में, अमेरिकी रक्षा विभाग ने आवाज की पहचान में रुचि ली। DARPA (डिफेंस एडवांस्ड रिसर्च प्रोजेक्ट्स एजेंसी) ने 1971 में स्पीच अंडरस्टैंडिंग रिसर्च (SUR) प्रोग्राम विकसित किया। इस कार्यक्रम ने आवाज की पहचान के लिए अनुसंधान और विकास में सहायता के लिए कई कंपनियों और विश्वविद्यालयों को धन मुहैया कराया।

1976 में, सुर की वजह से, कार्नेगी मेलन विश्वविद्यालय ने हार्पी सिस्टम विकसित किया। वॉयस रिकग्निशन टेक्नोलॉजी में यह एक बड़ी छलांग थी। उस बिंदु तक सिस्टम शब्दों और संख्याओं को समझने में सक्षम थे, लेकिन हार्पी इस मायने में अद्वितीय था कि वह पूरे वाक्यों को समझ सकता था।

इसमें लगभग 1,011 शब्दों की शब्दावली थी, जोबी. लोवरे और आर. रेड्डी के एक प्रकाशन के अनुसार, एक ट्रिलियन से अधिक विभिन्न संभावित वाक्यों के बराबर थी। प्रकाशन तब कहता है कि हार्पी ९३.७७% सटीकता के साथ शब्दों को समझ सकता है।

1980 का दशक: द हिडन मार्कोव मेथड

1980 का दशक वॉयस रिकग्निशन टेक्नोलॉजी के लिए एक महत्वपूर्ण समय था, क्योंकि यह वह दशक है जहां वॉयस रिकग्निशन टेक्नोलॉजी है, क्योंकि यह वह दशक था जब हमें हिडन मार्कोव मेथड (HMM) से परिचित कराया गया था। HMM के पीछे मुख्य प्रेरक शक्ति प्रायिकता है

जब भी कोई सिस्टम एक स्वर (भाषण का सबसे छोटा तत्व) दर्ज करता है, तो एक निश्चित संभावना होती है कि अगला क्या होगा। HMM इन संभावनाओं का उपयोग यह निर्धारित करने के लिए करता है कि कौन सा फ़ोनेम सबसे अधिक संभावना वाला होगा और सबसे अधिक संभावित शब्द बनाएगा। अधिकांश आवाज पहचान प्रणाली आज भी भाषण को समझने के लिए एचएमएम का उपयोग करती हैं।

1990 का दशक: आवाज की पहचान उपभोक्ता बाजार तक पहुँचती है

वॉयस रिकग्निशन टेक्नोलॉजी की अवधारणा के बाद से, यह उपभोक्ता बाजार में जगह खोजने की यात्रा पर है। 1980 के दशक में, आईबीएम ने एक प्रोटोटाइप कंप्यूटर का प्रदर्शन किया जो वाक्-से-पाठ श्रुतलेख कर सकता था। हालाँकि, 1990 के दशक की शुरुआत तक लोगों ने इस तरह के अनुप्रयोगों को अपने घरों में देखना शुरू नहीं किया था।

1990 में, ड्रैगन सिस्टम्स ने पहला स्पीच-टू-टेक्स्ट डिक्टेशन सॉफ्टवेयर पेश किया। इसे ड्रैगन डिक्टेट कहा जाता था, और इसे मूल रूप से विंडोज के लिए जारी किया गया था। ९,००० डॉलर का यह कार्यक्रम आवाज पहचान तकनीक को जन-जन तक पहुंचाने के लिए क्रांतिकारी था, लेकिन इसमें एक खामी थी। सॉफ़्टवेयर ने असतत श्रुतलेख का उपयोग किया , जिसका अर्थ है कि उपयोगकर्ता को प्रोग्राम के लिए प्रत्येक शब्द के बीच उन्हें लेने के लिए रुकना चाहिए।

1996 में, IBM ने Medspeak के साथ फिर से उद्योग में योगदान दिया। यह एक भाषण-से-पाठ श्रुतलेख कार्यक्रम भी था, लेकिन ड्रैगन डिक्टेट के रूप में यह असतत संकेत से ग्रस्त नहीं था। इसके बजाय, यह कार्यक्रम निरंतर भाषण को निर्देशित कर सकता है, जिसने इसे और अधिक सम्मोहक उत्पाद बना दिया।

संबंधित: हेडफ़ोन के साथ Google सहायक का उपयोग कैसे करें

2010: सिरी नाम की एक लड़की

2000 के दशक के दौरान, आवाज पहचान तकनीक लोकप्रियता में विस्फोट हो गई। इसे पहले से कहीं अधिक सॉफ्टवेयर और हार्डवेयर में लागू किया गया था, और आवाज पहचान के विकास में एक महत्वपूर्ण कदम डिजिटल सहायक सिरी था। 2010 में, Siri नाम की एक कंपनी ने वर्चुअल असिस्टेंट को iOS ऐप के रूप में पेश किया।

उस समय, सिरी सॉफ्टवेयर का एक प्रभावशाली टुकड़ा था जो कि वक्ता जो कह रहा था उसे निर्देशित कर सकता था और एक शिक्षित और मजाकिया प्रतिक्रिया दे सकता था। यह कार्यक्रम इतना प्रभावशाली था कि Apple ने उसी वर्ष कंपनी का अधिग्रहण कर लिया और सिरी को थोड़ा सा सुधार दिया, इसे उस डिजिटल सहायक की ओर धकेल दिया जिसे हम आज जानते हैं।

यह ऐप्पल के माध्यम से था कि सिरी को अपनी प्रतिष्ठित आवाज (सुसान बेनेट द्वारा आवाज) और कई नई सुविधाएं मिलीं। यह सिस्टम के अधिकांश कार्यों को नियंत्रित करने के लिए प्राकृतिक भाषा प्रसंस्करण का उपयोग करता है।

2010 का दशक: द बिग 4 डिजिटल असिस्टेंट्स

जैसा कि यह खड़ा है, चार बड़े डिजिटल सहायक आवाज पहचान और अतिरिक्त सॉफ्टवेयर पर हावी हैं।

  • Siri Apple के लगभग सभी उत्पादों में मौजूद है: iPhones, iPods, iPads, और Mac परिवार के कंप्यूटर।
  • Google Assistant बाज़ार में मौजूद अधिकांश 3 बिलियन से अधिक Android उपकरणों में मौजूद है। इसके अलावा, उपयोगकर्ता Google होम जैसी कई Google सेवाओं में कमांड का उपयोग कर सकते हैं।
  • अमेज़ॅन एलेक्सा के पास एक समर्पित मंच नहीं है जहां वह रहता है, लेकिन यह अभी भी एक प्रमुख सहायक है। यह Android उपकरणों, Apple उपकरणों पर डाउनलोड और उपयोग करने के लिए उपलब्ध है। और यहां तक ​​कि लेनोवो लैपटॉप का चयन करें
  • Bixby डिजिटल सहायक सूची में नवीनतम प्रविष्टि है। यह सैमसंग का घरेलू डिजिटल सहायक है, और यह कंपनी के फोन और टैबलेट के बीच मौजूद है।

एक बोलचाल का इतिहास

ऑड्रे के दिनों से आवाज की पहचान एक लंबा सफर तय कर चुकी है। यह कई क्षेत्रों में काफी लाभ कमा रहा है; उदाहरण के लिए, क्लियर ब्रिज मोबाइल के अनुसार, 2020 में महामारी के दौरान आवाज से चलने वाले चैटबॉट्स से चिकित्सा क्षेत्र को लाभ हुआ। केवल संख्याओं को समझने से लेकर पूर्ण वाक्यों के विभिन्न रूपों को समझने तक, आवाज की पहचान सबसे उपयोगी साबित हो रही है। हमारे आधुनिक युग की प्रौद्योगिकियां।