मोज़ेक से नफरत है? Google का कहना है कि आप इसे “ठीक” कर सकते हैं

1982 में रिलीज़ हुई विज्ञान-फाई फिल्म "ब्लेड रनर" ने 2019 में साइबरपंक तकनीक से भरे हुए की कल्पना की: आकाश उड़ने वाली कारों से भरा है, और मनुष्य कई अविश्वसनीय कार्यों को पूरा करने के लिए एक बड़ी स्क्रीन वाली मशीन (एरिज़ोना) का उपयोग कर सकते हैं।

जब नायक रिक डेकार्ड ने क्लोनों के ठिकाने का पता लगाया, तो उन्होंने कुछ सुरागों का पता लगाने के लिए एरिज़ोना का इस्तेमाल किया, जिन्हें नग्न आंखों से अनदेखा किया गया था।

रिक ने एस्पर में दृश्य में मिली एक संदिग्ध तस्वीर को भर दिया, और तस्वीर के एक कोने को बार-बार विनाशकारी रूप से बढ़ाया, और अंत में दर्पण के प्रतिबिंब में एंड्रॉइड जुरा पाया।

विज्ञान-कथा कार्यों की कल्पना वास्तव में उस समय की तकनीक द्वारा सीमित है। 1982 में पीसी लोकप्रिय हो गए। "ब्लेड रनर" ने यह कल्पना नहीं की थी कि इंटरनेट के उद्भव ने मानव जीवन के तरीके को बदल दिया है, और न ही यह कल्पना कर सकता है कि सिमुलेशन तकनीक होगी एक दिन डिजिटल तकनीक द्वारा प्रतिस्थापित किया गया।

हालाँकि, दोषरहित आवर्धन छवि प्रौद्योगिकी की इसकी कल्पना बहुत उन्नत है, जिसे अब तक हल करना एक कठिन समस्या है।

आपने भी इस स्थिति का सामना किया होगा: पार्टी के बाद, दोस्तों ने एक साथ एक समूह फोटो लिया, और फिर उस शाम जब मैं वापस गया तो पुराने सहपाठी का चेहरा या ड्रिंक ब्रांड देखने के लिए ज़ूम इन किया, लेकिन जो मैंने देखा वह धुंधला था। मोज़ेक।

ऐसा इसलिए है क्योंकि जब हम फोटो को कुछ हद तक बड़ा करते हैं, तो स्थानीय रिज़ॉल्यूशन पहले से ही बहुत कम होता है, और हम जो कुछ भी देखते हैं वह पिक्सल से बना होता है।

क्या हमारे लिए 30 साल पहले की कल्पना की तरह तुच्छ "मोज़ाइक" से अतिरिक्त छवि जानकारी निकालना संभव है?

Google की AI टीम द्वारा हाल ही में प्रकाशित एक ब्लॉग में एक नए इमेज एल्गोरिथम का उल्लेख किया गया है, जो "ब्लेड रनर" के दृष्टिकोण के बहुत करीब है।

अविश्वसनीय संकल्प वृद्धि

६४ x ६४ पिकाचु

64 X 64 पिक्सेल की फ़ोटो कितनी बड़ी होती है? IPhone द्वारा लिए गए 12-मेगापिक्सेल फ़ोटो को टेम्पलेट के रूप में उपयोग करते हुए, यह इसके आकार का केवल एक-तिहाई है। जब एक उच्च-परिभाषा स्क्रीन पर प्रदर्शित किया जाता है, तो आप केवल एक पूर्ण "मोज़ेक" देखेंगे।

▲ सुपर हाई रेजोल्यूशन फोटो

डिजिटल युग में, स्क्रीन पर हम जो भी छवि देखते हैं, वह घनी पैक्ड पिक्सेल से बनी होती है। प्रति यूनिट क्षेत्र में जितने अधिक पिक्सेल छवि बनाते हैं, उतना ही उच्च रिज़ॉल्यूशन और छवि स्पष्ट होती है।

Google के AI शोधकर्ता सोच रहे हैं, क्या कम रिज़ॉल्यूशन से पर्याप्त चित्र जानकारी निकालना संभव है, मूल चित्र को यथासंभव पुनर्स्थापित करने के लिए मशीन लर्निंग का उपयोग करना, चित्र का रिज़ॉल्यूशन बढ़ाना और स्पष्ट चित्र प्राप्त करना संभव है?

चित्र साभार: गूगल

अपने हाल ही में प्रकाशित ब्लॉग में, Google ने अपने नवीनतम शोध परिणाम दिखाए, जो प्रभाव से बहुत चौंकाने वाला है- दो अलग-अलग एल्गोरिदम के माध्यम से, 64 X 64 पिक्सेल फ़ोटो को 1024 X 1024 पिक्सेल रिज़ॉल्यूशन में पुनर्स्थापित किया जा सकता है, और विवरण प्रभाव बहुत यथार्थवादी है।

यह ध्यान दिया जाना चाहिए कि मशीन लर्निंग एल्गोरिदम के माध्यम से Google द्वारा पुनर्स्थापित किए गए फ़ोटो मूल फ़ोटो से कुछ विचलन के लिए बाध्य हैं, लेकिन जब हम मूल दृश्य (जैसे अतीत में पुरानी तस्वीरें) प्राप्त नहीं कर सकते हैं, तो एक "पुनर्स्थापना" जो है यथासंभव वास्तविक के करीब तस्वीरें वास्तव में मूल्यवान हैं।

चित्र साभार: गूगल

Google के अनुसार, "मोज़ेक" फ़ोटो की मरम्मत में दो प्रक्रियाएं होती हैं- "नष्ट" और "पुनर्गठन"।

सबसे पहले, जितना संभव हो सके "मोज़ेक" पिक्सेल ब्लॉक के ग्राफिक विवरण को खोदने के लिए, Google शोधकर्ता पहले गाऊसी शोर एल्गोरिथ्म के साथ परीक्षण के नमूनों को संसाधित करेंगे ताकि पूरी तरह से शोर से बना "स्नोफ्लेक मैप" प्राप्त किया जा सके, जो दिखता है पिछले एनालॉग टीवी की तरह। सिग्नल की तस्वीर।

तीसरी पंक्ति Google की मरम्मत एल्गोरिथम है, और चौथी पंक्ति मूल चित्र संदर्भ है। चित्र: Google

फिर, शोधकर्ता गॉसियन शोर की विनाश प्रक्रिया को उलटने के लिए तंत्रिका नेटवर्क एल्गोरिदम का उपयोग करते हैं, और रिवर्स बहाली प्रक्रिया के माध्यम से नए छवि डेटा को संश्लेषित करते हैं, और एक स्पष्ट तस्वीर प्राप्त करने के लिए शुद्ध शोर छवि से जितना संभव हो सके शोर को कम करते हैं।

चित्र साभार: गूगल

छवि बहाली का सिद्धांत जटिल नहीं है, लेकिन इसमें शामिल एल्गोरिथम सरल नहीं है। "एक-से-एक बहाली" उच्च-परिभाषा बड़ी छवि को पुनर्स्थापित करने के लिए, Google शोधकर्ताओं ने सुपर-रिज़ॉल्यूशन एल्गोरिथ्म SR3 और कैस्केड प्रसार मॉडल का प्रस्ताव रखा सीडीएम बड़े पैमाने पर चित्र तुलना सीखने के माध्यम से बहाली की सटीकता में सुधार करें।

यह उल्लेखनीय है कि यद्यपि हमने हमेशा कम-रिज़ॉल्यूशन वाले बड़े-पिक्सेल कम-रिज़ॉल्यूशन चित्रों के संदर्भ में "मोज़ेक" का उपयोग किया है, यह अनिवार्य रूप से वास्तविक कोडित फ़ोटो से अलग है।

चित्र साभार: गूगल

Google का पुनर्स्थापन एल्गोरिथम निम्न-परिभाषा चित्रों को स्पष्ट करने का कारण अनिवार्य रूप से चित्र में निहित सही छवि जानकारी पर आधारित है, एक विशाल डेटाबेस में अनगिनत छवियों की तुलना और मिलान के माध्यम से, और अंत में एक सिम्युलेटेड अनुमानित पिक्सेल फिलिंग।

जब फोटो को मोज़ेक के साथ लिप्त किया जाता है, तो फोटो में निहित छवि जानकारी बदल जाएगी।

सरल शब्दों में, मोज़ेक एल्गोरिथ्म एक निश्चित अंतराल पर एक क्षेत्र में पिक्सेल के रंग का बेतरतीब ढंग से चयन करना है, और फिर क्षेत्र में सभी पिक्सेल का औसत मूल्य प्राप्त करना है, और इसे एक नए रंग के साथ वर्ग में भरना है।

कोडिंग के बाद, मूल पिक्सेल जानकारी खो जाती है, और केवल यादृच्छिक रूप से गणना की गई त्रुटि जानकारी प्राप्त की जाती है। इस समय, मशीन लर्निंग को इसे पुनर्स्थापित करने दें, ठीक उसी तरह जैसे किसी प्रश्न का सही उत्तर देने के लिए कहा जाता है जो पूरी तरह से गलत है। यह है उत्तर देना असंभव है।

इसलिए अगर कोई मिटाई गई निजी जानकारी में से कुछ को माइन करने के लिए Google एल्गोरिथम का उपयोग करना चाहता है, तो वे इस विचार को दूर कर सकते हैं।

आपने भविष्य में प्रवेश किया है

चित्र साभार: गूगल

Google का HD रिपेयर एल्गोरिथम अंततः Google इमेज प्रोसेसिंग सॉफ़्टवेयर जैसे कि Google फ़ोटो, Snapseed, आदि पर लागू होने की संभावना है। यह HDR, व्यूइंग एंगल करेक्शन और अन्य एल्गोरिदम जैसे हमारे फोटो एडिटिंग टूल में से एक बन जाएगा।

"ब्लेड रनर" फिल्म पर वापस जाने पर, एरिज़ोना वास्तव में एक बहुत ही दिलचस्प मशीन है, यह एनालॉग तकनीक और डिजिटल तकनीक का थोड़ा सा संलयन है।

एक ओर, यह बहुत उन्नत है, लोग इसे आवाज से नियंत्रित कर सकते हैं, और दोषरहित आवर्धन प्राप्त कर सकते हैं; दूसरी ओर, यह बहुत पुराने जमाने का है, एक स्पष्ट बड़ी स्क्रीन के साथ लेकिन फिर भी CRT संरचना, फ़ोटो आयात करने की प्रक्रिया है भौतिक तस्वीरों से स्कैन करने के लिए।

फिल्म के प्रभाव के अनुसार, एरिज़ोना निश्चित-बिंदु फ़ोटो का एक निश्चित समन्वय हो सकता है, और फिर एक सटीक लेंस संरचना (माइक्रोस्कोप) के माध्यम से फ़ोटो को बड़ा कर सकता है। अब इसे देखते हुए, दोषरहित प्रवर्धन का विचार बहुत उन्नत है, लेकिन सिमुलेशन तकनीक स्पष्ट रूप से एक यथार्थवादी भविष्य नहीं है।

आधुनिक लोगों के लिए, मोबाइल फोन और उनके हाथों में कंप्यूटर हर किसी के "एस्पर" हैं।

चित्र से: एडोब

अब जब फ़ोटो ने पूरी तरह से डिजिटल वर्कफ़्लो का विकास पूरा कर लिया है, तो डिजिटल तकनीक के साथ फ़ोटो को बड़ा करना मुश्किल नहीं है। दूसरे शब्दों में, आपने वास्तव में "ब्लेड रनर" में वर्णित "भविष्य" में प्रवेश किया है।

चित्र से: एडोब

कंप्यूटर विज़न के क्षेत्र में इमेज सुपर-रिज़ॉल्यूशन हमेशा एक गर्म शोध विषय रहा है। Adobe जैसी कंपनियां संबंधित इमेज प्रोसेसिंग तकनीकों का विकास कर रही हैं, जिन्हें फोटोशॉप और लाइटरूम जैसे ग्राफिक्स प्रोसेसिंग सॉफ्टवेयर में लागू किया गया है।

फ़ोटोशॉप को एक उदाहरण के रूप में लें। रॉ प्रारूप चित्र आयात करने के बाद, आप "एन्हांस्ड" फ़ंक्शन के "सुपर रिज़ॉल्यूशन" फ़ंक्शन का चयन कर सकते हैं। सॉफ़्टवेयर चित्र की बनावट को समृद्ध करने और चित्र के रिज़ॉल्यूशन को बढ़ाने के लिए समान सामग्री को संदर्भित करेगा। 4 गुना तक। पूरी प्रक्रिया में लगभग एक मिनट का समय लगता है।

चित्र से: एडोब

कंट्रास्ट एन्हांसमेंट से पहले और बाद की तस्वीरों से देखा जा सकता है कि रिज़ॉल्यूशन बढ़ने के बाद तस्वीरों के तीखेपन में काफी सुधार हुआ है, और कुछ अस्पष्ट और पहचानने योग्य विवरण भी स्पष्ट हो गए हैं।

Adobe ने इस साल मार्च में प्रकाशित एक तकनीकी ब्लॉग में उल्लेख किया है कि यह जिस सुपर-रिज़ॉल्यूशन एल्गोरिथम का उपयोग करता है, उसने बहुत सारे मशीन लर्निंग प्रशिक्षण भी पास कर लिया है और लगातार सुधार और सुधार कर रहा है।

चित्र से: एडोब

क्या चित्रों के संकल्प को विस्फोट करना समझ में आता है? हो सकता है कि एक फोटो लेने के बाद, आप इसे हर विवरण में तल्लीन करने के लिए बड़ा नहीं करेंगे, लेकिन जब आपको इस फोटो को प्रिंट करने की आवश्यकता होती है, तो फोटो की इमेजिंग का रिज़ॉल्यूशन सीधे प्रिंट के अधिकतम आकार को निर्धारित करता है।

यह फ़ोटोग्राफ़रों के लिए विशेष रूप से महत्वपूर्ण है। कभी-कभी चौड़े कोण लेंस के साथ दृश्यों की शूटिंग करते समय, एक बाज आकाश के ऊपर उड़ता है। चील के पंखों के विवरण को चौड़े कोण वाले लेंस से कैप्चर नहीं किया जा सकता है। चित्र प्राप्त करना संभव है तुम्हें चाहिए।

▲ पहले क्रॉप करें, और फिर 10 मिलियन पिक्सेल फ़ोटो प्राप्त करने के लिए सुपर पिक्सेल के साथ ज़ूम इन करें। चित्र: Adobe

Adobe ने एक उदाहरण के रूप में अपने ब्लॉग में 2.5-मेगापिक्सेल फ़ोटो का उपयोग किया, और इसे 10 मिलियन पिक्सेल तक बड़ा करने के लिए सुपर-रिज़ॉल्यूशन फ़ंक्शन का उपयोग किया ताकि इसे "सभ्य" फ़ोटो में मुद्रित किया जा सके। Adobe इस प्रक्रिया को "डिजिटल ज़ूम" के रूप में वर्णित करता है। "

Adobe और Google के एल्गोरिदम की तुलना में, दोनों के बीच कुछ अंतर हैं। Adobe को RAW प्रारूप फ़ोटो की आवश्यकता होती है जो गणना के लिए बड़ी मात्रा में मूल जानकारी को बनाए रखते हैं, जबकि Google का एल्गोरिथ्म कुछ बहुत ही मोटे जानकारी के आधार पर फ़ोटो को पुनर्स्थापित कर सकता है।

Adobe का एल्गोरिथम बहुत सारी मशीन लर्निंग के माध्यम से प्रगति करना जारी रखता है। चित्र से: Adobe

वर्तमान में, दोनों एल्गोरिदम अभी भी पूरी तरह से परिपक्व नहीं हैं, और गणना और बहाली की सटीकता में सुधार के लिए बहुत सारी मशीन सीखने की आवश्यकता है।

लेकिन यह निश्चित है कि निकट भविष्य में सुपर-रिज़ॉल्यूशन तकनीक सबसे लोकप्रिय इमेजिंग तकनीकों में से एक बन जाएगी, जिससे लोगों को टेलीफोटो लेंस और अन्य उपकरणों की सीमाओं से छुटकारा पाने में मदद मिलेगी, और जीवन के हर विवरण और क्षण को रिकॉर्ड किया जा सकेगा। एक स्पष्ट दुनिया देखने के लिए, हमने खोज करना बंद नहीं किया है।

ऊँचा, ऊँचा।

#Aifaner के आधिकारिक WeChat खाते का अनुसरण करने के लिए आपका स्वागत है: Aifaner (WeChat ID: ifanr), जितनी जल्दी हो सके आपको अधिक रोमांचक सामग्री प्रदान की जाएगी।

ऐ फैनर | मूल लिंक · टिप्पणियां देखें · सिना वीबो