গুগল এর লাইরা লো বিট্রেট স্পিচ কোডেককে সর্বজনীন করে তোলে

সমস্ত বিকাশকারীকে অবিশ্বাস্য মানের নিম্ন-বিটরেট অডিও প্রসেসিং উপলব্ধ করে গুগল গিটহাবে তার লায়ার অডিও কোডেক বিটা উত্স কোড প্রকাশ করেছে। এম্বেড এবং ব্যান্ডউইথ সীমাবদ্ধ পরিস্থিতিতে কোডেক সর্বাধিক দরকারী যেখানে যতটা সম্ভব ডেটা সংরক্ষণ করা দরকার।

লীরা: প্রায় কোনও কিছুই কখনই ভালো লাগেনি

অডিও কোডেক সর্বাধিক প্রাকৃতিক-সাউন্ডিং স্পিচকে সম্ভাব্যতম সর্বনিম্ন হারের সাথে প্রদান করার নীতিতে কাজ করে। এটি 3 কেবিপিএস হিসাবে কম বিট্রেটগুলির সাথে অডিও প্রজননের প্রায় বিস্ময়কর স্তর তৈরি করতে সফল হয়। গুগল ইতিমধ্যে তার ডুও অ্যাপ্লিকেশনটিতে রিয়েল-টাইম লীরা সংক্ষেপণ ব্যবহার করে , যদিও আপনাকে নিয়মিত ব্যান্ডউইথ অডিও থেকে কোনও পার্থক্য উপলব্ধি না করার জন্য দোষ দেওয়া হবে না।

অন্যান্য কোডেকগুলির তুলনায় লীরা কতটা উন্নত তা প্রদর্শনের জন্য গুগল মেশিন লার্নিং চালিত সংকোচনের কোডকে অন্যান্য 3 এবং 6 কেবিপিএস বিকল্পের সাথে তুলনা করে একটি ব্লগ পোস্টের মাধ্যমে উদাহরণ সরবরাহ করে।

এটি একটি রাতের দিনের পার্থক্য, এবং এই সরঞ্জামগুলির মাধ্যমে বিশ্ব বিকাশকারীদেরকে যোগাযোগের মানের উন্নতি করার ক্ষেত্রে একটি গুরুত্বপূর্ণ চালক হবে যেখানে ব্যান্ডউইথের দুষ্প্রাপ্যতা রয়েছে। এটি উদীয়মান বাজারগুলিতে নতুন অ্যাপ্লিকেশন তৈরি করতে খুঁজছেন বিকাশকারীদের জন্যও একটি দুর্দান্ত অনুপ্রেরণা, এমন কিছু যা এই বছরের নিখরচায় ভার্চুয়াল গুগল আই / ও অনলাইনে সম্মেলনে গুগল নিশ্চিত করে।

বিটা উত্স কোডটি বর্তমানে -৪-বিট আর্ম ডিভাইসগুলি মাথায় রেখে তৈরি করা হয়েছে, যদিও উদাহরণগুলি 64৪-বিট x86 লিনাক্স সিস্টেমেও চলবে। উত্স কোডটি সম্পূর্ণরূপে নথিভুক্ত করা হয়েছে, যদিও এটি বিটাতে রয়েছে, এবং গিটহাব পৃষ্ঠাটি আর্ম 64৪-বিট লক্ষ্যগুলির জন্য লিনাক্সে লায়ারাকে কীভাবে তৈরি করবেন সে সম্পর্কে ইনস্টলেশন সংক্রান্ত নির্দেশাবলী এবং প্রদান করে।

লাইরা বিটা সোর্স কোডটি পেতে লাইরা গিটহাব পৃষ্ঠায় যান

লাইরা কীভাবে কাজ করে?

লাইরা যে প্রকৃত প্রক্রিয়াটি ব্যবহার করে তা হ'ল হাজার ঘন্টা স্পিচ ডেটা এবং বিদ্যমান অডিও কোডেক প্রযুক্তির অপ্টিমাইজেশনের উপর প্রশিক্ষিত মেশিন লার্নিং মডেলের একটি অবিশ্বাস্যভাবে জটিল সংমিশ্রণ, তত্ত্বটি বেশ সহজ।

প্রতি 40 মিমি, বৈশিষ্ট্যগুলি স্পিচ থেকে নেওয়া হয় এবং 3 কেবিপিএস থেকে কমপ্রেস করা হয়। এই বৈশিষ্ট্যগুলি মানব শ্রাবণ বক্তৃতা প্রতিক্রিয়ার নিকটতম ফ্রিকোয়েন্সি বর্ণালী জুড়ে স্পিচ এনার্জি পয়েন্টগুলি উপস্থাপন করে – যে কেউ যখন কথা বলে তখন আমাদের যে জিনিসগুলি সনাক্ত করতে এবং বুঝতে হবে।

লাইরা কী বিশেষ করে তোলে তার মূল অংশটি কীভাবে এই তথ্যটি ব্যবহার করে:

তবে traditionalতিহ্যবাহী প্যারাম্যাট্রিক কোডেকগুলি, যা কেবল স্পিচ সমালোচনামূলক পরামিতিগুলি থেকে উত্তোলন করে যা গ্রহণের শেষে সিগন্যালটি পুনরায় তৈরি করতে, কম বিটরেট অর্জন করতে ব্যবহৃত হতে পারে, তবে প্রায়শই রোবোটিক এবং অপ্রাকৃত শব্দ বলে মনে হয়। এই ত্রুটিগুলি একটি নতুন প্রজন্মের উচ্চ-মানের অডিও জেনারেটাল মডেলগুলির বিকাশের দিকে পরিচালিত করেছে যা কেবলমাত্র সংকেতগুলির মধ্যে পার্থক্য করতে সক্ষম না হয়ে পুরোপুরি নতুন তৈরি করতে সক্ষম হয়ে ক্ষেত্রটি বিপ্লব ঘটিয়েছে।

সংক্রমণের পরে, লাইরা এই প্রক্রিয়াটি ব্যবহার করে যা অনুপস্থিত তা পূরণ করে তরঙ্গরূপটি পুনর্নির্মাণ করে, অন্যদিকে কোনওরকম খুব বেশি সংখ্যক জটিল হয় নি।

একদিকে, এটি একটি প্রযুক্তিগত বিস্ময় যা প্রায় যে কোনও জায়গায় চলবে। অন্যদিকে, আমি এখনও 100% বিশ্বাস করি না এটি যাদুবিদ্যাই নয়।