মেটার নতুন ওপেন-সোর্স এআই টুল আপনাকে টাইপ করেই শব্দের রেকর্ডিং পরিষ্কার করতে সাহায্য করে

অডিও পরিষ্কার করার অর্থ সাধারণত টাইমলাইন পরিষ্কার করা এবং ফিল্টার পরিবর্তন করা, তবে মেটা মনে করে যে এটি আপনার পছন্দসই শব্দ বর্ণনা করার মতোই সহজ হওয়া উচিত। কোম্পানিটি SAM অডিও নামে একটি নতুন ওপেন-সোর্স AI মডেল প্রকাশ করেছে যা সহজ টেক্সট প্রম্পট ব্যবহার করে জটিল রেকর্ডিং থেকে প্রায় যেকোনো শব্দ আলাদা করতে পারে।

ব্যবহারকারীরা জটিল সম্পাদনা সফ্টওয়্যার অনুসন্ধান না করেই কণ্ঠস্বর, যন্ত্র বা পটভূমির শব্দের মতো নির্দিষ্ট শব্দগুলি বের করতে পারেন। মডেলটি এখন মেটার সেগমেন্ট এনিথিং প্লেগ্রাউন্ডের মাধ্যমে উপলব্ধ যেখানে অন্যান্য প্রম্পট-ভিত্তিক চিত্র এবং ভিডিও সম্পাদনা সরঞ্জাম রয়েছে।

SAM অডিওর সাথে পরিচয় করিয়ে দিচ্ছি, এটি প্রথম একীভূত মডেল যা টেক্সট, ভিজ্যুয়াল বা স্প্যান প্রম্পট ব্যবহার করে জটিল অডিও মিশ্রণ থেকে যেকোনো শব্দকে আলাদা করে।
আমরা SAM অডিও সম্প্রদায়ের সাথে শেয়ার করছি, সাথে একটি উপলব্ধি এনকোডার মডেল, বেঞ্চমার্ক এবং গবেষণাপত্র, যাতে অন্যদের ক্ষমতায়ন করা যায়… pic.twitter.com/FuMJyULmJR
— মেটাতে এআই (@AIatMeta) ১৬ ডিসেম্বর, ২০২৫

বিস্তৃতভাবে বলতে গেলে, SAM অডিও এমনভাবে ডিজাইন করা হয়েছে যাতে আপনি কোন শব্দের সাথে কাজ করতে চান তা বুঝতে পারেন এবং এটিকে অন্য সবকিছু থেকে পরিষ্কারভাবে আলাদা করতে পারেন। মেটা বলে যে এটি সঙ্গীত উৎপাদন, পডকাস্টিং, চলচ্চিত্র এবং টেলিভিশন, অ্যাক্সেসিবিলিটি সরঞ্জাম এবং গবেষণার মতো ব্যবহারের ক্ষেত্রে দ্রুত অডিও সম্পাদনার দরজা খুলে দেয়।

উদাহরণস্বরূপ, একজন স্রষ্টা একটি ব্যান্ড রেকর্ডিং থেকে কণ্ঠস্বর আলাদা করতে পারেন, একটি পডকাস্ট থেকে ট্র্যাফিকের শব্দ মুছে ফেলতে পারেন, অথবা একটি নিখুঁত রেকর্ডিং থেকে একটি ঘেউ ঘেউ করা কুকুর মুছে ফেলতে পারেন, এই সবই মডেলটি কী লক্ষ্য করতে চায় তা বর্ণনা করে।

SAM অডিও কিভাবে কাজ করে

SAM অডিও একটি মাল্টিমোডাল মডেল যা তিনটি ভিন্ন ধরণের প্রম্পট সমর্থন করে। ব্যবহারকারীরা টেক্সট ব্যবহার করে একটি শব্দ বর্ণনা করতে পারেন, ভিডিওতে কোনও ব্যক্তি বা বস্তুর উপর ক্লিক করে তারা যে শব্দটি আলাদা করতে চান তা দৃশ্যত সনাক্ত করতে পারেন, অথবা একটি সময়কাল চিহ্নিত করতে পারেন যেখানে শব্দটি প্রথম প্রদর্শিত হয়। এই প্রম্পটগুলি এককভাবে বা একত্রিতভাবে ব্যবহার করা যেতে পারে, যা ব্যবহারকারীদের কী আলাদা করা হবে তার উপর সূক্ষ্ম নিয়ন্ত্রণ দেয়।

এর আড়ালে, সিস্টেমটি মেটার পারসেপশন এনকোডার অডিওভিজ্যুয়াল ইঞ্জিনের উপর নির্ভর করে। এটি মডেলের শব্দগুলিকে আলাদা করার আগে চিনতে এবং বোঝার ক্ষমতা হিসাবে কাজ করে।

অডিও বিচ্ছেদ মূল্যায়ন উন্নত করার জন্য, মেটা SAM অডিও-বেঞ্চও চালু করেছে, যা মডেলগুলি বক্তৃতা, সঙ্গীত এবং শব্দ প্রভাবগুলি কতটা ভালভাবে পরিচালনা করে তা পরিমাপের জন্য একটি মানদণ্ড। এর সাথে SAM অডিও জাজ রয়েছে, যা মূল্যায়ন করে যে পৃথক করা অডিওটি মানুষের শ্রোতাদের কাছে কতটা স্বাভাবিক এবং নির্ভুল শোনাচ্ছে, এমনকি তুলনা করার জন্য কোনও রেফারেন্স ট্র্যাক ছাড়াই।

মেটা দাবি করেছে যে এই মূল্যায়নগুলি দেখায় যে বিভিন্ন প্রম্পট প্রকার একত্রিত হলে SAM অডিও সবচেয়ে ভালো পারফর্ম করে এবং রিয়েল-টাইমের চেয়ে দ্রুত অডিও পরিচালনা করতে পারে, এমনকি স্কেলেও।

তবে, মডেলটির স্পষ্ট সীমাবদ্ধতা রয়েছে। এটি অডিও-ভিত্তিক প্রম্পট সমর্থন করে না, কোনও প্রম্পট ছাড়াই সম্পূর্ণ পৃথকীকরণ সম্পাদন করতে পারে না এবং একই রকম ওভারল্যাপিং শব্দের সাথে লড়াই করে, যেমন একটি গায়কদল থেকে একটি একক কণ্ঠকে আলাদা করা।

মেটা বলেছে যে তারা এই ক্ষেত্রগুলিকে উন্নত করার পরিকল্পনা করছে এবং ইতিমধ্যেই বাস্তব-বিশ্বের অ্যাপ্লিকেশনগুলি অন্বেষণ করছে, যার মধ্যে শ্রবণ-সহায়তা প্রস্তুতকারক এবং প্রতিবন্ধী ব্যক্তিদের সহায়তাকারী সংস্থাগুলির সাথে অ্যাক্সেসিবিলিটি কাজ অন্তর্ভুক্ত রয়েছে।

SAM অডিওর লঞ্চ মেটার বৃহত্তর AI পুশের সাথে সম্পর্কিত। কোম্পানিটি কোলাহলপূর্ণ পরিবেশের জন্য তার AI চশমাগুলিতে ভয়েস স্পষ্টতা উন্নত করছে , 2027 সালে আসার প্রত্যাশিত পরবর্তী প্রজন্মের মিশ্র বাস্তবতা চশমা তৈরির জন্য কাজ করছে এবং ChatGPT-এর সাথে প্রতিযোগিতা করতে পারে এমন একটি কথোপকথনমূলক AI তৈরি করছে, যা শব্দ, প্রেক্ষাপট এবং মিথস্ক্রিয়া বোঝে এমন AI মডেলগুলির উপর আরও বিস্তৃত ফোকাসের ইঙ্গিত দেয়।

"মেটার নতুন ওপেন-সোর্স এআই টুল" পোস্টটি আপনাকে টাইপ করে শব্দের রেকর্ডিং পরিষ্কার করতে সাহায্য করে, যা প্রথমে ডিজিটাল ট্রেন্ডসে প্রকাশিত হয়েছিল।