এইমাত্র, OpenAI এক সাথে তিনটি নতুন মডেল প্রকাশ করেছে! আমি এই উদ্দেশ্যে একটি নতুন ওয়েবসাইট তৈরি করেছি

এইমাত্র, OpenAI তার API-তে একটি নতুন প্রজন্মের অডিও মডেল চালু করার ঘোষণা করেছে, যার মধ্যে স্পিচ-টু-টেক্সট এবং টেক্সট-টু-স্পিচ ফাংশন রয়েছে, যা ডেভেলপারদের সহজেই শক্তিশালী ভয়েস এজেন্ট তৈরি করতে দেয়।

নতুন পণ্যের মূল হাইলাইটগুলি নীচে সংক্ষিপ্ত করা হয়েছে

  • gpt-4o-ট্রান্সক্রাইব (পাঠ্য থেকে বক্তৃতা): শব্দ ত্রুটির হারে উল্লেখযোগ্য হ্রাস (WER), একাধিক বেঞ্চমার্কে বিদ্যমান হুইস্পার মডেলগুলিকে ছাড়িয়ে যাওয়া
  • gpt-4o-মিনি-ট্রান্সক্রাইব (টেক্সট থেকে বক্তৃতা): gpt-4o-ট্রান্সক্রাইব এর একটি সুবিন্যস্ত সংস্করণ, দ্রুত এবং আরও দক্ষ
  • gpt-4o-mini-tts (টেক্সট-টু-স্পীচ): প্রথমবারের মতো "স্টিয়ারেবিলিটি" সমর্থন করে, ডেভেলপাররা শুধুমাত্র "কী বলতে হবে" তা নির্দিষ্ট করতে পারে না, "কীভাবে বলতে হবে" তাও নিয়ন্ত্রণ করতে পারে।

OpenAI-এর মতে, নতুন চালু করা gpt-4o-ট্রান্সক্রাইবকে দীর্ঘ সময়ের জন্য বিভিন্ন এবং উচ্চ-মানের অডিও ডেটা সেট ব্যবহার করে প্রশিক্ষণ দেওয়া হয়েছে, যা বক্তৃতার সূক্ষ্মতাগুলিকে আরও ভালভাবে ক্যাপচার করতে পারে, ভুল চেনা কমাতে পারে এবং ট্রান্সক্রিপশনের নির্ভরযোগ্যতাকে ব্যাপকভাবে উন্নত করতে পারে।

তাই, gpt-4o-ট্রান্সক্রাইব চ্যালেঞ্জিং পরিস্থিতি যেমন বিভিন্ন উচ্চারণ, কোলাহলপূর্ণ পরিবেশ এবং বক্তৃতার গতি পরিবর্তন করার জন্য আরও উপযুক্ত, যেমন গ্রাহক কল সেন্টার, মিটিং ট্রান্সক্রিপ্ট এবং অন্যান্য ক্ষেত্র।

gpt-4o-mini-ট্রান্সক্রাইব GPT-4o-মিনি আর্কিটেকচারের উপর ভিত্তি করে এবং জ্ঞান পাতন প্রযুক্তির মাধ্যমে বড় মডেলগুলি থেকে ক্ষমতা স্থানান্তর করে যদিও WER (যত কম তত ভালো) সম্পূর্ণ সংস্করণ মডেলের তুলনায় এটি এখনও ভাল এবং সীমিত সংস্থানগুলির সাথে অ্যাপ্লিকেশন পরিস্থিতিগুলির জন্য আরও উপযুক্ত কিন্তু এখনও উচ্চ মানের স্পিচের প্রয়োজন৷

FLEURS বহুভাষিক বেঞ্চমার্ক পরীক্ষায় এই দুটি মডেলের কর্মক্ষমতা বিদ্যমান হুইস্পার v2 এবং v3 মডেলগুলিকে ছাড়িয়ে গেছে, বিশেষ করে ইংরেজি, স্প্যানিশ এবং অন্যান্য ভাষায়।

মূল্যের ক্ষেত্রে, GPT-4o-ট্রান্সক্রাইব-এর দাম আগের হুইস্পার মডেলের মতোই, প্রতি মিনিটে $0.006, যেখানে GPT-4o-মিনি-ট্রান্সক্রাইব-এর অর্ধেক দাম, প্রতি মিনিটে $0.003।

একই সময়ে, OpenAI একটি নতুন gpt-4o-mini-tts টেক্সট-টু-স্পিচ মডেলও প্রকাশ করেছে। প্রথমবারের মতো, বিকাশকারীরা কেবল কী বলতে হবে তা নির্দিষ্ট করতে পারে না, তবে কীভাবে বলতে হবে তাও নিয়ন্ত্রণ করতে পারে।

বিশেষত, বিকাশকারীরা বিভিন্ন ধরনের ভয়েস শৈলী যেমন "শান্ত", "সার্ফার", "পেশাদার", "মধ্যযুগীয় নাইট" ইত্যাদি প্রিসেট করতে পারে। এটি নির্দেশাবলী অনুযায়ী ভয়েস স্টাইলকেও সামঞ্জস্য করতে পারে, যেমন "একজন সহানুভূতিশীল গ্রাহক পরিষেবা এজেন্টের মতো কথা বলুন।" মূল্য মাত্র $0.015 প্রতি মিনিটে।

নিরাপত্তাকে হালকাভাবে নেওয়া যায় না, এবং OpenAI বলে যে gpt-4o-mini-tts এর আউটপুট প্রিসেট সংশ্লেষণ শৈলীর সাথে সামঞ্জস্যপূর্ণ কিনা তা নিশ্চিত করার জন্য ক্রমাগত পর্যবেক্ষণ করা হবে।

এই প্রযুক্তিগত অগ্রগতির পিছনে OpenAI এর অনেক উদ্ভাবন রয়েছে:

  • নতুন অডিও মডেলটি GPT-4o এবং GPT-4o-মিনি আর্কিটেকচারে নির্মিত এবং বাস্তব অডিও ডেটা সেট ব্যবহার করে প্রাক-প্রশিক্ষিত
  • বড় মডেল থেকে ছোট মডেলে জ্ঞান স্থানান্তর অর্জনের জন্য স্ব-প্লে পদ্ধতি দ্বারা তৈরি পাতিত ডেটা সেটগুলির জ্ঞান পাতন পদ্ধতি প্রয়োগ করুন।
  • স্পীচ-টু-টেক্সট প্রযুক্তিতে রিইনফোর্সমেন্ট লার্নিং (RL) সংহত করা ট্রান্সক্রিপশনের সঠিকতাকে উল্লেখযোগ্যভাবে উন্নত করতে পারে এবং "বিভ্রম" ঘটনা কমাতে পারে।

ভোরবেলা লাইভ সম্প্রচারে, ওপেনএআই আমাদের এআই ফ্যাশন পরামর্শদাতা এজেন্টের একটি আবেদন কেস দেখিয়েছে।

যখন ব্যবহারকারী জিজ্ঞাসা করেছিল "আমার সর্বশেষ অর্ডারটি কী?", সিস্টেমটি মসৃণভাবে উত্তর দেয়: 9 ফেব্রুয়ারি ব্যবহারকারীর দ্বারা অর্ডার করা প্যাটাগোনিয়া শর্টস পাঠানো হয়েছে, এবং ফলো-আপ প্রশ্নে অর্ডার নম্বর "AD 507" সঠিকভাবে সরবরাহ করা হয়েছিল৷

এটি উল্লেখ করার মতো যে ওপেনএআই প্রদর্শক একটি ভয়েস এজেন্ট তৈরির জন্য দুটি প্রযুক্তিগত পথও চালু করেছে প্রথম "স্পিচ-টু-স্পিচ মডেল" এন্ড-টু-এন্ড সরাসরি প্রক্রিয়াকরণ পদ্ধতি ব্যবহার করে।

সিস্টেমটি সরাসরি ব্যবহারকারীর ভয়েস ইনপুট গ্রহণ করতে পারে এবং মধ্যবর্তী রূপান্তর পদক্ষেপ ছাড়াই ভয়েস উত্তর তৈরি করতে পারে। এই পদ্ধতিতে দ্রুত প্রক্রিয়াকরণের গতি রয়েছে এবং এটি ChatGPT-এর উন্নত ভয়েস মোড এবং রিয়েল-টাইম API পরিষেবাগুলিতে প্রয়োগ করা হয়েছে যেগুলির জন্য অত্যন্ত উচ্চ প্রতিক্রিয়ার গতির প্রয়োজন হয়৷

দ্বিতীয় "চেইন পদ্ধতি" এই সম্মেলনের ফোকাস।

এটি সম্পূর্ণ প্রক্রিয়াকরণ প্রক্রিয়াটিকে তিনটি স্বাধীন লিঙ্কে বিভক্ত করে: প্রথমত, একটি স্পিচ-টু-টেক্সট মডেল ব্যবহারকারীর স্পিচকে টেক্সটে রূপান্তর করতে ব্যবহার করা হয়, তারপর একটি বৃহৎ ভাষা মডেল (LLM) পাঠ্য বিষয়বস্তু প্রক্রিয়া করে এবং প্রতিক্রিয়া পাঠ্য তৈরি করে, এবং অবশেষে, একটি পাঠ্য-থেকে-স্পীচ মডেল প্রতিক্রিয়াটিকে স্বাভাবিক স্পিচ আউটপুটে রূপান্তর করতে ব্যবহৃত হয়।

এই পদ্ধতির সুবিধাগুলি হল মডুলার ডিজাইন, প্রতিটি উপাদান স্বাধীনভাবে অপ্টিমাইজ করা যেতে পারে, কারণ টেক্সট প্রসেসিং প্রযুক্তি সাধারণত সরাসরি অডিও প্রসেসিংয়ের চেয়ে বেশি পরিপক্ক হয়, বিকাশকারীরা দ্রুত বিদ্যমান টেক্সট সিস্টেমের উপর ভিত্তি করে ভয়েস ফাংশন যোগ করতে পারে।

ওপেনএআই এই ভয়েস ইন্টারঅ্যাকশন সিস্টেমগুলিতে বেশ কয়েকটি বর্ধন প্রদান করে:

  • ক্রমাগত অডিও ইনপুট এবং আউটপুটের জন্য ভয়েস স্ট্রিমিং সমর্থন করে
  • অন্তর্নির্মিত শব্দ বাতিলকরণ ফাংশন বাক স্বচ্ছতা উন্নত করে।
  • শব্দার্থগত বক্তৃতা কার্যকলাপ সনাক্তকরণ, ব্যবহারকারীর কথা বলা শেষ হলে সনাক্ত করতে সক্ষম
  • ডেভেলপারদের ভয়েস এজেন্ট ডিবাগ করার সুবিধার্থে ট্র্যাকিং UI টুল প্রদান করুন

বর্তমানে, এই নতুন অডিও মডেলগুলি বিশ্বব্যাপী বিকাশকারীদের জন্য উপলব্ধ।

এছাড়াও আপনি http://OpenAI.fm-এ gpt-4o-mini-tts-সম্পর্কিত অডিও তৈরি করতে পারেন।

আমরা একটি জিভ টুইস্টার পরীক্ষা করেছি প্রায় আটশত পেসেটর উত্তর ঢালের উপর দিয়ে চলেছে, চীনা সংস্করণটি ঠিক তেমনই ছিল। ইংরেজি প্রভাবের জন্য, কবিতা আবৃত্তি করা শুনতে অনেকটা সত্যিকারের মানুষের মতো, তবে আগের জনপ্রিয় হিউম এআই বা তিলের সাথে তুলনা করলে, এটি এখনও "মানুষের কানে শ্রবণযোগ্য" হিসাবে ভাল নয়।

উপরন্তু, OpenAI এজেন্ট SDK-এর সাথে উন্নয়ন প্রক্রিয়াকে আরও সহজ করার জন্য একীকরণ চালু করেছে।

উল্লেখ্য যে ওপেনএআই একটি সম্প্রচার প্রতিযোগিতাও আয়োজন করেছিল। ব্যবহারকারীরা http://OpenAI.fm-এ অডিও তৈরি করতে পারেন, তারপর একটি লিঙ্ক তৈরি করতে OpenAI.fm-এ "শেয়ার" বোতামটি ব্যবহার করতে পারেন এবং তারপর X প্ল্যাটফর্মে লিঙ্কটি শেয়ার করতে পারেন৷

শীর্ষ তিনজন সবচেয়ে সৃজনশীল প্রতিযোগী প্রত্যেকে একটি সীমিত সংস্করণ টিনেজ ইঞ্জিনিয়ারিং OB-4 পাবে। এটি সুপারিশ করা হয় যে অডিও সময়কাল প্রায় 30 সেকেন্ডে নিয়ন্ত্রিত হয় এবং আপনি ভয়েস, অভিব্যক্তি, উচ্চারণ বা স্ক্রিপ্টের স্বর পরিবর্তনে সৃজনশীল হতে পারেন।

প্রকৃতপক্ষে, এআই-এর প্রবণতাও এই বছর নিঃশব্দে পরিবর্তিত হচ্ছে, এখনও IQ-এর উপর জোর দেওয়ার পাশাপাশি আবেগের উপর জোর দেওয়ার একটি অতিরিক্ত প্রবণতাও রয়েছে।

GPT-4.5 এবং Grok 3-এর বিক্রির পয়েন্টগুলি হল মানসিক বুদ্ধিমত্তা, আরও সৃজনশীল লেখা এবং আরও ব্যক্তিগতকৃত প্রতিক্রিয়া, যখন ঠান্ডা রোবট (ঝিউয়ান রোবট) আরও নৃতাত্ত্বিক হওয়ার উপর জোর দেয় এবং একটি আবেগগত মূল্যের উপর ফোকাস করে।

যেহেতু এটি সরাসরি মানুষের যোগাযোগের সবচেয়ে সহজাত উপায়কে স্পর্শ করে, ভয়েস ফিল্ড এই ক্ষেত্রে আরও বেশি উল্লেখযোগ্য প্রচেষ্টা করেছে।

Sesame AI, যা সম্প্রতি সিলিকন ভ্যালিতে জনপ্রিয় হয়ে উঠেছে, রিয়েল টাইমে ব্যবহারকারীর আবেগ অনুধাবন করতে পারে এবং আবেগগতভাবে অনুরণিত প্রতিক্রিয়া তৈরি করতে পারে, দ্রুত বিপুল সংখ্যক ব্যবহারকারীর হৃদয় কেড়ে নিতে পারে। টুরিং পুরষ্কার বিজয়ী ইয়ান লেকুনও সম্প্রতি জোর দিয়েছিলেন যে ভবিষ্যতের AI এর আবেগ থাকা দরকার।

আজ OpenAI দ্বারা প্রকাশিত নতুন ভয়েস মডেল হোক বা শীঘ্রই প্রকাশিত হওয়া Meta Llama 4, উভয়ই ইচ্ছাকৃতভাবে নেটিভ ভয়েস সংলাপের কাছাকাছি চলে যাচ্ছে, আরও স্বাভাবিক আবেগপূর্ণ মিথস্ক্রিয়াগুলির মাধ্যমে ব্যবহারকারীদের কাছাকাছি যাওয়ার চেষ্টা করছে এবং ভক্তদের আকৃষ্ট করতে "মানব স্পর্শ" এর উপর নির্ভর করছে।

AI কি মানুষ হতে হবে? অনেকদিন ধরে। চ্যাটবটগুলিকে প্রায়শই আবেগহীন সরঞ্জাম হিসাবে সংজ্ঞায়িত করা হয় এবং তারা আপনাকে কথোপকথনের সময় মনে করিয়ে দেবে যে এটি একটি আত্মাহীন মডেল। যাইহোক, আমরা প্রায়ই এটি থেকে মানসিক মূল্য ব্যাখ্যা করতে পারি, এবং এমনকি এটির সাথে অচেতনভাবে মানসিক সংযোগ স্থাপন করতে পারি।

সম্ভবত মানুষের একটি সহজাত ইচ্ছা আছে বোঝার এবং সাথে থাকার, এমনকি যদি এই বোঝাপড়াটি একটি মেশিন থেকে আসে।

# Aifaner এর অফিসিয়াল WeChat পাবলিক অ্যাকাউন্ট অনুসরণ করতে স্বাগতম: Aifaner (WeChat ID: ifanr) যত তাড়াতাড়ি সম্ভব আপনাকে আরও উত্তেজনাপূর্ণ সামগ্রী সরবরাহ করা হবে।

Ai Faner | মূল লিঙ্ক · মন্তব্য দেখুন · Sina Weibo