বসন্ত উত্সব ছুটির সময়, ডিপসিক, পূর্ব থেকে একটি রহস্যময় শক্তি, সিলিকন ভ্যালিতে জনমতের ক্ষেত্রকে ছিঁড়ে ফেলে।
একদিকে, ওপেনএআই এবং অ্যানথ্রপিক-এর মতো নির্মাতাদের দ্বারা লবিং এবং দমন করা হয়েছিল, কিন্তু অন্যদিকে, তারা তাদের মিত্রদের অপ্রস্তুত মনোভাবের প্রত্যক্ষ করেছিল মাত্র এক রাতে, আমেরিকান ক্লাউড কম্পিউটিং প্ল্যাটফর্ম যেমন মাইক্রোসফ্ট, এনভিআইডিএ এবং অ্যামাজন ডিপসিক R1-তে জলপাইয়ের শাখা প্রসারিত করেছিল।
ডিপসিকের গতিতে ক্রমাগত উত্থানের সম্মুখীন, সবচেয়ে শক্তিশালী পাল্টা ব্যবস্থা হল শক্তির উপর নির্ভর করা।
আজ সকালে, OpenAI আনুষ্ঠানিকভাবে OpenAI o3-মিনি সিরিজের মডেল লঞ্চ করেছে।
o1-মিনি মডেলের উত্তরসূরি হিসেবে, o3-mini হল বর্তমান অনুমান সিরিজের সর্বশেষ এবং সবচেয়ে সাশ্রয়ী মডেল। OpenAI গবেষণা বিজ্ঞানী নোয়াম ব্রাউন X প্ল্যাটফর্মে পোস্ট করেছেন:
"আমরা বিনামূল্যে ব্যবহারকারীদের জন্য এটি খোলা সহ o3-মিনি চালু করতে খুবই উত্তেজিত। একাধিক মূল্যায়নে, এটি o1কে ছাড়িয়ে গেছে। আমরা খরচ এবং বুদ্ধিমত্তার মধ্যে সম্পর্কের বিপ্লব ঘটাচ্ছি। মডেল বুদ্ধিমত্তার উন্নতি হতে থাকবে, এবং একই স্তরের বুদ্ধিমত্তা অর্জনের খরচ কমতে থাকবে।"
o3-মিনি সিরিজের মডেলগুলির নির্দিষ্ট হাইলাইটগুলি নিম্নরূপ:
- o3-mini দ্রুত যুক্তিতে ফোকাস করে, যখন o3-mini (উচ্চ) কোডিং এবং যুক্তিতে ভাল।
- অনলাইন অনুসন্ধান সমর্থন করে এবং রিয়েল টাইমে ইন্টারনেট তথ্য পুনরুদ্ধার এবং সংক্ষিপ্ত করতে পারে।
- প্রশিক্ষণের ডেটা কঠোরভাবে স্ক্রীন করা হয় এবং নিরাপত্তা সম্মতি কর্মক্ষমতা উন্নত করা হয়
অর্থপ্রদানকারী ব্যবহারকারীদের ক্ষেত্রে, ChatGPT Plus, Team এবং Pro ব্যবহারকারীরা এখন o3-mini ব্যবহার করতে পারবেন এবং এন্টারপ্রাইজ সংস্করণটি এক সপ্তাহের মধ্যে অ্যাক্সেসযোগ্য হবে।
OpenAI প্লাস এবং টিম ব্যবহারকারীদের জন্য দৈনিক বার্তা সীমা o1-mini-এর জন্য 50 থেকে বাড়িয়ে 150 করেছে৷ প্রো ব্যবহারকারীরা উচ্চতর তীব্রতা বা আরও পেশাদার যুক্তির প্রয়োজন মেটাতে o3-mini এবং o3-mini-high-এ সীমাহীন অ্যাক্সেস উপভোগ করতে পারে।
একই সময়ে, এটিও প্রথমবার যে ওপেনএআই বিনামূল্যে ব্যবহারকারীদের জন্য অনুমান মডেলের ব্যবহার খুলেছে আপনি ChatGPT বার্তা ইনপুট বক্সের নীচে "কারণ" বোতামটি নির্বাচন করে এটি ব্যবহার করতে পারেন৷
এটা উল্লেখ করার মতো যে OpenAI o3-mini একটি সার্চ ফাংশনকে সংহত করে, যা রিয়েল টাইমে সর্বশেষ উত্তর পেতে পারে এবং প্রাসঙ্গিক ওয়েব লিঙ্ক সংযুক্ত করতে পারে যাতে ব্যবহারকারীদের গভীরভাবে গবেষণা করতে সুবিধা হয়। এটি বর্তমানে একটি প্রোটোটাইপ বৈশিষ্ট্য এবং ভবিষ্যতে আরও অনুমান মডেলগুলিতে উন্নত এবং প্রসারিত হতে থাকবে।
o3-mini হল OpenAI-এর প্রথম ছোট অনুমান মডেল যা উন্নত ফাংশন যেমন ফাংশন কল, স্ট্রাকচার্ড আউটপুট এবং ডেভেলপার মেসেজ সমর্থন করে এবং বাক্সের বাইরে ব্যবহার করা যেতে পারে।
o1-mini এবং o1-প্রিভিউ-এর মতো, o3-mini স্ট্রিমিংকে সমর্থন করে ডেভেলপাররাও নির্দিষ্ট চাহিদা অনুযায়ী কম, মাঝারি এবং উচ্চ অনুমানের মধ্যে বেছে নিতে পারে এবং জটিল টাস্ক প্রসেসিং এবং রেসপন্স স্পিডের মধ্যে বেছে নিতে পারে।
পরীক্ষাগুলি দেখায় যে o3-mini-এর গড় প্রতিক্রিয়া সময় 7.7 সেকেন্ড, যা o1-mini-এর 10.16 সেকেন্ডের চেয়ে 24% দ্রুত। একই সময়ে, বিশেষজ্ঞ মূল্যায়নে, 56% পর্যালোচকরা o3-mini-এর উত্তর বেছে নেওয়ার দিকে বেশি ঝুঁকেছিলেন, এবং জটিল ব্যবহারিক সমস্যা মোকাবেলা করার সময় প্রধান ত্রুটির হারও 39% কমে গিয়েছিল।
o3-mini-এর সিস্টেম কার্ডে উল্লেখ করা হয়েছে যে সপ্তাহব্যাপী মূল্যায়নের সময়, সাতজন মানব জীববিজ্ঞান বিশেষজ্ঞ জটিল জৈবিক বিষয়ে o3-mini (প্রি-প্রশিক্ষিত সংস্করণ) এর সাথে একাধিক দফা সংলাপ পরিচালনা করেছেন।
বিশেষজ্ঞরা সম্মত হন যে এমনকি ইন্টারনেট অ্যাক্সেস না করেও, o3-mini-এর প্রশ্ন-উত্তর ক্ষমতা এখনও শক্তিশালী এবং শুধুমাত্র তথ্য পুনরুদ্ধার প্রক্রিয়াকে ত্বরান্বিত করতে পারে না, এমন তথ্যও সরবরাহ করতে পারে যা ইন্টারনেটে খুঁজে পাওয়া কঠিন।
এছাড়াও, বিশেষজ্ঞরা আরও খুঁজে পেয়েছেন যে মডেলটি সাহিত্য পর্যালোচনা এবং প্রশ্নের উত্তরে ভাল পারফর্ম করেছে এবং সাহিত্যকে দ্রুত এবং ব্যাপকভাবে সাজাতে পারে। যাইহোক, এটিও লক্ষ করা উচিত যে মডেলটি মাঝে মাঝে হ্যালুসিনেশন প্রদর্শন করে, যা বিস্তারিত তথ্যে বিচ্যুতি ঘটায়।
মূল দক্ষতা মূল্যায়নে, o3-mini একটি অসামান্য রিপোর্ট কার্ড প্রদান করেছে। উন্নত যুক্তি মোডে, এটি 2024 AIME গণিত প্রতিযোগিতায় 87.3% নির্ভুলতা অর্জন করেছে।
পিএইচডি-স্তরের বৈজ্ঞানিক প্রশ্ন ও উত্তরের টাস্ক GPQA ডায়মন্ড 77.2% পর্যন্ত স্কোর করেছে।
প্রতিযোগিতামূলক প্রোগ্রামিং প্ল্যাটফর্ম কোডফোর্সে, o3-মিনি (উচ্চ) এমনকি 2130 এর ELO স্কোর অর্জন করেছে।
সফ্টওয়্যার প্রকৌশল ক্ষেত্রে, o3-miniও ভাল পারফর্ম করে।
SWE-বেঞ্চ যাচাইকরণ পরীক্ষায়, অভ্যন্তরীণ টুল ফ্রেমওয়ার্ক ব্যবহার করার সময় উন্নত অনুমান মোডে নির্ভুলতার হার 49.3% এ পৌঁছেছে, এই সংখ্যাটি 61%-এ পৌঁছেছে। এমনকি ওপেন সোর্স এজেন্টলেস ফ্রেমওয়ার্ক ব্যবহার করেও, o3-mini এখনও 39% পাসের হার বজায় রাখে।
o3-mini (মাঝারি) জয়ের হার একাধিক টাস্ক পরিস্থিতিতে o1-mini-এর তুলনায় উল্লেখযোগ্যভাবে বেশি, সে STEM টাস্ক, নন-STEM টাস্ক, বা যখন ব্যবহারকারীর সময়সীমার মধ্যে থাকে। o1-mini আরও গড়, কিন্তু জয়ের হার এবং ত্রুটির হারের ক্ষেত্রে o3-mini (মাঝারি) হিসাবে অসামান্য নয়৷
o3-মিনি মডেলটি চেইন-অফ-থট রিজনিং প্রশিক্ষণ পদ্ধতি গ্রহণ করে, যা মডেলটিকে ব্যবহারকারীকে প্রতিক্রিয়া জানানোর আগে নিরাপত্তার বৈশিষ্ট্য সম্পর্কে যুক্তি দিতে দেয় তাই নিরাপত্তা এবং অ্যান্টি-জেলব্রেক পরীক্ষায় এর কার্যকারিতা উল্লেখযোগ্যভাবে উন্নত করা হয়েছে।
সিস্টেম কার্ড দেখায় যে o3-mini-এর চমৎকার ঝুঁকি নিয়ন্ত্রণ ক্ষমতা রয়েছে।
মডেলটি প্ররোচনা, CBRN (রাসায়নিক, জৈবিক, রেডিওলজিক্যাল, নিউক্লিয়ার) এবং মডেল স্বায়ত্তশাসনের ক্ষেত্রে মাঝারি ঝুঁকি উপস্থাপন করে, সাইবার নিরাপত্তার ক্ষেত্রে কম ঝুঁকি বজায় রাখে, যেমন কঠিন হ্যাকিং কাজগুলি কার্যকরভাবে সম্পাদন করতে না পারা এবং বাস্তব বিশ্বের সাইবার হুমকির বিরুদ্ধে সীমিত ক্ষমতা।
এছাড়াও, o3-mini বিপজ্জনক অনুরোধগুলি সনাক্তকরণ এবং প্রত্যাখ্যান করার ক্ষেত্রে GPT-4o-এর সমতুল্য, যেখানে ক্ষতিকারক অনুরোধগুলির ভুল বিচারকে ব্যাপকভাবে হ্রাস করে, কার্যকরভাবে অতিরিক্ত সতর্কতার সমস্যা সমাধান করে।
বিভ্রম নিয়ন্ত্রণের পরিপ্রেক্ষিতে, PersonQA ডেটা সেটের উপর ভিত্তি করে পরীক্ষাগুলি দেখায় যে এর ত্রুটি তথ্য তৈরির হার 14.8% এর নিয়ন্ত্রণযোগ্য স্তরে হ্রাস পেয়েছে।
বড় মডেলের ব্যবহারিকতা পরিমাপ করার জন্য ক্রস-ভাষা প্রক্রিয়াকরণ ক্ষমতা একটি গুরুত্বপূর্ণ সূচক।
o3-mini মাল্টি-ল্যাংগুয়েজ প্রসেসিং ক্ষমতা পরীক্ষা আরবি, চাইনিজ, ফ্রেঞ্চ, জার্মান, জাপানিজ এবং স্প্যানিশ সহ 14টি মূলধারার ভাষাকে বিস্তৃত করে, যা o1-মিনির তুলনায় উল্লেখযোগ্যভাবে উন্নত।
o3-mini-এর খরচ o1 এর থেকে উল্লেখযোগ্যভাবে কম (প্রায় 13.6 গুণ সস্তা), এবং ক্যাশে ইনপুট (ক্যাশেড ইনপুট) এর খরচ স্ট্যান্ডার্ড ইনপুট খরচের অর্ধেক।
কাগজের লেখক কলামে একটি পরিচিত নামও উপস্থিত হয়েছিল – হংইউ রেন।
রেন হংইউ পিকিং ইউনিভার্সিটি থেকে স্নাতক ডিগ্রি অর্জন করেছেন এবং তিনি GPT-4o-এর মূল বিকাশকারী, অ্যাপল, মাইক্রোসফ্ট এবং এনভিআইডিআইএ-তে তাঁর ব্যাপক গবেষণার অভিজ্ঞতা রয়েছে৷
সমস্ত কথা বলা এবং কোন অনুশীলন নেই, আমরা অবিলম্বে O3-mini এবং o3-mini(high) এর দুটি সংস্করণ পরীক্ষা করেছি যেগুলি সবেমাত্র চালু হয়েছে।
প্রথমে, o3-mini-এর নতুন অনুসন্ধান ফাংশনটি পরীক্ষা করুন এবং এটিকে OpenAI-এর সর্বশেষ অর্থায়নের খবর জানতে দিন এবং সময়োপযোগীতা ভাল এবং এটি সঠিকভাবে ওয়াল স্ট্রিট জার্নালের মূল প্রতিবেদনে খুঁজে পাওয়া যেতে পারে।
তারপরে, আমরা একটি মস্তিষ্কের টিজার ছুঁড়েছি "1=5, 2=15, 3=215, 4=2145, তারপর 5=?" এই প্রশ্নের দুটি সমাধান আছে: 1=5 থেকে, তারপর 5=1 গাণিতিক যুক্তির দৃষ্টিকোণ থেকে, উত্তরটি হওয়া উচিত। স্পষ্টতই, o3-miniও সঠিক উত্তর পায়নি।
আরও শক্তিশালী o3-মিনি (উচ্চ) পরীক্ষা করার জন্য, আমরা একটি পরিসংখ্যানগত প্রশ্ন উত্থাপন করেছি
"100 জন পাঁচটি পরীক্ষার প্রশ্নের উত্তর দিয়েছে। 81 জন সঠিকভাবে প্রথম প্রশ্নের উত্তর দিয়েছে, 91 জন লোক দ্বিতীয় প্রশ্নের সঠিক উত্তর দিয়েছে, 85 জন লোক তৃতীয় প্রশ্নের সঠিক উত্তর দিয়েছে, 79 জন লোক চতুর্থ প্রশ্নের সঠিক উত্তর দিয়েছে, এবং 74 জন লোক পঞ্চম প্রশ্নের সঠিক উত্তর দিয়েছে। যারা তিন বা তার বেশি প্রশ্নের সঠিক উত্তর দিয়েছে তারা উত্তীর্ণ বলে বিবেচিত হবে। তারপর, এই 10 জনের মধ্যে কমপক্ষে 10 জন পাস করেছে।"
o3-mini সিরিজের "চিন্তা" প্রক্রিয়াটি প্রদর্শিত হতে পারে, কিন্তু DeepSeek R1-এর "চিন্তা"-শৈলীর চিন্তাধারার বিপরীতে, o3-মিনি (উচ্চ) এর চিন্তা প্রক্রিয়া আরও সংক্ষিপ্ত এবং স্পষ্ট।
এক্স নেটিজেন উত্তল ফাংশনগুলির গ্রেডিয়েন্ট প্রবাহ পথের দৈর্ঘ্য সম্পর্কে একটি প্রশ্ন জিজ্ঞাসা করেছিল, এবং o3-মিনি(উচ্চ) পরীক্ষাটি সফলভাবে প্রতিরোধ করেছিল।
নেটিজেনরা এটিকে কচ্ছপ এবং খরগোশ সম্পর্কে একটি ক্লাসিক গল্প তৈরি করতে বলেছিল, তবে এটিকে নিয়ম মেনে চলতে হবে যে প্রতিটি শব্দের প্রথম অক্ষরটি আগের শব্দের শেষ অক্ষরের মতো ছিল এবং এটি 100টি শব্দের মধ্যে সীমাবদ্ধ ছিল।
কচ্ছপ এবং খরগোশ সম্পর্কে একটি গল্প তৈরি করতে এবং "প্রথম শব্দের শেষ অক্ষরটি দ্বিতীয় শব্দের প্রথম অক্ষরের সমান" এই নিয়মটি অনুসরণ করতে এবং 100 শব্দের মধ্যে দৈর্ঘ্য নিয়ন্ত্রণ করতে বলা হলে, o3-mini(high) একটি পাসিং উত্তরও দেয়।
গল্পের যুক্তির দৃষ্টিকোণ থেকে, যদিও কিছু বাক্য কিছুটা ভোঁতা, গল্পটি এখনও স্পষ্টভাবে কচ্ছপ এবং খরগোশের মূল অর্থ প্রকাশ করে।
অবশ্যই, এমন কিছু নেটিজেনও আছেন যারা এটি ব্যবহার করে দেখতে চান এবং গণিতের চূড়ান্ত সমস্যা – রিম্যান হাইপোথিসিসকে চ্যালেঞ্জ করার জন্য o3-miniকে আমন্ত্রণ জানাতে চান।
অসহায় o3-মিনিকে বোকা বানানো হয়নি, এবং স্পষ্টভাবে উল্লেখ করেছেন যে রিম্যান হাইপোথিসিস এখনও গাণিতিক জগতে একটি অমীমাংসিত সমস্যা, তাই এটি একটি সঠিক প্রমাণ বা পাল্টা উদাহরণ প্রদান করতে পারে না।
আসলে, AI গত কয়েক বছরে আমাদের জীবনে উদ্বেগজনক হারে প্রবেশ করছে।
2023 সালে ChatGPT থেকে, 2024 সালে Sora এবং তারপর 2025 সালে DeepSeek পর্যন্ত, প্রতি বছর নতুন চমক রয়েছে এবং AI প্রযুক্তিগত অগ্রগতিগুলি বসন্ত উৎসবের সময় সাইবার নববর্ষের পণ্য হয়ে উঠছে।
ডিপসিকের উত্থান শিল্পকে হতবাক করেছে। প্রধান AI জায়ান্টরা পৃষ্ঠে ডিপসিক থেকে দূরত্ব বজায় রাখে, কিন্তু প্রকৃতপক্ষে তারা গোপনে চিনতে পারে এবং অবকাঠামো অপ্টিমাইজেশানে এটি যে "উপন্যাস অগ্রগতি" করেছে তার প্রতিলিপি করতে প্রতিশ্রুতিবদ্ধ।
মেটা এমনকি ফ্রেম দ্বারা তার প্রযুক্তি ফ্রেম শিখতে একটি দল সেট আপ.
যাইহোক, শিল্পে একটি ঐক্যমত রয়েছে যে ডিপসিকের জন্য প্রয়োজনীয় AI অবকাঠামো বিনিয়োগকে প্রভাবিত করা কঠিন।
এই রায় পুঁজিবাজারে দ্রুত নিশ্চিত হয়। জুকারবার্গ একটি অভ্যন্তরীণ বৈঠকের সময় অতিরিক্ত US$60-65 বিলিয়ন পুঁজি বিনিয়োগের পরিকল্পনার কথা পুনর্ব্যক্ত করেছেন যে এটি SoftBank এর সাথে বিশাল অর্থায়ন নিয়ে আলোচনা করছে এবং এর বিনিয়োগ-পরবর্তী মূল্যায়ন US$300 বিলিয়ন হতে পারে।
এখানে জন্ম ও বেড়ে ওঠা, ওপেনএআই o3-মিনি একটি নির্দিষ্ট পরিমাণে পূর্ববর্তী AI অবকাঠামো বিনিয়োগের বুম থেকে জন্ম নিয়েছে।
কিন্তু যতদূর এই লাইটওয়েট মডেলটি উদ্বিগ্ন, o3-mini আরও গভীর স্তরে ইঙ্গিত দেয় যে AI শিল্পে প্রতিযোগিতা স্কেল থেকে দক্ষতার দিকে স্থানান্তরিত হচ্ছে এবং কীভাবে সর্বোত্তম খরচে সর্বাধিক মান তৈরি করা যায় তা উন্নয়নের জন্য একটি নতুন প্রস্তাবে পরিণত হবে।
ওপেনএআই-এর জন্য, এই ক্রমবর্ধমান তীব্র প্রতিযোগিতায় সত্যিকারের ফার্স্ট-মুভার সুবিধা প্রতিষ্ঠা করার জন্য অল্প সময়ের মধ্যে জনমত পুনরুদ্ধার করা কঠিন নয়, বিশুদ্ধ প্রযুক্তিগত অগ্রগতি আর যথেষ্ট নয়, এবং প্রযুক্তি ব্র্যান্ড ইমেজের মূল্যকে উপেক্ষা করা যায় না।
বিশেষ করে, ডিপসিক, আসল ওপেনএআই নামে পরিচিত, ওপেন সোর্স এআই নেতার পরিবেশগত কুলুঙ্গি দৃঢ়ভাবে দখল করতে শুরু করেছে।
ক্লোজড সোর্স প্রাচীর যত বেশি হবে, ওপেন সোর্সের শক্তি তত বেশি মূল্যবান হবে।
2025 সালে, ওপেন সোর্স এবং ক্লোজড সোর্সের মধ্যে প্রকৃত যুদ্ধ শুরু হতে পারে।
# Aifaner এর অফিসিয়াল WeChat পাবলিক অ্যাকাউন্ট অনুসরণ করতে স্বাগতম: Aifaner (WeChat ID: ifanr) যত তাড়াতাড়ি সম্ভব আপনাকে আরও উত্তেজনাপূর্ণ সামগ্রী সরবরাহ করা হবে।