OpenAI এর শক্তিশালী প্রতিযোগিতামূলক পণ্য আপডেট করা হয়েছে! এক বাক্যে কম্পিউটারের মানুষের ব্যবহার অনুকরণ করা, এআই এজেন্টদের জাগ্রত হওয়ার আগে একটি বড় অগ্রগতি

বিশ্ব ভুগছে ওপেনএআই দীর্ঘদিন ধরে টুথপেস্ট নিংড়ে যাচ্ছে।

ইউনেইয়ের চারপাশে তাকালে, সেখানে মাত্র কয়েকজন বিরোধী আছে যারা ওপেনএআইয়ের সাথে প্রতিদ্বন্দ্বিতা করতে পারে অন্তত একটি নির্ভরযোগ্য প্রতিদ্বন্দ্বী।

তারা এবং চাঁদের দিকে তাকিয়ে, আমি "সুপার লার্জ কাপ" ওপাসের উপস্থিতির জন্য অপেক্ষা করিনি, তবে সৌভাগ্যবশত, আমি নতুন আপগ্রেড হওয়া বড় কাপ ক্লড 3.5 সনেটের জন্যও অপেক্ষা করেছি।

এই আপডেটের হাইলাইটগুলির একটি সংক্ষিপ্ত সারাংশ:

  • GPT-4o ঘুষি মারা এবং জেমিনি 1.5 প্রোকে লাথি দেওয়া, ক্লাউড 3.5 সনেটের নতুন সংস্করণ অনেক এগিয়ে
  • ক্লাউড 3.5 হাইকুতে দ্রুততম প্রতিক্রিয়ার গতি রয়েছে এবং এর কার্যকারিতা GPT-4o মিনির সাথে তুলনীয়
  • ক্লাউডকে কীভাবে কম্পিউটার চালাতে হয় তা শেখানোর জন্য একটি API তৈরি করুন

ক্লদকে কম্পিউটার খেলতে শেখান, এখানে কি এআই কীবোর্ড যোদ্ধা?

এই আপডেটের হাইলাইট আসলে নতুন মডেল নয়, কিন্তু কম্পিউটারে কিভাবে AI খেলতে শেখানো যায়।

অ্যানথ্রোপিক পাবলিক পরীক্ষার জন্য একটি বিপ্লবী ফাংশন "কম্পিউটার ব্যবহার" চালু করেছে: ক্লডকে API এর মাধ্যমে মানুষের মতো কম্পিউটার পরিচালনা করতে শেখানো, সে স্ক্রীন দেখতে, কার্সার সরাতে, বোতামে ক্লিক করতে, টাইপ করতে পারে…

সহজ কথায়, ক্লাউড এখন মানুষের দ্বারা ডিজাইন করা মানক সরঞ্জাম এবং সফ্টওয়্যার ব্যবহার করতে পারে। বিকাশকারীরা কিছু বিরক্তিকর পুনরাবৃত্তিমূলক প্রক্রিয়া কাজগুলিকে মুক্ত করতে এবং এমনকি গবেষণার মতো খোলামেলা কাজগুলি পরিচালনা করতে এটি ব্যবহার করতে পারে।

ক্লডকে এই দক্ষতার সাথে সজ্জিত করার জন্য, অ্যানথ্রপিক একটি API ব্যবহার করে যাতে ক্লডকে কম্পিউটার ইন্টারফেস উপলব্ধি করতে এবং তার সাথে যোগাযোগ করতে সক্ষম করে।

বিশেষত, বিকাশকারীরা ইন্টারঅ্যাকশন প্রক্রিয়া চলাকালীন এই APIকে একীভূত করে, ক্লডকে নির্দেশাবলী অনুবাদ করতে দেয় (যেমন: "আমার কম্পিউটারে ডেটা ব্যবহার করুন এবং একটি ফর্ম পূরণ করতে অনলাইন তথ্যের সাথে একত্রিত করুন") কম্পিউটার নির্দেশাবলীতে (যেমন: একটি ফর্ম পরীক্ষা করুন, একটি ব্রাউজার খুলতে মাউস সরান, প্রাসঙ্গিক ওয়েব পেজে নেভিগেট করুন এবং তারপর ইন্টারনেট থেকে ডেটা দিয়ে টেবিলটি পূরণ করুন)।

OSWorld হল একটি বেঞ্চমার্ক প্ল্যাটফর্ম যা বাস্তব কম্পিউটার পরিবেশে খোলা কাজ সম্পাদন করার জন্য মাল্টি-মডেল এজেন্টদের ক্ষমতা পরীক্ষা করতে ব্যবহৃত হয়।

ক্লাউড 3.5 সনেট শুধুমাত্র স্ক্রিনশট-টেস্ট বিভাগে 14.9% স্কোর করেছে, 7.8% দ্বিতীয় স্থানের স্কোর থেকে বেশ এগিয়ে। আরও পদক্ষেপের অনুমতি দেওয়ার সময়, ক্লড 22.0% স্কোর করেছে।

কিছু কোম্পানির পণ্য ইতিমধ্যেই এই বৈশিষ্ট্যটি ব্যবহার করেছে।

উদাহরণ স্বরূপ, Replit নির্মাণাধীন অ্যাপ্লিকেশন মূল্যায়নের জন্য এর Replit এজেন্ট পণ্যের একটি মূল বৈশিষ্ট্য বিকাশের জন্য Claude 3.5 Sonnet-এর কম্পিউটার অপারেশন এবং ইন্টারফেস নেভিগেশন ক্ষমতার ব্যবহার করছে।

অবশ্যই, এই পদ্ধতি নতুন নয়।

কারণ এর আগে, আসন, ক্যানভা, কগনিশন, ডোরড্যাশ, রিপ্লিট এবং ব্রাউজার কোম্পানি এই সম্ভাবনাগুলি অন্বেষণ করতে শুরু করেছে, এমন কাজগুলি সম্পাদন করছে যার জন্য কয়েক ডজন বা এমনকি কয়েকশ পদক্ষেপের প্রয়োজন।

যাইহোক, আদর্শটি খুব পূর্ণ এবং বাস্তবতা খুব চর্মসার।

কর্মকর্তা আরও স্বীকার করেছেন যে এই বৈশিষ্ট্যটি এখনও পরীক্ষামূলক পর্যায়ে রয়েছে এবং এটি ধীর এবং কম্পিউটার পরিচালনা করার সময় প্রায়শই ত্রুটি ঘটে। কিছু সাধারণ ক্রিয়াকলাপ – যেমন স্ক্রলিং, টেনে আনা এবং জুম করা, যা মানুষের দ্বারা তাদের হাতের তরঙ্গ দ্বারা করা বলে মনে হয়, এখনও ক্লডের জন্য একটি বড় চ্যালেঞ্জ।

এই ডেমো রেকর্ড করার সময়, আমরা কিছু আকর্ষণীয় পর্বের সম্মুখীন হয়েছি। এক অনুষ্ঠানে, ক্লদ ঘটনাক্রমে একটি দীর্ঘ স্ক্রীন রেকর্ডিং বন্ধ করে দেয় যা চলমান ছিল এবং সমস্ত ফুটেজ হারিয়ে গেছে।

পরে, ক্লদ ইয়েলোস্টোন ন্যাশনাল পার্কের ফটোগুলি দেখার জন্য আমাদের কোডিং ডেমোগুলির মধ্যে বিরতি নিয়েছিলেন।

উপরন্তু, ক্লাউড স্ক্রিনের স্থির চিত্রগুলি ক্যাপচার করে এবং তারপরে স্ক্রিনে কী ঘটছে তা বোঝার জন্য এই চিত্রগুলিকে একত্রিত করে, কিন্তু এর কারণে, এটি পর্দায় সংক্ষিপ্ত ক্রিয়াকলাপ বা বিজ্ঞপ্তিগুলি যেমন পপ-আপগুলি ক্যাপচার করতে সক্ষম হয় না বা দ্রুত পরিবর্তন আইকন।

আধিকারিক আরও বলেছেন যে একটি পরীক্ষামূলক পণ্য অগ্রিম প্রকাশ করার কারণ হল বিকাশকারীদের কাছ থেকে প্রতিক্রিয়া পাওয়া আশা করা হচ্ছে যে এই ফাংশনটি সময়ের সাথে সাথে ধীরে ধীরে উন্নত হবে।

অ্যানথ্রপিকের বিকাশকারী সম্পর্কের পরিচালক অ্যালেক্স অ্যালবার্টও একটি আকর্ষণীয় অভিজ্ঞতা ভাগ করেছেন।

"কম্পিউটার ব্যবহার" বৈশিষ্ট্যটি বিকাশ করার সময়, তারা API-তে সম্ভাব্য সমস্যাগুলি সনাক্ত করতে একটি ইঞ্জিনিয়ারিং সমস্যা সমাধানের সেশনের আয়োজন করেছিল।

বেশ কয়েকজন প্রকৌশলী কয়েক ঘন্টা কাজ করার জন্য একটি রুমে জড়ো হয়েছিল, কিন্তু দ্রুত ক্ষুধার্ত হয়ে গিয়েছিল, তাই প্রকৌশলীর প্রথম "কম্পিউটার ব্যবহার" অনুরোধ ছিল ক্লডকে খাবার বিতরণ প্ল্যাটফর্ম ডোরড্যাশে নেভিগেট করার এবং প্রত্যেককে খাওয়ানোর জন্য পর্যাপ্ত খাবারের অর্ডার দেওয়ার জন্য .

ক্লদ প্রায় এক মিনিটের জন্য এটি সম্পর্কে চিন্তা করেছিল এবং অবশেষে ইঞ্জিনিয়ারদের জন্য কিছু পিজ্জা অর্ডার করেছিল।

নেটিজেনরা দ্রুত সেই জিনিসগুলির একটি তালিকা খনন করে যা কম্পিউটার ব্যবহার ফাংশন করতে অস্বীকার করে:

  • সোশ্যাল মিডিয়া বা অন্যান্য প্ল্যাটফর্মে একটি অ্যাকাউন্ট তৈরি করুন
  • ইমেইল বা বার্তা পাঠান
  • সোশ্যাল মিডিয়ায় একটি মন্তব্য পোস্ট করুন
  • একটি ক্রয় করুন
  • ব্যক্তিগত তথ্য অ্যাক্সেস করুন
  • সম্পূর্ণ যাচাইকরণ কোড (ক্যাপচা)
  • ছবি তৈরি, সম্পাদনা বা পরিবর্তন করুন
  • কল আপ
  • সীমাবদ্ধ সামগ্রী অ্যাক্সেস করুন
  • ব্যক্তিগত প্রমাণীকরণ প্রয়োজন যে কর্ম সঞ্চালন

সত্য অনুমান মডেলের রাজা, নতুন মডেল কোডিং অনেক এগিয়ে

আসুন Claude 3.5 Sonnet দ্বারা জমা দেওয়া প্রতিলিপিটি একবার দেখে নেওয়া যাক।

যদিও বৃহৎ মডেল তালিকার বিশ্বাসযোগ্যতা আগের মতো ভালো নয়, একই সেট পরীক্ষার প্রশ্নগুলির যুক্তির উপর ভিত্তি করে, আমরা এখনও নতুন প্রকাশিত মডেলগুলির প্রাথমিক ধারণা পেতে পারি।

GPT-4o পাঞ্চিং করা এবং জেমিনি 1.5 প্রোকে কিক করা, ক্লড 3.5 সনেট GPQA, MMLU Pro, এবং HumanEVal-এর মতো বেঞ্চমার্ক টেস্টগুলির একটি সিরিজে দুর্দান্তভাবে পারফর্ম করেছে এবং এটিকে অনেক এগিয়ে বলা যেতে পারে।

বিশেষ করে কোডিংয়ের ক্ষেত্রে, ক্লড 3.5 সনেট তার নেতৃত্বকে আরও প্রসারিত করেছে। বেঞ্চমার্ক পরীক্ষায় ওপেনএআই o1 মডেলের সাথে কোন তুলনা হয় না কেন আপনি কৌতূহলী হতে পারেন।

চিন্তা করবেন না, অ্যানথ্রোপিক আপনার ভবিষ্যদ্বাণী করেছে অফিসিয়াল ব্যাখ্যা:

ওপেনএআই-এর o1 মডেল ফ্যামিলিকে আমাদের মূল্যায়ন সারণীতে অন্তর্ভুক্ত না করার কারণ হল বেশিরভাগ মডেলের বিপরীতে প্রতিক্রিয়া জানানোর আগে তাদের অনেক গণনা সময় প্রয়োজন। এই অপরিহার্য পার্থক্য কর্মক্ষমতা তুলনা জটিল.

অনুবাদ করতে, আমরা তুলনা করতে চাই কিন্তু তুলনা করা সম্ভব নয়।

যাইহোক, SWE-বেঞ্চ যাচাইকৃত কোডিং পরীক্ষায়, Claude 3.5 Sonnet-এর কর্মক্ষমতা 33.4% থেকে বেড়ে 49.0% হয়েছে, যা সকল পাবলিকভাবে উপলব্ধ মডেলকে ছাড়িয়ে গেছে – যেমন OpenAI o1-প্রিভিউ, এবং বিভিন্ন এজেন্ট কোডিং সিস্টেম সহ অনুমান মডেলগুলি।

ক্লাউড 3.5 সনেট সত্য অনুমান মডেলের রাজা।

এছাড়াও, ক্লাউড 3.5 সনেট টিএইউ-বেঞ্চ এজেন্ট টুল টেস্টেও ভাল পারফর্ম করেছে।

TAU-বেঞ্চ প্রধানত একটি মূল্যায়ন পরিবেশ প্রদান করে যা বাস্তব-বিশ্বের অ্যাপ্লিকেশন পরিস্থিতির কাছাকাছি।

যখন এটি খুচরা খাতে আসে, ক্লড 3.5 সনেটের স্কোর 62.6% থেকে 69.2% এ উন্নীত হয়, যখন এটি বিমান চলাচলে আসে, তখন এর স্কোরও 36.0% থেকে 46.0% এ উন্নীত হয়।

আরও কী, এই উন্নতিগুলি দাম বাড়ায় না বা গতি কমায় না, এবং ক্লড 3.5 সনেট এখনও তার পূর্বসূরি হিসাবে একই মূল্য-কর্মক্ষমতা অনুপাত বজায় রাখে।

অফিসিয়াল ব্লগে উল্লেখ করা হয়েছে যে কোডিং ক্ষমতার উন্নতি ক্লড 3.5 সনেটের সবচেয়ে বড় হাইলাইট।

গিটল্যাব পরীক্ষায় দেখা গেছে যে এর যুক্তির ক্ষমতা অতিরিক্ত বিলম্ব ছাড়াই 10% বৃদ্ধি পেয়েছে, এটি বহু-পদক্ষেপ সফ্টওয়্যার বিকাশ প্রক্রিয়াগুলির জন্য খুব উপযুক্ত করে তুলেছে। ব্রাউজার কোম্পানি আরও উল্লেখ করেছে যে ক্লাউড 3.5 সনেট পূর্ববর্তী সমস্ত মডেলগুলিকে ছাড়িয়ে গেছে যা তারা ওয়েব ওয়ার্কফ্লো স্বয়ংক্রিয়ভাবে পরীক্ষা করেছিল৷

একটি মডেল কোম্পানি হিসেবে যা অত্যন্ত উচ্চ নিরাপত্তার কারণ অনুসরণ করে, অ্যানথ্রপিক স্বাভাবিকভাবেই ক্লড 3.5 সনেটে একটি বিপর্যয়মূলক ঝুঁকি মূল্যায়ন করেছে এবং ফলাফলগুলি ASL-2 মান পূরণ করেছে। .

ASL-2 এমন সিস্টেমকে বোঝায় যেগুলি বিপজ্জনক ক্ষমতার প্রাথমিক লক্ষণগুলি দেখায় (যেমন কীভাবে জৈবিক অস্ত্র তৈরি করতে হয় তার নির্দেশনা দেওয়ার ক্ষমতা), কিন্তু অপর্যাপ্ত নির্ভরযোগ্যতা বা সার্চ ইঞ্জিনের বাইরে যেতে অক্ষমতার কারণে তথ্যটি খুব বেশি কাজে আসে না। প্রদান করতে পারেন।

সংক্ষেপে, ক্লড 3.5 সনেট যতই শক্তিশালী হোক না কেন, এটি এখনও মানবতার জন্য হুমকি নয়।

সবচেয়ে শক্তিশালী মডেল সম্পর্কে কথা বলার পর, পরবর্তীটি হল নতুন আপগ্রেড করা মডেল যার দ্রুততম প্রতিক্রিয়া গতি – ক্লাউড 3.5 হাইকু।

শুধু কাগজের প্যারামিটারের দিকে তাকালে, মাঝারি আকারের ক্লাউড 3.5 হাইকু প্রায় GPT-4o মিনি থেকে নিকৃষ্ট নয়, এটাও বলা যেতে পারে যে এটির একটি ছোট জয় রয়েছে এবং সামগ্রিক পারফরম্যান্স আগের প্রজন্মের ক্লড 3-এর সমান। ওপাস।

কিন্তু দাম পরিবর্তিত হয়নি, এবং প্রতিক্রিয়ার গতি কমেনি "মূল্য না বাড়িয়ে পরিমাণ বাড়ানোর" একটি ভুল অভিজ্ঞতা রয়েছে।

একইভাবে, ক্লড 3.5 হাইকু এনকোডিং কাজগুলিতে বিশেষভাবে ভাল কাজ করে। উদাহরণ স্বরূপ, SWE-বেঞ্চ ভেরিফাইয়ে এর স্কোর হল 40.6%, যা এর ক্লাউড 3.5 সনেট (অরিজিনাল) এবং GPT-4o সহ অনেক তথাকথিত অত্যাধুনিক এজেন্টকে ছাড়িয়ে গেছে।

কম লেটেন্সি, উন্নত কমান্ড এক্সিকিউশন ক্ষমতা এবং আরও সুনির্দিষ্ট টুল ব্যবহার ক্লাউড 3.5 হাইকুকে এমন পরিস্থিতিতে বিশেষভাবে উপযুক্ত করে তোলে যার জন্য ব্যক্তিগতকৃত পরিষেবার প্রয়োজন হয়।

উদাহরণস্বরূপ, এটি আপনার পূর্ববর্তী কেনাকাটার অভ্যাসের উপর ভিত্তি করে পণ্যগুলির সুপারিশ করতে পারে, পণ্যের মূল্য নির্ধারণে আপনাকে সহায়তা করতে পারে বা এমনকি গুদামে ইনভেন্টরি পরিচালনা করতে সহায়তা করতে পারে।

অবশেষে, Claude 3.5 Sonnet-এর আপগ্রেড সংস্করণ এখন সকল ব্যবহারকারীর জন্য উপলব্ধ। ক্লাউড 3.5 হাইকু এই মাসের শেষের দিকে প্রকাশিত হবে প্রাথমিকভাবে, এটি শুধুমাত্র টেক্সট ইনপুট সমর্থন করবে এবং ইমেজ ইনপুট ফাংশনটি পরে চালু করা হবে।

আপনি যদি সম্প্রতি এআই সার্কেলের দিকে মনোযোগ দেন, আপনি দেখতে পাবেন যে শিল্পের বেশ কয়েকটি গুরুত্বপূর্ণ ব্যক্তিত্ব "পূর্বাভাস" খেলেছে।

ডেমিস হাসাবিস, ইয়ান লেকুন, স্যাম অল্টম্যান এবং অ্যানথ্রপিকের দারিও অ্যামোডেই, সকলেই দাবি করেন যে 2025 থেকে 2030 পর্যন্ত সময়সীমার সাথে আগামী কয়েক বছরের মধ্যে AGI বাস্তবায়িত হবে।

তারা একটি এজিআই ব্লুপ্রিন্ট তৈরি করেছে যা ইউটোপিয়ার সাথে তুলনীয়, যেমন বেশিরভাগ রোগ নিরাময় করা, জলবায়ু সমস্যা সমাধান করা, দারিদ্র্য দূর করা ইত্যাদি। যদি বেশ কয়েকটি দীর্ঘ নিবন্ধের মূল ধারণাগুলিকে সংক্ষিপ্ত করা হয়, AI প্রায় সমস্ত রোগের জন্য একটি অলৌকিক নিরাময় হয়ে উঠেছে।

কিন্তু যে বলে, আত্মবিশ্বাস বাস্তব পণ্য দ্বারা প্রমাণ করা আবশ্যক.

একটি নির্ভরযোগ্য এবং টেকসই ব্যবসায়িক মডেলের অনুপস্থিতিতে, শিল্পটি উচ্চ বিনিয়োগ এবং ব্যয় বজায় রাখতে AGI-তে "অন্ধ বিশ্বাসের" উপর নির্ভর করতে পারে, ঠিক যেমন গাধার সামনে ঝুলে থাকা গাজর।

অন্য কথায়, ক্লাউড মডেলের মতো পণ্যের একটি সিরিজ যা আমাদের আত্মবিশ্বাস পুনরুদ্ধার করছে পূর্ববর্তী পণ্য প্রকাশের ছন্দ অনুযায়ী, OpenAI শীঘ্রই চালু হবে বলে আশা করা হচ্ছে।

পার্থক্য হল যে OpenAI এর অস্ত্রাগার স্পষ্টতই সমৃদ্ধ। সম্ভবত পরবর্তীটি উন্মোচন করা হবে OpenAI o1 এর অফিসিয়াল সংস্করণ বা "ফিউচার" সোরা।

এর পরে, আমরা অপেক্ষা করব এবং দেখব কিভাবে OpenAI "তার তলোয়ার দেখায়"।

# aifaner এর অফিসিয়াল WeChat পাবলিক অ্যাকাউন্ট অনুসরণ করতে স্বাগতম: aifaner (WeChat ID: ifanr) যত তাড়াতাড়ি সম্ভব আপনাকে আরও উত্তেজনাপূর্ণ সামগ্রী সরবরাহ করা হবে।

Ai Faner | মূল লিঙ্ক · মন্তব্য দেখুন · Sina Weibo