আমি ডুবাও বিগ মডেল ২.০ ব্যবহার করে ম্যাকওএস ম্যানুয়ালি নতুন করে ডিজাইন করেছি। সিড্যান্স ২.০ এর পর, বাইটড্যান্স আমাদের চীনা নববর্ষের জন্য আরেকটি এআই উপহার দেবে।

গত কয়েকদিন ধরে, আমার WeChat Moments Seedance 2.0 এর ভিডিওতে ভরে গেছে, যা দেখে মনে হচ্ছে সবাই পরিচালক হতে পারে। যাইহোক, যখন সবাই উত্তেজনা দেখছিল এবং AI হলিউডে কীভাবে বিপ্লব ঘটাবে তা নিয়ে আলোচনা করছিল, ঠিক তখনই Doubao Big Model 2.0 এর সম্পূর্ণ স্যুট আনুষ্ঠানিকভাবে প্রকাশিত হয়েছিল।

২০২৪ সালের মে মাসে আনুষ্ঠানিকভাবে প্রকাশের পর থেকে এটি ডুবাও লার্জ মডেলের প্রথম প্রজন্মগত আপগ্রেড।

সত্যি কথা বলতে, একজন উৎপাদনশীল হাতিয়ার হিসেবে AI ব্যবহার করেন এমন একজন হিসেবে, আমি দুটি বিষয় নিয়ে সবচেয়ে বেশি চিন্তিত: এটি কি আসলেই কাজ সম্পন্ন করতে পারে? এবং এটি কি সস্তা হতে পারে? Doubao Big Model 2.0 এর সর্বশেষ আপডেটটি একটি খুব সহজ উত্তর প্রদান করে: এটি চার্ট এবং ডকুমেন্ট বুঝতে পারে, লম্বা ভিডিও বুঝতে পারে, ব্যবহারযোগ্য কোড লিখতে পারে এবং দাম কমাতে পারে।

তাছাড়া, এটি কেবল একটি একক মডেলের আপগ্রেড নয়, বরং "সম্মিলিত পাঞ্চ" এর একটি সম্পূর্ণ সেট।

ডুবাও বিগ মডেল ২.০ সিরিজে তিনটি সাধারণ-উদ্দেশ্য এজেন্ট মডেল (প্রো, লাইট এবং মিনি) এবং একটি কোড মডেল রয়েছে, যা বিভিন্ন ব্যবসায়িক পরিস্থিতিতে নমনীয়ভাবে খাপ খাইয়ে নেয়। আপনি এখন ডুবাও অ্যাপ, পিসি ক্লায়েন্ট, অথবা ওয়েব সংস্করণ খুলে "এক্সপার্ট মোড" এ ক্লিক করে নতুন আপগ্রেড করা ডুবাও বিগ মডেল ২.০ প্রো উপভোগ করতে পারবেন।

Doubao 2.0 Pro: উচ্চ-কার্যক্ষমতাসম্পন্ন উপাদানের একটি পাওয়ার হাউস, যা গভীর অনুমান এবং দীর্ঘ-চেইন কার্যে বিশেষজ্ঞ। আনুষ্ঠানিকভাবে, এটি GPT-5.2 এবং Gemini 3 Pro এর সাথে সম্পূর্ণ তুলনীয় বলে দাবি করা হচ্ছে।
২.০ লাইট: এটি একটি "টু-ইন-ওয়ান" মেশিন হওয়ার লক্ষ্য রাখে, যা কর্মক্ষমতা এবং খরচের ভারসাম্য বজায় রাখার ক্ষেত্রে দক্ষ, এবং এর সামগ্রিক ক্ষমতা পূর্ববর্তী প্রজন্মের মূল ভিত্তি, বিনব্যাগ ১.৮-কে ছাড়িয়ে গেছে।
২.০ মিনি: কম ল্যাটেন্সি, উচ্চ কনকারেন্সি, বিশেষভাবে এমন পরিস্থিতিতে ডিজাইন করা হয়েছে যেখানে খরচ অত্যন্ত সংবেদনশীল।
কোড ভার্সন (Doubao-Seed-2.0-Code): বিশেষভাবে প্রোগ্রামারদের জন্য ডিজাইন করা হয়েছে। ভালো ফলাফলের জন্য IDE টুল TRAE এর সাথে এটি ব্যবহার করার পরামর্শ দেওয়া হচ্ছে।

ভিডিও সম্পর্কে ডুবাওয়ের বহুমুখী বোধগম্যতা কতটা শক্তিশালী, এমনকি মানুষের ক্ষমতাকেও ছাড়িয়ে যায়?

যদি টেক্সট মডেলগুলি এআই-এর মস্তিষ্ক হয়, তাহলে মাল্টিমডাল বোঝাপড়া হল এর চোখ।

অফিসিয়াল টেকনিক্যাল রিপোর্ট থেকে দেখা যায় যে, ডাউবাও বিগ মডেল ২.০ সিরিজটি VLMsAreBiased এবং OmniDocBench এর মতো মানদণ্ডে শিল্পে সর্বোচ্চ স্কোর অর্জন করেছে।

তথ্যগুলো অপ্রাসঙ্গিক হতে পারে, তাই আমরা নেটিজেনদের তৈরি একটি মজার ছবি খুঁজে পেয়েছি – পুরুষদের শ্যাম্পুর বোতল যা "২০-ইন-১" বলে দাবি করে। বোতলটি বিভিন্ন ধরণের পণ্যে ভরা।

লেখাটি ছোট করে দেওয়ার পরেও, Doubao 2.0 Pro স্পষ্টভাবে প্রেক্ষাপটের মাধ্যমে এটিকে চিনতে পেরেছে। তাছাড়া, কেবল পণ্যটি পরিচয় করিয়ে দেওয়ার পরিবর্তে, এটি স্পষ্টভাবে বলেছে যে এটি একটি "চালবাজ"।

এটি সরকারী তথ্যে উল্লিখিত ChartQAPro এবং OmniDocBench 1.5-এর শীর্ষ-স্তরের কর্মক্ষমতার সাথে মিলে যায়—এটি কেবল দেখতেই নয়, তথ্যের শ্রেণিবদ্ধ সম্পর্কগুলিও বোঝে।

এই "বোঝাপড়া" কর্মক্ষেত্রে উৎপাদনশীলতায় রূপান্তরিত হয়।

বাস্তব ব্যবহারকারীদের প্রচুর সংখ্যক প্রশ্নের মধ্যে জটিল ছবি ছিল—স্ক্রিনশট, চার্ট, স্ক্যান করা নথি। আমি এটিকে Doubao-এর Big Model 2.0 সম্পর্কে একটি প্রযুক্তিগত নথি পাঠানোর চেষ্টা করেছিলাম এবং এটিকে বিশ্লেষণ করতে বলেছিলাম। আমার অবাক করার বিষয় হল, এটি কেবল গুরুত্বপূর্ণ তথ্যই বের করেনি বরং একটি মাইন্ড ম্যাপ এবং একটি পাওয়ারপয়েন্ট উপস্থাপনাও তৈরি করেছে, যা একটি মোটামুটি সম্পূর্ণ কাঠামো তৈরি করেছে।

এমনকি ভিডিও বোঝার ক্ষেত্রেও, এটি "একদম দেখার আসক্ত" হওয়ার সম্ভাবনা দেখিয়েছে। প্রযুক্তিগত প্রতিবেদনে উল্লেখ করা হয়েছে যে ডুবাওয়ের বৃহৎ মডেল 2.0 ইগোটেম্পো বেঞ্চমার্কে মানুষের স্কোরকে ছাড়িয়ে গেছে।

এটা কি আসলেই মানুষের চেয়ে ভালো হওয়ার বিষয়? আমরা "মাই সানশাইন" টিভি সিরিজের একটি দৃশ্য দেখিয়ে জিজ্ঞাসা করলাম, "এই ছবি দেখে কি তুমি বলতে পারো লোকটি দক্ষিণের নাকি উত্তরের?"

এটি একটি সাধারণ মিশ্র পরীক্ষার প্রশ্ন যা "দৃশ্যমান উপলব্ধি, জ্ঞান এবং যুক্তি" এর সমন্বয়ে গঠিত। ডুবাওয়ের বিগ মডেল 2.0 খুব দ্রুত প্রতিক্রিয়া জানায়, এটি কেবল টিভি সিরিজ "মাই সানশাইন" এবং অভিনেতা ওয়ালেস চুং হিসাবে স্বীকৃতি দেয়নি, বরং মূল উপন্যাসের প্রেক্ষাপটের উপর ভিত্তি করে একটি গভীর এবং স্পষ্ট বিশ্লেষণ প্রতিবেদনও প্রদান করে।

দীর্ঘ-ফর্ম ভিডিও বোঝার ক্ষেত্রেও, TVBench এবং MotionBench-এ এর উচ্চ স্কোর বাস্তব-বিশ্বের পরীক্ষায় প্রতিফলিত হয়: এটি একটি দীর্ঘ ভিডিও থেকে চলাচলের ছন্দ সঠিকভাবে বিশ্লেষণ করতে পারে। যেসব শিল্পের নজরদারি স্ট্রিম প্রক্রিয়াকরণ এবং ক্রীড়া ইভেন্ট বিশ্লেষণ করা প্রয়োজন, তাদের জন্য এটি অনেক বেশি মূল্যবান।

একজন গবেষণা-স্তরের প্রতিভা একজন নবীনের সাথে দেখা করে

যৌক্তিক যুক্তির দিক থেকে, বেঞ্চমার্ক পরীক্ষার ফলাফল দেখায় যে Doubao 2.0 Pro SuperGPQA (স্নাতক স্তরের প্রশ্নোত্তর) তে GPT-5.2 এর চেয়ে বেশি স্কোর করেছে এবং এমনকি IMO (আন্তর্জাতিক গণিত অলিম্পিয়াড) পরীক্ষায় স্বর্ণপদক জিতেছে।

"সান উকং যখন অমরত্বের শিল্প শিখেছিলেন, তখন থেকে কেন তিনি ৩৪২ বছর বয়সেও মারা গেলেন?" অথবা "দুটি অস্ত্র, একটি ১-৫ আক্রমণ সহ এবং অন্যটি ২-৪ আক্রমণ সহ, তথ্যের দৃষ্টিকোণ থেকে, কোনটি বেশি শক্তিশালী?", এই প্রশ্নগুলি স্পষ্টতই ডুবাওকে স্তব্ধ করবে না।

তবে, এই "শিক্ষাবিদ প্রতিভা" যিনি অলিম্পিয়াডের গণিত সমস্যা সমাধান করতে পারেন, তিনিও ৫০ মিটার দূরে গাড়ি ধোয়ার বিষয়ে একটি সাধারণ জ্ঞানের প্রশ্ন পেয়েছিলেন: "আমি আমার গাড়ি ধোয়াতে চাই। গাড়ি ধোয়ার জায়গাটি আমার বাড়ি থেকে ৫০ মিটার দূরে। আমি কি সেখানে গাড়ি চালাবো নাকি হেঁটে যাব?" ভুল।

একজন সাধারণ মানুষ ভাববে, "ওখানে গাড়ি চালাও, নইলে ধোয়ার ঝামেলা কেন?" তবে, ডুবাও ২.০ প্রো গভীর "অতিরিক্ত যুক্তি"তে পড়ে গেল। এটি দূরত্বের খরচ, হাঁটার স্বাস্থ্য উপকারিতা, গাড়ি চালানোর খরচ বিশ্লেষণ করতে শুরু করে… এবং অবশেষে, আন্তরিকভাবে আমাকে হাঁটার পরামর্শ দেয়।

বর্তমান বৃহৎ মডেলগুলির ক্ষেত্রেও এটি একটি সাধারণ সমস্যা। যদিও তাদের বৈজ্ঞানিক গবেষণা-স্তরের যুক্তি ক্ষমতা রয়েছে, তবুও তাদের ভৌত জগতের উপর ভিত্তি করে সাধারণ জ্ঞানের অন্তর্দৃষ্টির অভাব রয়েছে। এটি কেবল বলা যেতে পারে যে এখনও অনেক দীর্ঘ পথ যেতে হবে।

একটি ভালো AI হলো এমন একটি যা আপনাকে আগে কাজ ছেড়ে যেতে সাহায্য করে।

এই আপডেটের সবচেয়ে বড় উচ্চাকাঙ্ক্ষা আসলে এজেন্ট (বুদ্ধিমান এজেন্ট) এর মধ্যে নিহিত। বীজ দল একটি জটিল বিষয় আবিষ্কার করেছে: মডেলটি সমস্যা সমাধান করতে পারে, কিন্তু দীর্ঘমেয়াদী কাজগুলি (যেমন একটি সম্পূর্ণ অ্যাপ লেখা বা একটি পরীক্ষা ডিজাইন করা) পরিচালনা করতে পারে না।

এই সমস্যা সমাধানের জন্য, ডুবাও-এর বৃহৎ মডেল 2.0 নির্দেশনা সম্মতি এবং দীর্ঘমেয়াদী কাজগুলি উন্নত করার উপর দৃষ্টি নিবদ্ধ করে। এটি হেলথবেঞ্চে প্রথম স্থান অর্জন করেছে এবং ফ্রন্টিয়ারসাই-তে দুর্দান্ত পারফর্ম করেছে।

ব্যবহারিক পরীক্ষায়, এটি একটি সত্যিকারের "গবেষণা সহকারী" হিসেবে কাজ করার ক্ষমতাকে অনুবাদ করে। যখন একটি চ্যালেঞ্জিং জৈবিক সমস্যা – "গলজি প্রোটিন বিশ্লেষণ" – উপস্থাপন করা হয়, তখন এটি অস্পষ্ট ব্যাখ্যা প্রদান করেনি। এটি কেবল একটি সামগ্রিক রোডম্যাপই প্রদান করেনি বরং জেনেটিক ইঞ্জিনিয়ারিং, মাউস মডেল নির্মাণ এবং মাল্টি-ওমিক্স বিশ্লেষণকে একটি সম্পূর্ণ প্রক্রিয়ায় সমন্বিত করেছে।

প্রোগ্রামিং সম্পর্কে, Doubao Big Model 2.0 এর "কোড কন্টেন্ট" যাচাই করার জন্য, আমরা সরাসরি ByteDance এর নিজস্ব IDE – TRAE খুলেছি এবং Doubao-Seed-2.0-Code নাম দিয়েছি, যা বিশেষভাবে প্রোগ্রামিংয়ের জন্য অপ্টিমাইজ করা হয়েছে।

উদাহরণস্বরূপ, এটি p5js এর সাথে ব্যবহার করে অত্যাশ্চর্য বহু-রঙের ইন্টারেক্টিভ অ্যানিমেশন তৈরি করা যেতে পারে এবং এর প্রভাব বেশ চিত্তাকর্ষক। কোডটি প্রথম চেষ্টাতেই মসৃণভাবে চলে এবং স্ক্রিনে প্রবাহিত রঙগুলি কেবল তরলই নয়, ইন্টারেক্টিভ লজিকও সমস্ত প্রত্যাশা পূরণ করে।

এরপর, আমরা এটিকে সম্পূর্ণরূপে স্ক্র্যাচ থেকে একটি macOS ডেস্কটপ সিস্টেম তৈরি করতে বলেছিলাম যা বিশুদ্ধ কোড ব্যবহার করে তৈরি করা হয়েছিল। ডক অ্যানিমেশন, উইন্ডো হায়ারার্কি এবং শীর্ষ মেনু বারটি বেশ ভালোভাবে তৈরি করা হয়েছিল, তবে নান্দনিকতা উন্নত করা যেতে পারে এবং সামগ্রিক কর্মক্ষমতা মাঝারি ছিল।

যেমনটি ডুবাও বিগ মডেল টিম তাদের মডেল কার্ডে বলেছে:

এটা মনে রাখা গুরুত্বপূর্ণ যে সীড ২.০ সিরিজ এখনও আন্তর্জাতিক বৃহৎ ভাষা মডেলগুলির থেকে পিছিয়ে রয়েছে। সীড স্পষ্টভাবে তার দিকনির্দেশনাকে বাস্তব জগতের জটিলতার সাথে মানিয়ে নেওয়ার জন্য মডেলের ক্ষমতা উন্নত করার মাধ্যমে সংজ্ঞায়িত করেছে এবং এই লক্ষ্যে সীড মডেল সিরিজকে অপ্টিমাইজ করার জন্য উল্লেখযোগ্য প্রচেষ্টা বিনিয়োগ করেছে।

কিন্তু দামের ক্ষেত্রে এগুলোর কোনও গুরুত্ব নেই। কারণ ডুবাও-এর বিগ মডেল ২.০ কর্মক্ষমতা উন্নত করার পাশাপাশি, এটি টোকেন মূল্যও প্রায় কিছুটা কমিয়ে দেয়।

এটি একটি খুবই বাস্তবসম্মত ব্যবসায়িক যুক্তি। যখন যুক্তির খরচ আরও সাশ্রয়ী হয়ে ওঠে, তখন অনেক পরিস্থিতি, যেমন পূর্ণ নথি বিশ্লেষণ এবং রিয়েল-টাইম ভিডিও স্ট্রিম পর্যবেক্ষণ, হঠাৎ করেই সম্ভব হয়ে ওঠে।

ছবি

সেই দীর্ঘ বেঞ্চমার্ক রিপোর্টের উপর ভিত্তি করে, আমার সবচেয়ে বড় উপায় দুটি শব্দে সংক্ষেপে বলা যেতে পারে: ব্যবহারিক। এটি নিখুঁত নয়, তবে কর্মরত পেশাদারদের জন্য, একটি AI যা আপনাকে চার্ট বুঝতে, কঠিন কোড লিখতে এবং সাশ্রয়ী মূল্যে সাহায্য করতে পারে তা অনেক বেশি কার্যকর হতে পারে।

সর্বোপরি, একটি ভালো কৃত্রিম বুদ্ধিমত্তা হলো এমন একটি যন্ত্র যা আমাদের আগে কাজ ছেড়ে যেতে সাহায্য করে।

৭৯ পৃষ্ঠার একটি মডেল কার্ড সংযুক্ত করা হল:
https://lf3-static.bytednsdoc.com/obj/eden-cn/lapzild-tss/ljhwZthlaukjlkulzlp/seed2/0214/Seed2.0%20Model%20Card.pdf

#iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট অনুসরণ করতে আপনাকে স্বাগতম: iFanr (WeChat ID: ifanr), যেখানে যত তাড়াতাড়ি সম্ভব আরও উত্তেজনাপূর্ণ কন্টেন্ট আপনার কাছে উপস্থাপন করা হবে।

ifanr | মূল লিঙ্ক · মন্তব্য দেখুন · সিনা ওয়েইবো