জিপিটি ইমেজ ২-এর ওপেন সোর্স সংস্করণ: ইনফোগ্রাফিক্স, নিরবচ্ছিন্ন গ্রাফিক্স ও টেক্সট এবং লোকাল ডেপ্লয়মেন্ট—সব এক সাথে সেন্সটাইম সেন্সনোভা ইউ১ বাস্তব-জগতের পরীক্ষা

জিপিটি ইমেজ ২ জনপ্রিয় হওয়ার পর থেকে ইন্টারনেট অবিশ্বাস্যভাবে বাস্তবসম্মত এআই-নির্মিত ছবিতে ছেয়ে গেছে। বৃহৎ আকারের মডেলগুলো ভিজ্যুয়াল ইমেজিংয়ের সীমানা প্রসারিত করছে, যা একই সাথে উত্তেজনাপূর্ণ এবং বিস্ময়কর।

এআই-চালিত ইমেজ প্রসেসিংয়ের বর্তমান ক্ষেত্রে, জিপিটি ইমেজ ২ কার্যত অপ্রতিদ্বন্দ্বী। তবে, ক্লাউডে উপলব্ধ সেরা ক্লোজড-সোর্স ও পেইড মডেল যদি জিপিটি ইমেজ ২ হয়, তাহলে স্থানীয়ভাবে স্থাপনযোগ্য সেরা ফ্রি এবং ওপেন-সোর্স মডেল হতে পারে সেন্সনোভা ইউ১।

সেন্সনোভা ইউ১ দ্বারা তৈরি

সেন্সনোভা ইউ১ হলো সেন্সটাইম-এর সদ্য প্রকাশিত একটি ওপেন-সোর্স মাল্টিমোডাল মডেল। এর লাইট সিরিজ ৮বি এবং এ৩বি প্যারামিটার সংস্করণগুলো বর্তমানে হাগিং ফেস এবং গিটহাব-এ ওপেন-সোর্স হিসেবে উপলব্ধ।

মডেলের প্যারামিটার এবং ওপেন সোর্স বেছে নেওয়ার বিষয়টি থেকে দেখা যায় যে, এটি GPT ইমেজ ২ থেকে বেশ আলাদা।

APPSO আগেই পরীক্ষার যোগ্যতা অর্জন করেছে, এবং আমরা দেখেছি যে SenseTime-এর নতুন প্রজন্মের নেটিভ আন্ডারস্ট্যান্ডিং এবং জেনারেশন ইউনিফাইড মডেলটি ওপেন সোর্স মডেলগুলোর মধ্যে সেরা পর্যায়ে পৌঁছেছে।

এটি বৃহৎ মডেল শিল্পে একটি যুগান্তকারী অবিচ্ছিন্ন ছবি ও টেক্সট তৈরির সুবিধা নিয়ে এসেছে, যার অর্থ হলো একটিমাত্র মডেল ব্যবহার করে অবিচ্ছিন্নভাবে ছবি ও টেক্সট আউটপুট করা যাবে। এই অভিনব বৈশিষ্ট্যটি অবশ্যই চেষ্টা করে দেখার মতো।

SenseNova U1 ওপেন-সোর্স মডেলের ওয়েটগুলো এখন Hugging Face এবং GitHub থেকে ডাউনলোডের জন্য উপলব্ধ।

গিটহাব: https://github.com/OpenSenseNova/SenseNova-U1

হাগিং ফেস: https://huggingface.co/collections/sensenova/SenseNova-U1

ছবির মাধ্যমে চিন্তা করা

আমরা এমন প্রয়োজনের সম্মুখীন হতে পারি, যেখানে আমরা চাই যে এআই একটি জটিল ধারণা একটি চিত্রসহ ব্যাখ্যা করুক, এবং চিত্রটিকে অবশ্যই লেখার যুক্তি অনুসরণ করে ব্যাখ্যার সংশ্লিষ্ট ধাপটি দেখাতে হবে।

সাধারণ মডেলগুলো সরাসরি কোড তৈরি করার মাধ্যমে এই সমস্যার সমাধান করতে পারে, যেমন ক্লডের ব্যবহৃত সাবলীল গঠনশৈলী, অথবা ভাইব কোডিং-এর কিছু ওয়েব পেজ যেগুলোতে টেক্সট ও ছবি অন্তর্ভুক্ত থাকে।

তবে, বিদ্যমান মডেলগুলো সাধারণত বাহ্যিক টুলের সাহায্য ছাড়া একটিমাত্র মডেল ব্যবহার করে রেসপন্স স্ট্রিমের মধ্যে একই সাথে টেক্সট এবং ছবি তৈরি করতে পারে না। এর কারণ হলো, মডেলের অন্তর্নিহিত স্তরে টেক্সট তৈরি এবং ছবি তৈরি সাধারণত দুটি পৃথক প্রক্রিয়া।

সেন্সনোভা ইউ১-এর প্রথম বৈশিষ্ট্য হলো একটিমাত্র মডেলে অবিচ্ছিন্নভাবে ছবি ও লেখা তৈরি এবং আউটপুট করার ক্ষমতা।

উদাহরণস্বরূপ, আমরা এমন একটি পরিস্থিতি তৈরি করেছিলাম যেখানে তাকে একটি ছোট্ট ভালুকের চারটি ঋতু ভ্রমণের উপর ভিত্তি করে একটি সাধারণ সচিত্র গল্পের বই তৈরি করতে বলা হয়েছিল।

▲ নির্দেশনা: একটি বাদামী ভালুককে প্রধান চরিত্র করে চারটি ঋতুতে তার অভিজ্ঞতার গল্প নিয়ে একটি সচিত্র গল্প রচনা করুন।

তৈরি করা অবিচ্ছিন্ন লেখা এবং ছবিগুলো শুধু যে সহজে বোঝা যায় ও একটি নির্দিষ্ট গল্প বলার গুণ রয়েছে তাই নয়, বরং এগুলোর মধ্যে ভালো সামঞ্জস্যও বজায় থাকে। একই সাথে, ছবিগুলোর লেখা উপস্থাপনাও সম্পূর্ণ নির্ভুল, এবং ছোট্ট ভালুকটি শীতকালে একটি সোয়েটার ও টুপি পরে আছে।

প্রকৃত পরীক্ষায় দেখা গেছে যে, কিছু সৃজনশীল কাজের জন্য সেন্সনোভা ইউ১ ব্যবহার করাও বেশ আকর্ষণীয় ছিল।

অফিসিয়াল টেস্ট কেসে, মডেলটিতে একটি হেডশট আপলোড করা হয়েছিল এবং এটিকে বিভিন্ন ধরনের চুলের স্টাইল ডিজাইন করতে বলা হয়েছিল। দেখা যায় যে, ধারাবাহিক ছবি এবং টেক্সট তৈরির পুরো প্রক্রিয়া জুড়ে, সেন্সনোভা ইউ১ চরিত্রটির সামঞ্জস্যের পাশাপাশি এর গঠন এবং খুঁটিনাটি বিষয়গুলোও নির্ভুলভাবে বজায় রেখেছে।

▲ নির্দেশ: অনুগ্রহ করে আমার জন্য কয়েকটি মানানসই চুলের স্টাইল ডিজাইন করে দিন। আশা করি সেগুলো সুন্দর ও অনন্য হবে, এবং তারপর আমার জন্য সবচেয়ে উপযুক্তটি বেছে নিতে সাহায্য করুন।

এছাড়াও আপনি তাকে দিয়ে একটি গেমের চরিত্র ডিজাইন করাতে পারেন এবং এর সামগ্রিক ভিজ্যুয়াল আবহ ও মূল ইন্টারঅ্যাক্টিভ বিবরণ থেকে শুরু করে পরিবেশগত আখ্যান ও চরিত্র চিত্রণ পর্যন্ত যৌক্তিক পুনরাবৃত্তিমূলক প্রক্রিয়াটি প্রদর্শন করাতে পারেন।

আরও মজার ব্যাপার হলো, প্রতিক্রিয়াটির কালানুক্রমিক প্রকৃতির কারণে, ছবিটি তৈরি করার জন্য সেন্সনোভা ইউ১ ছিল একটি নিখুঁত যন্ত্র। আমরা এটিকে একটি অ্যাভোকাডো থেকে ঘরের ভেতরের টবে লাগানো গাছে পরিণত হওয়ার প্রক্রিয়াটি তৈরি করতে বলেছিলাম, এবং এর অবিচ্ছিন্ন লেখা ও ছবিগুলো সম্পূর্ণ বেড়ে ওঠার প্রক্রিয়াটিকে সুন্দরভাবে উপস্থাপন করেছে।

▲ ইঙ্গিত: কীভাবে একটি সাধারণ অ্যাভোকাডোকে ঘরের ভেতরে টবে লাগানোর গাছে পরিণত করবেন

ধারাবাহিক পরীক্ষার পর দেখা গেছে, ছবিগুলো কখনোই লেখার যুক্তি থেকে বিচ্যুত হয়নি; যুক্তি যেদিকেই গেছে, ছবিগুলোও তা অনুসরণ করেছে।

পূর্বে, টেক্সট এবং ছবি একত্রিত করার জন্য বিভিন্ন মডেল এবং সংশ্লিষ্ট টুল ব্যবহার করতে হতো, যাতে উত্তরের টেক্সট ও ছবি একই বার্তা বহন করে। এখন, এই লেখার প্রক্রিয়াটি সরাসরি মডেলের মধ্যেই সর্বনিম্ন স্তরে সম্পন্ন হয়। অ্যালাইনমেন্ট প্রক্রিয়ায় কোনো টুল বা সফটওয়্যারের প্রয়োজন হয় না; আমাদের শুধু চূড়ান্ত ফলাফলটি দেখতে হয়।

কন্টেন্ট ক্রিয়েটর, ডিজাইনার এবং মার্কেটারদের জন্য, সেন্সনোভা ইউ১-এর আবির্ভাব একটি দীর্ঘদিনের সমস্যার সমাধান করতে শুরু করেছে: কীভাবে টেক্সট এবং গ্রাফিক্সের নির্বিঘ্ন সমন্বয়ের মাধ্যমে এআই-কে একই সাথে লিখতে ও আঁকতে সক্ষম করা যায়।

বিপুল পরিমাণ এবং চাহিদা পূরণকারী সবচেয়ে শক্তিশালী ওপেন সোর্স।

সমন্বিত ধারণা তৈরির সহজাত ক্ষমতা নিশ্চিত হওয়ার পর, এখন আমাদের দেখতে হবে যে সেন্সনোভা ইউ১ জটিল ইনফোগ্রাফিক তৈরির ক্ষেত্রে ওপেন-সোর্স মডেলগুলোর সেরা পর্যায়ে পৌঁছাতে পারে কি না।

ইনফোগ্রাফিক হলো বিপুল পরিমাণ জটিল লেখা বা তথ্যকে একটিমাত্র, সহজে বোধগম্য ছবিতে সংকুচিত করার একটি উপায়। এটি আসলে শুধু 'একটি সুন্দর ছবি আঁকার' চেয়ে অনেক বেশি কঠিন। এর জন্য প্রয়োজন বিষয়বস্তু বোঝা, কোন অংশগুলো মূল এবং কোনগুলো সম্পূরক তা জানা, তথ্যগুলোর মধ্যে যৌক্তিক সম্পর্ক বোঝা এবং লেখার কার্যকর উপস্থাপনা—এই সবগুলোই উল্লেখযোগ্য প্রতিবন্ধকতা তৈরি করে।

ক্লোজড-সোর্স GPT Image 2 এই ক্ষেত্রে ইতিমধ্যেই খুব ভালো পারফর্ম করে, এবং আমাদের পরীক্ষার শুরুতে এটি GPT Image 2-এর চেয়ে ভালো হবে বলে আমাদের খুব বেশি আশা ছিল না। কিন্তু SenseNova U1-এর পারফরম্যান্স সত্যিই ওপেন-সোর্স স্টেট-অফ-দ্য-আর্ট (SOTA) উপাধি পাওয়ার যোগ্য।

আমরা কোনো অতিরিক্ত নির্দেশ ছাড়াই "একটি ইনফোগ্রাফিকের সাহায্যে DeepSeek V4 ব্যাখ্যা করুন" বাক্যটি ব্যবহার করে শুরু করব, যাতে এর দ্বারা তৈরি ইনফোগ্রাফিকটি কতটা ভালো কাজ করে তা দেখা যায়।

▲ সেন্সনোভা ইউ১ দ্বারা তৈরি

এটা স্পষ্ট যে SenseNova U1 অনলাইনে অনুসন্ধান করে DeepSeek V4 সম্পর্কিত তথ্য খুঁজে পেয়েছে, যেমন নেটিভ মাল্টিমোডালিটি, ট্রিলিয়ন ট্রিলিয়ন প্যারামিটার এবং মিলিয়ন মিলিয়ন কনটেক্সট টোকেন।

সাধারণ নির্দেশনার পাশাপাশি, আপনি সরাসরি একটি লিঙ্কও পাঠাতে পারেন। SenseNova U1-এ ওয়েব পেজের বিষয়বস্তু সংগ্রহ এবং ইনফোগ্রাফিক তৈরি করার জন্য একটি সংশ্লিষ্ট ওয়েব স্ক্র্যাপিং টুলও রয়েছে।

সেন্সনোভা ইউ১ এই ধরনের বেশিরভাগ শিক্ষামূলক ইনফোগ্রাফিক সহজেই তৈরি করতে পারে। এটি আরও সহজ ইনফোগ্রাফিকও দ্রুত তৈরি করতে পারে, যেমন একটি ই-সিগারেট কী, তা ব্যাখ্যা করার জন্য একটি থ্রিডি টিয়ারডাউন ডায়াগ্রাম।

সেন্সনোভা ইউ১ দ্বারা তৈরি

নির্দেশনাগুলো আরেকটু বিস্তারিত হলে, এটি নির্দেশনা অনুযায়ী টেক্সটটিকে নির্ভুলভাবে একটি অত্যন্ত দৃষ্টিনন্দন ইনফোগ্রাফিকে রূপান্তর করতে পারে।

উদাহরণস্বরূপ, সম্প্রতি জনপ্রিয় উহান-শৈলীর তিন উপাদানের টোফু স্কিনের সম্পূর্ণ উৎপাদন প্রক্রিয়ার একটি ধাপে ধাপে চিত্র তৈরি করার জন্য এটিকে সরাসরি সেন্সনোভা ইউ১-কে নির্দেশ দেওয়া যেতে পারে।

গ্রীষ্মকাল আসন্ন হওয়ায়, একটি ইনফোগ্রাফিকের সাহায্যে বিভিন্ন সানস্ক্রিন বেছে নেওয়ার কাজটিও করা যেতে পারে, যেখানে এসপিএফ (SPF) এবং পিএ (PA) মানের মতো জটিল নির্বাচন প্যারামিটারগুলো স্পষ্টভাবে ব্যাখ্যা করা থাকে।

এটি এমনকি একটি বৃহৎ এআই মডেলের প্রশিক্ষণ থেকে শুরু করে ইনফারেন্স পর্যন্ত কার্যপ্রণালীর চিত্র অঙ্কন করতে পারে, যা প্রযুক্তিগত জ্ঞানহীন মানুষের পক্ষেও বোঝা সহজ করে তোলে; সেন্সনোভা ইউ১ একটি সহজ ও মজাদার শৈলী ব্যবহার করে একটি বৃহৎ এআই মডেলের কার্যপ্রক্রিয়াকে সরলভাবে বর্ণনা করতে পারে।

অন্যান্য অ্যাপ্লিকেশন সিনারিও, যেমন মার্কেটিং, অফিস, ডিজাইন রেফারেন্স এবং বিজনেস অ্যানালিটিক্স-এ, আমরা বিভিন্ন উদাহরণের মাধ্যমে সেন্সনোভা ইউ১-এর পারফরম্যান্স পরীক্ষা করেছি।

সাধারণভাবে বলতে গেলে, মার্কেটিং সিনারিওগুলোতে ভিজ্যুয়াল স্টাইলের ওপর সবচেয়ে বেশি জোর দেওয়া হয় এবং একজন মডেল সত্যিই "ব্যবহারকারী কী অনুভূতি প্রকাশ করতে চান" তা বোঝেন কিনা, তার সেরা সূচক হলো এটি। কোনো আর্টিকেলের মাঝখানে রাখা একটি ভালো মার্কেটিং ইমেজকে এমনকি উইচ্যাটের আর্টিকেলের ভেতরের কোনো বিজ্ঞাপন বলেও ভুল করা হতে পারে।

সেন্সনোভা ইউ১ দ্বারা তৈরি এই সাংহাই ভ্রমণ ইনফোগ্রাফিকটির মতোই, এটি শুধু মানচিত্রই প্রদর্শন করে না, বরং সাংহাইয়ের অনন্য বৈশিষ্ট্যগুলোও তালিকাভুক্ত করে।

অফিসের পরিবেশে, নির্ভুলতা এবং দক্ষতার চেয়ে বাহ্যিক সৌন্দর্য বেশি গুরুত্বপূর্ণ। আমরা পাঁচ পৃষ্ঠার একটি সভার কার্যবিবরণীকে সংকুচিত করে একটি একক, সহজে দর্শনযোগ্য সারসংক্ষেপ চার্টে রূপান্তর করার মাধ্যমে এর তথ্য প্রক্রিয়াকরণ ক্ষমতা পরীক্ষা করেছি। চার্টটিকে যৌক্তিকভাবে স্পষ্ট হতে হতো, মূল বিষয়গুলো তুলে ধরতে হতো এবং সভায় উপস্থিত না থাকা সহকর্মীদের কাছে সহজে ফরোয়ার্ড করার উপযোগী হতে হতো।

জটিল তথ্যের পাশাপাশি, সেন্সনোভা ইউ১ চমৎকার ভিজ্যুয়াল স্টাইল রেফারেন্সও প্রদান করে। একটি ব্র্যান্ডের টোনের বর্ণনা দেওয়া হলে, কালার স্কিম সাজেশন, লেআউট সাজেশন এবং অ্যাটমোস্ফিয়ারিক কীওয়ার্ডসহ একটি স্টাইল রেফারেন্স ইমেজ তৈরি করতে হয়, এবং এর ফলাফল আশ্চর্যজনকভাবে ভালো হয়।

আমরা কিছু ডেটা বিশ্লেষণমূলক কাজে সেন্সনোভা ইউ১-এর ডেটা ভিজ্যুয়ালাইজেশন ক্ষমতাও পরীক্ষা করেছি, যা চার্টের আকারে আরও যৌক্তিক ইনফোগ্রাফিক উপস্থাপন করে।

যেমনটা দেখতে পাচ্ছেন, সেন্সনোভা ইউ১ তথ্য আহরণের কাজটি ভালোভাবে করে; এটি বিষয়বস্তু সত্যিই বোঝে এবং জানে কোনটি গুরুত্বপূর্ণ আর কোনটি গৌণ।

তবে, ভিজ্যুয়াল এক্সপ্রেশনে উন্নতির এখনও সুযোগ রয়েছে। মাঝে মাঝে কিছু টেক্সট রেন্ডার করার ক্ষেত্রে এখনও ভুল হয়। যেসব ক্ষেত্রে দ্রুত ইমেজ আউটপুট প্রয়োজন এবং ডিজাইন টুলগুলিতে বারবার অ্যাডজাস্ট করে সময় নষ্ট করতে চাওয়া হয় না, সেসবের জন্য এটি যথেষ্টের চেয়েও বেশি।

পরবর্তী মাল্টিমোডাল মডেলটি কেমন হবে

SenseNova U1 পরীক্ষা করার পর আমরা দেখতে পেয়েছি যে, এর তাৎপর্য এই যে, এটিই প্রথম ওপেন-সোর্স মডেল যা 'বোঝা এবং তৈরি করা'-র একীকরণকে গুরুত্বের সাথে অর্জন করেছে। এবং এটিই হয়তো সমগ্র মাল্টিমোডাল ক্ষেত্রের পরবর্তী দিকনির্দেশনা হতে পারে।

GPT Image 2-এর ব্যাপক গ্রহণযোগ্যতা প্রমাণ করে যে, ইমেজ জেনারেশনের ক্ষেত্রে ক্লোজড-সোর্স মডেলগুলো ইতিমধ্যেই 'জেনারেশন কোয়ালিটি'-র একটি উচ্চ মান স্থাপন করেছে। ওপেন-সোর্স মডেলগুলো যদি একই দিকে এই লক্ষ্য অনুসরণ করতে থাকে, তবে তাদের সমকক্ষ হতে সম্ভবত অনেক দীর্ঘ সময় লাগবে এবং ওপেন-সোর্সের মূল্য কেবল 'সস্তা' হওয়ার মধ্যেই সীমাবদ্ধ হয়ে পড়বে।

সেন্সনোভা ইউ১ একটি ভিন্ন প্রযুক্তিগত পথের সন্ধান দেয় এবং এটি সমগ্র ওপেন-সোর্স কমিউনিটির ভবিষ্যৎ দিকনির্দেশনার জন্য তাৎপর্যপূর্ণ। ‘কীভাবে আরও ভালো গ্রাফ তৈরি করা যায়’—এই প্রশ্নের উত্তর দেওয়ার পাশাপাশি, মাল্টিমোডাল মডেলের পরবর্তী ধাপটি কেমন হতে পারে, সে সম্পর্কেও এটি আমাদের ধারণা দেয়।

▲ সেন্সনোভা ইউ১ (SenseNova U1) শিল্পে সর্বপ্রথম নিও-ইউনিফাই (NEO-unify) নেটিভ আর্কিটেকচার গ্রহণ করেছে, যা দক্ষ ও সমন্বিত মাল্টিমোডাল অনুধাবন এবং উৎপাদন অর্জন করে।

প্রচলিত মাল্টিমোডাল মডেলগুলিতে, গ্রাফ বোঝা এবং গ্রাফ তৈরি করা হলো দুটি সহযোগী সিস্টেম। একটি সিস্টেম ইনপুট বোঝার জন্য এবং অন্যটি আউটপুট আঁকার জন্য দায়ী থাকে, যেখানে একটি ইন্টারফেসের মাধ্যমে তথ্য প্রেরণ করা হয়। প্রতিটি সিস্টেমের নিজস্ব অভ্যন্তরীণ ভাষা থাকে এবং তথ্য স্থানান্তরের সময় তা হারিয়ে যায়। এটা অনেকটা অনুবাদ সফটওয়্যার ব্যবহার করে দুজন মানুষের যোগাযোগের মতো; সাধারণ অর্থ বোঝা গেলেও, কিছু একটা সবসময় অনুপস্থিত থাকে।

অন্যদিকে, সেন্সনোভা ইউ১ এই দুটি বিষয়কে একেবারে গোড়া থেকে একটি একক উপস্থাপনা স্থানে একীভূত করে। এই বছরের মার্চ মাসে তাদের প্রযুক্তিগত ব্লগ পোস্টে নিও-ইউনিফাই আর্কিটেকচার ব্যাখ্যা করার উপর আলোকপাত করা হয়েছিল।

বৃহৎ আকারের মডেলের ক্ষেত্রে বর্তমান শিল্প রীতি হলো, মাল্টিমোডাল এআই ইমেজ প্রসেসিং জেনারেটরের কাছে ছবি হস্তান্তরের আগে সেগুলোকে সংকুচিত ও প্রক্রিয়াজাত করার জন্য একটি 'ভিজ্যুয়াল এনকোডার (VE)' ব্যবহার করে। NEO-unify আর্কিটেকচারে, SenseTime এই কষ্টসাধ্য প্রচলিত পদ্ধতিটি সম্পূর্ণরূপে পরিত্যাগ করেছে।

NEO-unify আর্কিটেকচার সমন্বিত SenseNova U1 একটি প্রায়-ক্ষতিহীন ভিজ্যুয়াল ইন্টারফেস ব্যবহার করে, যা কোনো পূর্ব-প্রশিক্ষিত এনকোডার কম্প্রেশন ছাড়াই সরাসরি ইমেজ প্যাচ অন্তর্ভুক্ত করে। এরপর, একই ব্যাকবোন নেটওয়ার্কের মধ্যে টেক্সট এবং ভিশনের প্রশিক্ষণ একটি সমন্বিত পদ্ধতিতে এন্ড-টু-এন্ড সম্পন্ন করা হয়।

বিভিন্ন বেঞ্চমার্ক পরীক্ষা বোঝা এবং তৈরি করার ক্ষেত্রে, সেন্সনোভা ইউ১-এর পারফরম্যান্স একই মাপের ওপেন-সোর্স মডেলগুলোর অত্যাধুনিক (SOTA) পর্যায়ে পৌঁছেছে এবং অনেক মেট্রিক্সে এর পারফরম্যান্স এমনকি ন্যানো ব্যানানার মতো ক্লোজড-সোর্স মডেলগুলোর সাথেও তুলনীয়।

▲ এগুলো হলো যথাক্রমে চিত্র অনুধাবন, চিত্র তৈরি এবং দৃশ্যগত যুক্তির বেঞ্চমার্ক পরীক্ষার ফলাফল।

এটি মাল্টিমোডাল কম্পিউটিংয়ের মৌলিক নীতিগুলিতে ফিরে আসে, যা অন্তর্নিহিত পিক্সেল ও টেক্সট থেকে শুরু করে নিজস্ব অভ্যন্তরীণ উপলব্ধি ব্যবস্থা গড়ে তোলে।

এ কারণেই এটি কম টোকেন ব্যবহার করে এবং এর উৎপাদন দক্ষতা বেশি। এমনকি মাত্র ৮ বাইট প্যারামিটারযুক্ত সংস্করণটিও অত্যন্ত উচ্চ ব্যয়-সাশ্রয়ীতা অর্জন করতে পারে।

এই ওপেন-সোর্স রিলিজটি হলো SenseNova U1 Lite, যা SenseNova U1-এর একটি হালকা সংস্করণ। বর্তমানে এর দুটি সংস্করণ রয়েছে: SenseNova-U1-8B-MoT, যাতে ৮ বাইট প্যারামিটার রয়েছে এবং যা এজ ডিভাইসে চলতে পারে; এবং SenseNova-U1-A3B-MoT, যাতে মোট ৩৮ বাইট প্যারামিটার থাকলেও মাত্র ৩ বাইট সক্রিয় থাকে, যা ইনফারেন্স খরচ অত্যন্ত কম রেখে আরও শক্তিশালী সক্ষমতা প্রদান করে।

▲SenseNova U1 ইতিমধ্যে GitHub এবং Hugging Face-এ ওপেন সোর্স হিসেবে উপলব্ধ, লিঙ্ক: https://github.com/OpenSenseNova/SenseNova-U1, https://huggingface.co/collections/sensenova/sensenova-u1

উভয় সংস্করণই স্থানীয়ভাবে স্থাপন, সূক্ষ্মভাবে সমন্বয় এবং আপনার নিজস্ব ডেটা পাইপলাইনে একীভূত করা যায়। যেসব ডেভেলপার তাদের পণ্যে ইমেজ তৈরির সক্ষমতা যুক্ত করতে চান, তারা মডেলটির আচরণের উপর সম্পূর্ণ নিয়ন্ত্রণ রাখতে পারেন এবং ডেটা এক্সপোর্ট করারও প্রয়োজন হয় না।

আপনার যদি এমন একটি মডেলের প্রয়োজন হয় যা দক্ষতার সাথে বোঝা এবং তৈরি করতে পারে, তবে ওপেন-সোর্স মডেলগুলোর মধ্যে সবচেয়ে শক্তিশালী প্রতিনিধি হিসেবে সেন্সনোভা ইউ১ (SenseNova U1) অবশ্যই চেষ্টা করে দেখার মতো।

SenseTime এজেন্ট রানটাইমের জন্য একটি AIGC স্কিল লাইব্রেরি, SenseNova-Skills, GitHub-এ ওপেন-সোর্স করেছে। আমরা SenseNova U1-এর শক্তিশালী সক্ষমতাগুলো সরাসরি আমাদের নিজস্ব এজেন্ট ওয়ার্কফ্লোতে একীভূত করতে পারি।

এই টুলকিটটি ব্যবহার করে, আমরা OpenClaw এবং Hermes-এর মতো এজেন্ট প্ল্যাটফর্মের মধ্যে এক ক্লিকেই এটিকে সরাসরি চালু করতে পারি। মডেলটি স্বয়ংক্রিয়ভাবে আমাদের দেওয়া নির্দেশাবলী মূল্যায়ন করে, উপযুক্ত লেআউট নির্বাচন করে এবং একাধিকবার তৈরির পর সেরা পেশাদার ইনফোগ্রাফিক ফলাফল প্রদান করে।

▲ দক্ষতার লিঙ্ক: https://github.com/OpenSenseNova/SenseNova-Skills

সম্পূর্ণ পরীক্ষাটি পর্যালোচনা করলে দেখা যায়, সেন্সনোভা ইউ১ ভালো পারফরম্যান্স দেখিয়েছে, যা এটিকে বর্তমানে আমাদের হাতে থাকা এর শ্রেণীর সবচেয়ে শক্তিশালী ওপেন-সোর্স মডেলে পরিণত করেছে।

নির্মাতাদের জন্য, এর শিল্পে সর্বপ্রথম অবিচ্ছিন্নভাবে লেখা ও ছবি তৈরির ক্ষমতা, লেখা ও ছবির পৃথক থাকার পুরোনো সংকটকে ভেঙে দেয় এবং একই সাথে চিন্তা করা, লেখা ও ছবি যুক্ত করার মতো সুসংহত সৃষ্টিকে বাস্তবে পরিণত করে।

iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট iFanr (WeChat ID: ifanr) ফলো করুন, যেখানে যত তাড়াতাড়ি সম্ভব আপনার জন্য আরও আকর্ষণীয় কন্টেন্ট উপস্থাপন করা হবে।