ওয়াল-ফেসিং ইন্টেলিজেন্স অর্থায়নে কয়েক মিলিয়ন ইউয়ানের একটি নতুন রাউন্ড সম্পন্ন করেছে এবং MiniCPM-এর দ্বিতীয় সংস্করণ প্রকাশ করেছে, একটি উচ্চ-ক্ষমতাসম্পন্ন ছোট ইস্পাত কামান

একটি ছোট জিনিস থেকে একটি বড় পার্থক্য করার অনুপ্রেরণামূলক গল্প শুধুমাত্র উদ্যোক্তার ইতিহাসে ঘটে না, বড় আকারের এন্ড-টু-এন্ড মডেলেও ঘটে।

এই বছরের ফেব্রুয়ারিতে, ওয়াল-ফেসিং ইন্টেলিজেন্স আনুষ্ঠানিকভাবে 2B ফ্ল্যাগশিপ এন্ড-সাইড লার্জ-স্কেল মডেল ওয়াল-ফেসিং মিনিসিপিএম প্রকাশ করেছে, যা শুধুমাত্র "ওপেনএআই-এর ইউরোপীয় সংস্করণ" থেকে পারফরম্যান্স বেঞ্চমার্ককে অতিক্রম করেনি, বরং সামগ্রিকভাবে গুগল জেমার থেকেও এগিয়ে ছিল। 2B স্তর, এমনকি আয়তনে 7B এবং 13B ছাড়িয়ে গেছে। স্তরের মডেল, যেমন Llama2-13B, ইত্যাদি।

সম্প্রতি, প্রাইমাভেরা ভেঞ্চারস এবং হুয়াওয়ে হাবলের নেতৃত্বে ওয়াল-ফেসিং ইন্টেলিজেন্সও কয়েকশ মিলিয়ন ইউয়ানের অর্থায়নের একটি নতুন রাউন্ড সম্পন্ন করেছে এবং তারপরে বেইজিং কৃত্রিম বুদ্ধিমত্তা শিল্প বিনিয়োগ তহবিল এবং অন্যান্যরা অনুসরণ করেছে। ঝিহু, একটি কৌশলগত শেয়ারহোল্ডার হিসাবে, অব্যাহত রয়েছে বিনিয়োগ এবং সমর্থন, এবং বিনিয়োগ ত্বরান্বিত করতে প্রতিশ্রুতিবদ্ধ।বড় মডেলের দক্ষ প্রশিক্ষণ প্রচার এবং দ্রুত প্রয়োগ বাস্তবায়ন।

আজ, সাইড-টু-সাইড বৃহৎ মডেল প্রাচীর-মুখী MiniCPM ছোট ইস্পাত কামান বিজয়কে তাড়া করছে এবং দ্বিতীয় চার-শট সিরিজের সূচনা করছে। মূল থিম হল "ছোট কিন্তু শক্তিশালী, ছোট কিন্তু সম্পূর্ণ।"

তাদের মধ্যে, MiniCPM-V2.0 মাল্টি-মোডাল মডেলটি তার OCR ক্ষমতাকে উল্লেখযোগ্যভাবে উন্নত করেছে এবং ওপেন সোর্স মডেলের সেরা OCR পারফরম্যান্সকে রিফ্রেশ করেছে। সাধারণ দৃশ্যের পাঠ্য Gemini-Pro-এর সাথে তুলনীয় এবং 13B মডেলের সম্পূর্ণ সিরিজকে ছাড়িয়ে গেছে।

অবজেক্ট হ্যালবেঞ্চ তালিকায় যা বড় মডেলের বিভ্রমগুলিকে মূল্যায়ন করে, MiniCPM-V2.0 এবং GPT-4V প্রায় সমানভাবে সম্পাদন করে।

OpenCompass তালিকায় যা 11টি মূলধারার মূল্যায়ন মানদণ্ডকে একত্রিত করে, MiniCPM-V2.0 মাল্টি-মোডাল মডেলের সাধারণ ক্ষমতা 55.0 স্কোর সহ Qwen-VL-Chat-10B, CogVLM-Chat-17B, Yi-VL-34B, ইত্যাদিকে ছাড়িয়ে গেছে আরও বড় মডেল।

অফিসিয়াল প্রদর্শনের ক্ষেত্রে, একই ছবির দৃশ্যটি বিশদভাবে বর্ণনা করতে বলা হলে, GPT-4V 6টি হ্যালুসিনেশনের সাথে প্রতিক্রিয়া জানায়, যেখানে MiniCPM-V2.0-এর শুধুমাত্র 3টি হ্যালুসিনেশন ছিল।

এছাড়াও, MiniCPM-V2.0 যৌথভাবে Tsinghua University Museum – Tsinghua Slips-এর ধন অন্বেষণ করার জন্য Tsinghua University-এর সাথে গভীর সহযোগিতা শুরু করেছে।

এর শক্তিশালী মাল্টি-মোডাল স্বীকৃতি এবং যুক্তির ক্ষমতার জন্য ধন্যবাদ, MiniCPM-V2.0 সহজে এটি পরিচালনা করতে পারে যে এটি সহজ শব্দ "কে" বা জটিল শব্দ "I" এর স্বীকৃতি।

অনুরূপ চীনা বেঞ্চমার্ক মাল্টি-মোডাল বড় মডেলের সাথে প্রতিযোগিতায়, MiniCPM-V2.0-এর স্বীকৃতির নির্ভুলতা অনেক এগিয়ে।

সুনির্দিষ্ট বিবরণের স্বীকৃতি চিত্রগুলির স্বচ্ছতার জন্য উচ্চতর প্রয়োজনীয়তাগুলিকে সামনে রাখে এবং ঐতিহ্যগত বড় মডেলগুলি সাধারণত শুধুমাত্র 448×448 পিক্সেলের ছোট ছবিগুলি পরিচালনা করতে পারে৷ একবার তথ্য সংকুচিত হয়ে গেলে, মডেলটি পড়া কঠিন হবে৷

কিন্তু এটি MiniCPM-V2.0-এর জন্য কোনও সমস্যা নয়৷ অফিসিয়াল প্রদর্শনের ক্ষেত্রে, একটি সাধারণ শহুরে রাস্তার দৃশ্যের চিত্রের মুখোমুখি, MiniCPM-V2.0 এক নজরে মূল তথ্য ক্যাপচার করতে পারে, এমনকি খালি চোখে এটি সনাক্ত না করেও৷" ফ্যামিলি মার্ট"ও সহজেই ক্যাপচার করা যায়।

দীর্ঘ চিত্রগুলিতে সমৃদ্ধ পাঠ্য তথ্য থাকে এবং বহু-মোডাল মডেলগুলি প্রায়শই দীর্ঘ চিত্রগুলি সনাক্ত করতে অক্ষম হয়, তবে MiniCPM-V 2.0 দৃঢ়ভাবে দীর্ঘ চিত্রগুলির মূল তথ্য উপলব্ধি করতে পারে।

448×448 পিক্সেল থেকে, 1.8 মিলিয়ন হাই-ডেফিনিশন বড় ছবি এবং এমনকি 1:9 (448 * 4032) এর চূড়ান্ত আকৃতির অনুপাত পর্যন্ত, MiniCPM-V 2.0 ক্ষতিহীন স্বীকৃতি অর্জন করতে পারে।

এটা বোঝা যায় যে একচেটিয়া প্রযুক্তি LLaVA-UHD আসলে MiniCPM-V 2.0 হাই-ডেফিনিশন ইমেজগুলির দক্ষ এনকোডিংয়ের পিছনে ব্যবহৃত হয়৷

  • মডুলার ভিজ্যুয়াল এনকোডিং: আসল রেজোলিউশন ইমেজটি পরিবর্তনশীল-আকারের স্লাইসে বিভক্ত, পিক্সেল প্যাডিং বা চিত্র বিকৃতি ছাড়াই আসল রেজোলিউশনে সম্পূর্ণ অভিযোজনযোগ্যতা অর্জন করে।
  • ভিজ্যুয়াল কম্প্রেশন মডিউল: ইমেজ স্লাইসগুলির ভিজ্যুয়াল টোকেনগুলিকে সংকুচিত করতে একটি শেয়ার্ড পারসেপ্ট্রন রিস্যাম্পলিং লেয়ার ব্যবহার করে৷ রেজোলিউশন নির্বিশেষে টোকেনের সংখ্যা সাশ্রয়ী এবং গণনাগত জটিলতা কম৷
  • স্থানিক পরিবর্তন পদ্ধতি: চিত্রের টুকরোগুলির আপেক্ষিক অবস্থানগুলি কার্যকরভাবে জানাতে প্রাকৃতিক ভাষার প্রতীকগুলির সহজ নিদর্শনগুলি ব্যবহার করুন৷

চীনা OCR ক্ষমতার পরিপ্রেক্ষিতে, MiniCPM-V 2.0 এছাড়াও উল্লেখযোগ্যভাবে GPT-4V কে ছাড়িয়ে গেছে। GPT-4V এর "অসহায়ত্ব" এর সাথে তুলনা করে, এর চিত্রগুলি সঠিকভাবে সনাক্ত করার ক্ষমতা আরও বেশি মূল্যবান।

এই ক্ষমতার পিছনে রয়েছে ক্রস-মডেল এবং ক্রস-ল্যাঙ্গুয়েজ সাধারণীকরণ প্রযুক্তির সমর্থন, যা চীনা ক্ষেত্রে উচ্চ-মানের, বৃহৎ মাল্টি-মডেল ডেটার অভাবের চ্যালেঞ্জ সমাধান করতে পারে।

দীর্ঘ টেক্সট প্রক্রিয়া করার ক্ষমতা সবসময় মডেল পরিমাপের জন্য একটি গুরুত্বপূর্ণ মানদণ্ড হয়েছে।

যদিও 128K দীর্ঘ পাঠ্য ক্ষমতা নতুন কিছু নয়, MiniCPM-2B-128K এর জন্য, যা শুধুমাত্র 2B, এটি অবশ্যই প্রশংসার যোগ্য কিছু।

ক্ষুদ্রতম 128K দীর্ঘ টেক্সট মডেল, MiniCPM-2B-128K দীর্ঘ টেক্সট মডেল, আসল 4K প্রসঙ্গ উইন্ডোকে 128K পর্যন্ত প্রসারিত করে, যা InfiniteBench তালিকায় Yarn-Mistral-7B-128K-এর মতো সংখ্যক 7B মডেলকে ছাড়িয়ে যায়।

MoE আর্কিটেকচার প্রবর্তন করার মাধ্যমে, সদ্য প্রকাশিত MiniCPM-MoE-8x2B MoE কর্মক্ষমতা গড়ে 4.5% উন্নত হয়েছে, যা 7B মডেলের সমগ্র সিরিজ এবং LlaMA234B-এর মতো বড় মডেলগুলিকে ছাড়িয়ে গেছে, যেখানে অনুমান খরচ Gemma-এর মাত্র 69.7%। 7B.

MiniCPM-1.2B প্রমাণ করে যে "ছোট" এবং "শক্তিশালী" পারস্পরিক একচেটিয়া নয়।

যদিও প্রত্যক্ষ প্যারামিটারগুলি অর্ধেক হ্রাস পেয়েছে, MiniCPM-1.2B এখনও পূর্ববর্তী প্রজন্মের 2.4B মডেলের 87% ব্যাপক কার্যকারিতা বজায় রাখে৷ একাধিক পাবলিক প্রামাণিক পরীক্ষার তালিকায়, 1.2B মডেলটি অত্যন্ত সক্ষম, এবং এর ব্যাপক কর্মক্ষমতা Qwen-কে ছাড়িয়ে গেছে 1.8B এবং Qwen 1.8B। Llama 2-7B এমনকি Llama 2-13B-এর সাথে চমৎকার ফলাফল।

iPhone 15 মোবাইল ফোনে MiniCPM-1.2B মডেলের স্ক্রীন রেকর্ডিং প্রদর্শন, অনুমান গতি 38% বৃদ্ধি পেয়েছে। এটি প্রতি সেকেন্ডে 25 টোকেন/সেকেন্ডে পৌঁছেছে, যা মানুষের কথা বলার গতির চেয়ে 15 থেকে 25 গুণ বেশি দ্রুত। একই সময়ে, মেমরি 51.9% হ্রাস পেয়েছে, খরচ 60% হ্রাস পেয়েছে এবং বাস্তবায়ন মডেলটি ছোট, কিন্তু ব্যবহার দৃশ্যকল্প ব্যাপকভাবে বৃদ্ধি করা হয়.

বড়-প্যারামিটার মডেলের অনুসরণে, ফেস ওয়াল ইন্টেলিজেন্স একটি অনন্য প্রযুক্তিগত পথ বেছে নিয়েছে – যতটা সম্ভব ছোট আকার এবং শক্তিশালী কর্মক্ষমতা সহ মডেলগুলি বিকাশ করতে।

প্রাচীর-মুখী MiniCPM ছোট ইস্পাত কামানের অসামান্য কর্মক্ষমতা সম্পূর্ণরূপে প্রমাণ করে যে "ছোট" এবং "শক্তিশালী", "ছোট" এবং "পূর্ণ" পারস্পরিক একচেটিয়া বৈশিষ্ট্য নয়, কিন্তু সুরেলাভাবে সহাবস্থান করতে পারে। আমরা ভবিষ্যতে এই ধরনের আরও মডেলের জন্য উন্মুখ।

# aifaner: aifaner (WeChat ID: ifanr) এর অফিসিয়াল WeChat পাবলিক অ্যাকাউন্ট অনুসরণ করতে স্বাগতম। যত তাড়াতাড়ি সম্ভব আপনাকে আরও উত্তেজনাপূর্ণ সামগ্রী সরবরাহ করা হবে।

Ai Faner | আসল লিঙ্ক · মন্তব্য দেখুন · Sina Weibo