Qualcomm আপনার অ্যান্ড্রয়েড ফোনে এই পাগল AI টুল যোগ করতে চায়

Qualcomm Snapdragon 8 Gen 3 মিডিয়া সম্পদ।
কোয়ালকম

মোবাইল ওয়ার্ল্ড কংগ্রেস 2024- এ, কোয়ালকম অ্যান্ড্রয়েড ফোনের জন্য স্ন্যাপড্রাগন সিরিজের সিলিকন দ্বারা সহজলভ্য AI-অন-ফোন ট্রিক্সের পোর্টফোলিওতে আরও যোগ করছে। চিপমেকার ইতিমধ্যেই Snapdragon 8 Gen 3 ফ্ল্যাগশিপের জন্য কিছু চিত্তাকর্ষক AI ক্ষমতা প্রদর্শন করেছে, যেমন ভয়েস-অ্যাক্টিভেটেড মিডিয়া এডিটিং, স্টেবল ডিফিউশন ব্যবহার করে অন-ডিভাইস ইমেজ জেনারেশন, এবং মেটা-এর পছন্দ থেকে বৃহৎ ভাষার মডেলের উপরে তৈরি একটি স্মার্ট ভার্চুয়াল সহকারী।

আজ, সংস্থাটি সেই AI সুপারপাওয়ারগুলিতে আরও গ্রান্ট যুক্ত করছে। প্রথমটি একটি স্মার্টফোনে একটি বড় ভাষা এবং দৃষ্টি সহকারী (LLaVa) চালানোর ক্ষমতা। এটিকে ChatGPT-এর মতো একটি চ্যাটবট হিসেবে ভাবুন যাকে Google লেন্সের ক্ষমতা দেওয়া হয়েছে । যেমন, Qualcomm এর সমাধান শুধুমাত্র টেক্সট ইনপুট গ্রহণ করতে পারে না, কিন্তু ইমেজ প্রক্রিয়াও করতে পারে।

উদাহরণস্বরূপ, আপনি একটি চারকিউটারী বোর্ড চিত্রিত একটি চিত্র পুশ করতে পারেন এবং এর উপর ভিত্তি করে প্রশ্ন জিজ্ঞাসা করতে পারেন। AI সহকারী, একটি বড় মাল্টিমোডাল মডেল (LMM) এর উপর ভিত্তি করে যা 7 বিলিয়ন প্যারামিটারগুলি প্রক্রিয়া করতে পারে, তারপরে নীচে দেখানো ইনপুট ছবিতে চিত্রিত বোর্ডে সমস্ত ধরণের ফল, পনির, মাংস এবং বাদাম আপনাকে বলবে।

ফোনে স্মার্ট এআই সহকারীর কোয়ালকমের ডেমো।
কোয়ালকম

এটি ফলো-অন প্রশ্নগুলিও পরিচালনা করতে পারে, যাতে আপনি একটি প্রবাহিত কথোপকথন পরিচালনা করতে পারেন। এখন, ChatGPT-এর পছন্দগুলিও একাধিক-মডেল ক্ষমতা অর্জন করেছে, যার মানে OpenAI-এর টুল ইমেজ ইনপুটগুলিও প্রক্রিয়া করতে পারে। যাইহোক, একটি গুরুত্বপূর্ণ পার্থক্য আছে।

ChatGPT এবং Copilot এর মতো পণ্যগুলি এখনও একটি ক্লাউড-ভিত্তিক আর্কিটেকচারের সাথে সংযুক্ত থাকে, যার অর্থ আপনার ডেটা রিমোট সার্ভারে পরিচালনা করা হয়। কোয়ালকমের ধাক্কা অন-ডিভাইস প্রক্রিয়াকরণের দিকে। আপনার ফোনে সবকিছু ঘটে, যার অর্থ পুরো প্রক্রিয়াটি দ্রুততর এবং গোপনীয়তার অনুপ্রবেশের ঝুঁকি কম।

"এই LMM ডিভাইসে একটি প্রতিক্রিয়াশীল টোকেন হারে চলে, যার ফলে উন্নত গোপনীয়তা, নির্ভরযোগ্যতা, ব্যক্তিগতকরণ এবং খরচ হয়," Qualcomm বলে৷ Qualcomm এর প্রতিশ্রুত LLaVa-ভিত্তিক ভার্চুয়াল সহকারী একটি স্বতন্ত্র অ্যাপ হিসাবে আসবে কিনা বা এটি একটি ফি বহন করবে কিনা তা আনুষ্ঠানিকভাবে নিশ্চিত করা হয়নি।

Qualcomm থেকে পরবর্তী ঘোষণা ইমেজ তৈরি এবং ম্যানিপুলেশনের সৃজনশীল ডোমেনে ডুব দেয়। খুব বেশি দিন আগে, Qualcomm স্টেবল ডিফিউশন প্রযুক্তি ব্যবহার করে একটি ফোনে বিশ্বের দ্রুততম পাঠ্য-টু-ইমেজ জেনারেশন ডেমো করেছে৷ আজ, কোম্পানি LoRA-চালিত ইমেজ প্রজন্মের প্রথম আভাস দিচ্ছে।

ফোনে এআই ইমেজ জেনারেশনের কোয়ালকম শোকেস।
কোয়ালকম

LoRA একটি নিয়মিত জেনারেটিভ এআই টুল যেমন Dall.E এর চেয়ে ইমেজ তৈরিতে ভিন্ন পদ্ধতি গ্রহণ করে। LoRA, নিম্ন-র্যাঙ্ক অ্যাডাপ্টেশনের জন্য সংক্ষিপ্ত, মাইক্রোসফ্ট দ্বারা তৈরি একটি কৌশল। একটি AI মডেলকে প্রশিক্ষণ দেওয়া বেশ খরচ-নিষিদ্ধ, উচ্চ বিলম্বিত এবং বিশেষ করে হার্ডওয়্যার দৃষ্টিকোণ থেকে দাবি করা হতে পারে।

LoRA যা করে তা হল মডেলের ওজন নাটকীয়ভাবে হ্রাস করে, একটি লক্ষ্য যা শুধুমাত্র মডেলের নির্দিষ্ট অংশগুলিতে ফোকাস করে এবং প্রশিক্ষণের উদ্দেশ্যে প্যারামিটারের সংখ্যা হ্রাস করে অর্জন করা হয়। এটি করার ফলে, মেমরির প্রয়োজনীয়তা হ্রাস পায়, প্রক্রিয়াটি দ্রুততর হয় এবং একটি টেক্সট-টু-ইমেজ মডেলকে মানিয়ে নিতে সময় এবং প্রচেষ্টার পরিমাণও নাটকীয়ভাবে হ্রাস পায়।

সময়ের সাথে সাথে, টেক্সট প্রম্পট থেকে ছবি তৈরি করার জন্য স্থিতিশীল ডিফিউশন মডেলে LoRA পাতন কৌশল প্রয়োগ করা হয়েছে। দক্ষতায় লাভ এবং LoRA-ভিত্তিক মডেলগুলির সহজ অভিযোজনযোগ্যতার কারণে, এটি স্মার্টফোনের জন্য একটি টেইলর-নির্মিত রুট হিসাবে দেখা হয়। কোয়ালকম অবশ্যই তাই মনে করে, এমনকি প্রতিদ্বন্দ্বী মিডিয়াটেক তার ফ্ল্যাগশিপ ডাইমেনসিটি 9300 চিপে জেনারেটিভ এআই ট্রিকসের জন্য একই সমাধান গ্রহণ করেছে।

Qualcomm MWC 2024-এ আরও কয়েকটি AI কৌশল প্রদর্শন করছে, যার মধ্যে কয়েকটি ইতিমধ্যে Samsung Galaxy S24 Ultra-তে উপস্থিত হয়েছে । এর মধ্যে রয়েছে জেনারেটিভ এআই ফিল এবং এআই-চালিত ভিডিও জেনারেশন ব্যবহার করে একটি ছবির ক্যানভাস প্রসারিত করার ক্ষমতা। পরেরটি বেশ উচ্চাভিলাষী, বিশেষ করে ওপেনএআই সোরার সাথে কী অর্জন করেছে তা দেখার পরে। কোয়ালকম কীভাবে এটি স্মার্টফোনে পোর্ট করতে পরিচালনা করে তা দেখতে আকর্ষণীয় হবে।