AI এর মূল সমস্যাগুলির মধ্যে একটি হল কুখ্যাতভাবে উচ্চ শক্তি এবং কম্পিউটিং চাহিদা, বিশেষ করে মিডিয়া জেনারেশনের মতো কাজের জন্য। মোবাইল ফোনে, যখন নেটিভভাবে চালানোর কথা আসে, শুধুমাত্র শক্তিশালী সিলিকন সহ কয়েকটি দামী ডিভাইস ফিচার স্যুট চালাতে পারে। এমনকি ক্লাউডে স্কেলে প্রয়োগ করা হলেও, এটি একটি দামী ব্যাপার ।
এনভিডিয়া হয়তো ম্যাসাচুসেটস ইনস্টিটিউট অফ টেকনোলজি এবং সিংহুয়া ইউনিভার্সিটির লোকদের সাথে অংশীদারিত্বে সেই চ্যালেঞ্জটি শান্তভাবে মোকাবেলা করেছে। দলটি HART (হাইব্রিড অটোরিগ্রেসিভ ট্রান্সফরমার) নামে একটি হাইব্রিড এআই ইমেজ জেনারেশন টুল তৈরি করেছে যা মূলত দুটি বহুল ব্যবহৃত এআই ইমেজ তৈরির কৌশলকে একত্রিত করে। তম ফলাফল নাটকীয়ভাবে কম গণনার প্রয়োজনীয়তা সহ একটি জ্বলন্ত দ্রুত সরঞ্জাম।
এটি কতটা দ্রুত তা আপনাকে একটি ধারণা দেওয়ার জন্য, আমি একটি বেস গিটার বাজানো একটি তোতাপাখির একটি চিত্র তৈরি করতে বলেছিলাম৷ এটি প্রায় এক সেকেন্ডের মধ্যে নিম্নলিখিত ছবির সাথে ফিরে এসেছে। আমি সবেমাত্র এমনকি অগ্রগতি বার অনুসরণ করতে পারে. যখন আমি একই প্রম্পটকে গুগলের ইমেজেন 3 মডেলের জেমিনিতে ঠেলে দিয়েছিলাম, তখন 200 এমবিপিএস ইন্টারনেট সংযোগে এটি প্রায় 9-10 সেকেন্ড সময় নেয়।

একটি ব্যাপক অগ্রগতি
যখন AI চিত্রগুলি প্রথম তরঙ্গ তৈরি করা শুরু করে, তখন বিস্তারের কৌশলটি ছিল এর পিছনে, ওপেনএআই-এর ডাল-ই ইমেজ জেনারেটর , গুগলের ইমেজেন এবং স্টেবল ডিফিউশনের মতো পণ্যগুলিকে শক্তিশালী করে। এই পদ্ধতিটি একটি অত্যন্ত উচ্চ স্তরের বিশদ সহ চিত্রগুলি তৈরি করতে পারে। যাইহোক, এটি AI ইমেজ তৈরি করার জন্য একটি বহু-পদক্ষেপ পদ্ধতি, এবং ফলস্বরূপ, এটি ধীর এবং গণনাগতভাবে ব্যয়বহুল।
দ্বিতীয় পদ্ধতি যা সম্প্রতি জনপ্রিয়তা অর্জন করেছে তা হল স্বয়ংক্রিয়-অনুসরণকারী মডেল, যা মূলত চ্যাটবটের মতো একই ফ্যাশনে কাজ করে এবং পিক্সেল পূর্বাভাস কৌশল ব্যবহার করে ছবি তৈরি করে। এটি দ্রুততর, তবে এআই ব্যবহার করে ছবি তৈরি করার একটি আরও ত্রুটি-প্রবণ পদ্ধতি।
MIT-এর দল উভয় পদ্ধতিকে HART নামক একক প্যাকেজে একত্রিত করেছে। এটি একটি স্বতন্ত্র টোকেন হিসাবে সংকুচিত চিত্র সম্পদের পূর্বাভাস দেওয়ার জন্য একটি অটোরিগ্রেশন মডেলের উপর নির্ভর করে, যখন একটি ছোট ডিফিউশন মডেল মানের ক্ষতির জন্য ক্ষতিপূরণের জন্য বাকিগুলি পরিচালনা করে। সামগ্রিক পদ্ধতির সাথে জড়িত পদক্ষেপের সংখ্যা দুই ডজনেরও বেশি থেকে আট ধাপে কমিয়ে দেয়।
হার্টের পিছনের বিশেষজ্ঞরা দাবি করেন যে এটি "এমন চিত্র তৈরি করতে পারে যা অত্যাধুনিক ডিফিউশন মডেলের মানের সাথে মেলে বা অতিক্রম করে, তবে এটি প্রায় নয় গুণ দ্রুত করে।" HART একটি 700 মিলিয়ন প্যারামিটার রেঞ্জের সাথে একটি অটোরিগ্রেসিভ মডেল এবং একটি ছোট ডিফিউশন মডেলকে একত্রিত করে যা 37 মিলিয়ন প্যারামিটার পরিচালনা করতে পারে।

খরচ-কম্পিউটিং সংকট সমাধান
মজার বিষয় হল, এই হাইব্রিড টুলটি 2 বিলিয়ন প্যারামিটার ক্ষমতা সহ টপ-শেল্ফ মডেলের মানের সাথে মেলে এমন চিত্র তৈরি করতে সক্ষম হয়েছিল। সবচেয়ে গুরুত্বপূর্ণ, HART সেই মাইলফলকটি নয় গুণ দ্রুত চিত্র তৈরির হারে অর্জন করতে সক্ষম হয়েছিল, যখন 31% কম গণনা সংস্থান প্রয়োজন।
দলের মতে, কম-কম্পিউট পদ্ধতি HART-কে স্থানীয়ভাবে ফোন এবং ল্যাপটপে চালানোর অনুমতি দেয়, যা একটি বিশাল জয়। এখন পর্যন্ত, সবচেয়ে জনপ্রিয় গণ-বাজার পণ্য যেমন ChatGPT এবং Gemini-এর জন্য ক্লাউড সার্ভারে কম্পিউটিং হওয়ার কারণে ইমেজ তৈরির জন্য একটি ইন্টারনেট সংযোগ প্রয়োজন।
পরীক্ষার ভিডিওতে, দলটি এটিকে ইন্টেলের কোর সিরিজ প্রসেসর এবং একটি Nvidia GeForce RTX গ্রাফিক্স কার্ড সহ একটি MSI ল্যাপটপে নেটিভভাবে চালানোর প্রদর্শন করেছে। এটি এমন একটি সংমিশ্রণ যা আপনি বেশিরভাগ গেমিং ল্যাপটপে খুঁজে পেতে পারেন, সেখানে থাকাকালীন কোনও ভাগ্য ব্যয় না করে।

HART একটি সম্মানজনক 1024 x 1024 পিক্সেল রেজোলিউশনে 1:1 অনুপাতের চিত্র তৈরি করতে সক্ষম। এই চিত্রগুলির বিশদ স্তরটি চিত্তাকর্ষক, এবং তাই শৈলীগত বৈচিত্র্য এবং দৃশ্যাবলীর নির্ভুলতা। তাদের পরীক্ষার সময়, দলটি উল্লেখ করেছে যে হাইব্রিড এআই টুলটি তিন থেকে ছয় গুণের মধ্যে যে কোন জায়গায় দ্রুত ছিল এবং সাত গুণ বেশি থ্রুপুট দেওয়া হয়েছে।
ভবিষ্যত সম্ভাবনা উত্তেজনাপূর্ণ, বিশেষ করে যখন ভাষা মডেলের সাথে HART-এর চিত্র ক্ষমতা একীভূত করা হয়। "ভবিষ্যতে, কেউ একটি ইউনিফাইড ভিশন-ল্যাংগুয়েজ জেনারেটিভ মডেলের সাথে ইন্টারঅ্যাক্ট করতে পারে, সম্ভবত এটিকে আসবাবপত্রের একটি টুকরো একত্রিত করার জন্য প্রয়োজনীয় মধ্যবর্তী পদক্ষেপগুলি দেখাতে বলে," এমআইটির দল বলে৷
তারা ইতিমধ্যে সেই ধারণাটি অন্বেষণ করছে, এমনকি অডিও এবং ভিডিও জেনারেশনে HART পদ্ধতির পরীক্ষা করার পরিকল্পনা করছে। আপনি এটি MIT এর ওয়েব ড্যাশবোর্ডে চেষ্টা করে দেখতে পারেন।
কিছু রুক্ষ প্রান্ত
মানের বিতর্কে ডুব দেওয়ার আগে, মনে রাখবেন যে HART একটি গবেষণা প্রকল্প যা এখনও প্রাথমিক পর্যায়ে রয়েছে। প্রযুক্তিগত দিক থেকে, দল দ্বারা হাইলাইট করা কয়েকটি ঝামেলা রয়েছে, যেমন অনুমান এবং প্রশিক্ষণ প্রক্রিয়ার সময় ওভারহেডগুলি।

চ্যালেঞ্জগুলি স্থির বা উপেক্ষা করা যেতে পারে, কারণ এখানে জিনিসগুলির বড় পরিকল্পনায় সেগুলি ছোট। অধিকন্তু, কম্পিউটিং দক্ষতা, গতি এবং বিলম্বের ক্ষেত্রে HART যে নিছক সুবিধাগুলি সরবরাহ করে তা বিবেচনা করে, তারা কোনও বড় পারফরম্যান্স সমস্যা না নিয়েই টিকে থাকতে পারে।
আমার সংক্ষিপ্ত সময়ের প্রম্পট-টেস্টিং হার্টে, আমি ইমেজ তৈরির গতি দেখে অবাক হয়েছিলাম। আমি সবেমাত্র একটি দৃশ্যের মধ্যে দৌড়েছি যেখানে বিনামূল্যের ওয়েব টুলটি একটি চিত্র তৈরি করতে দুই সেকেন্ডের বেশি সময় নেয়। এমনকি তিনটি অনুচ্ছেদ (প্রায় 200 শব্দের দৈর্ঘ্যে) বিস্তৃত প্রম্পট দিয়েও, HART এমন চিত্র তৈরি করতে সক্ষম হয়েছিল যা বর্ণনাকে শক্তভাবে মেনে চলে।

বর্ণনামূলক নির্ভুলতা ছাড়াও, চিত্রগুলিতে প্রচুর বিশদ ছিল। যাইহোক, HART একটি AI ইমেজ জেনারেটর টুলের সাধারণ ব্যর্থতায় ভুগছে। এটি অঙ্কের সাথে লড়াই করে, খাবারের আইটেম খাওয়া, চরিত্রের সামঞ্জস্য, এবং দৃষ্টিভঙ্গি ক্যাপচারে ব্যর্থ হওয়ার মতো মৌলিক বর্ণনা।
মানব প্রেক্ষাপটে ফটোরিয়ালিজম এমন একটি ক্ষেত্র যেখানে আমি স্পষ্ট ব্যর্থতা লক্ষ্য করেছি। কয়েকটি অনুষ্ঠানে, এটি কেবল মৌলিক বস্তুর ধারণাটি ভুল পেয়েছে, যেমন একটি নেকলেসের সাথে একটি আংটি বিভ্রান্ত করা। কিন্তু সামগ্রিকভাবে, সেই ত্রুটিগুলি অনেক দূরে, কম এবং মৌলিকভাবে প্রত্যাশিত ছিল। AI সরঞ্জামগুলির একটি সুস্থ গুচ্ছ এখনও কিছুক্ষণের জন্য বাইরে থাকা সত্ত্বেও এটি সঠিকভাবে পেতে পারে না।
সামগ্রিকভাবে, আমি HART এর অপার সম্ভাবনার দ্বারা বিশেষভাবে উত্তেজিত। এটি দেখতে আকর্ষণীয় হবে যে এমআইটি এবং এনভিডিয়া এটি থেকে একটি পণ্য তৈরি করে, নাকি কেবল বিদ্যমান পণ্যে হাইব্রিড এআই চিত্র তৈরির পদ্ধতি গ্রহণ করে। যেভাবেই হোক, এটি একটি খুব প্রতিশ্রুতিশীল ভবিষ্যতের একটি আভাস।