GPT Image 2 টিমকে উন্মোচন করার পর, আমি একটি চীনা গুরু-শিষ্য নেটওয়ার্কের সন্ধান পাই।

GPT Image 2-এর আনুষ্ঠানিক উন্মোচনের সাথে সাথে, এআই ইমেজ জেনারেশনের ক্ষেত্রটিতে এখন কেবল দুটি স্তর রয়েছে: GPT Image 2 এবং অন্যান্য।

বৃহৎ আকারের মডেলের ক্ষেত্রে, GPT Image 2 ২৪১ পয়েন্টের নিরঙ্কুশ ব্যবধানে বিশাল ব্যবধানে এগিয়ে আছে, কিন্তু এর উন্নয়ন তালিকাটি বেঞ্চমার্ক স্কোরের চেয়েও বেশি আকর্ষণীয়।

এই মডেলটি তৈরি করা ওপেনএআই-এর মূল দলটিতে মাত্র ১৩ জন সদস্য রয়েছেন।

তাছাড়া, দলটির অর্ধেকই চীনা। তাদের জীবনবৃত্তান্তগুলো ভালোভাবে দেখলে আপনি দেখতে পাবেন যে, ওপেনএআই-তে যোগ দেওয়ার আগেই তাদের অনেকের পরিচয় হয়েছিল চীনের কোনো বিশ্ববিদ্যালয়, গবেষণাগার বা এমনকি কোনো গবেষণা গ্রীষ্মকালীন শিবিরে।

এআই কমিউনিটি মূলত পরিচিতজনদের একটি বিশাল বৃত্ত।

সিলিকন ভ্যালির প্রযুক্তি জগতের মহারথীরা আসে আর যায়, কিন্তু গুরু-শিষ্যের সম্পর্ক অপরিবর্তিত থাকে।

চেন বোয়ুয়ান জিপিটি ইমেজ ২-এর একজন অপরিহার্য সদস্য, এবং তার অগ্রগতি চীনা শিক্ষাঙ্গনের 'মেন্টরশিপ' মডেলের একটি উৎকৃষ্ট উদাহরণ।

হাই স্কুলে পড়ার সময় চেন বয়ুয়ান উক্সিতে একটি গবেষণা গ্রীষ্মকালীন শিবিরে অংশগ্রহণ করেন। সেই সময় তিনি প্রোগ্রামিং শেখেননি এবং সেখানেই তাঁর সাথে জিয়া ফেইয়ের পরিচয় হয়, যিনি একজন চীনা পণ্ডিত এবং পরবর্তীতে গুগল ডিপমাইন্ডের সিনিয়র গবেষক হয়েছিলেন। জিয়া ফেই তাঁকে ডিপ লার্নিংয়ের সাথে পরিচয় করিয়ে দেন এবং কৃত্রিম বুদ্ধিমত্তার জগতে তাঁর পথপ্রদর্শক হয়ে ওঠেন।

সেই থেকে তারা দুজন যোগাযোগ বজায় রেখেছেন। স্নাতক পড়ার সময় চেন বয়ুয়ান ইউসি বার্কলেতে কম্পিউটার সায়েন্স ও গণিতে মেজর করেন এবং ৩.৯৬ জিপিএ নিয়ে ইইসিএস অনার্স প্রোগ্রামে প্রবেশ করেন। তিনি পিটার অ্যাবেলের অধীনে পড়াশোনা করেন এবং ২০১৭ সালে একটি রোবোটিক্স শিক্ষা প্রতিষ্ঠানও প্রতিষ্ঠা করেন, যা ২০২০ সাল পর্যন্ত চালু ছিল।

এমআইটি-তে পিএইচডি ছাত্র হিসেবে তার প্রথম বছরে, প্রকাশনার অভাবে চেন বয়ুয়ানকে সমস্যার সম্মুখীন হতে হয়েছিল। জিয়া ফেই তাকে গুরুত্বপূর্ণ সহায়তা প্রদান করেন এবং তার প্রথম প্রভাবশালী গবেষণাপত্র ‘এনএলম্যাপ’ (NLMap) প্রকাশে সাহায্য করেন। জিয়া ফেই তাকে দুইবার ডিপমাইন্ডে ইন্টার্নশিপ করার জন্যও আমন্ত্রণ জানান। ২০২৩ সালে তার ইন্টার্নশিপ চলাকালীন, তিনি একটি মাল্টিমোডাল লার্জ ল্যাঙ্গুয়েজ মডেল ডেটা সিন্থেসিস পাইপলাইন তৈরিতে নেতৃত্ব দেন এবং তার সারসংক্ষেপ করা ইনস্ট্রাকশন ফাইন-টিউনিং কৌশলগুলো জেমিনি ২.০ (Gemini 2.0)-এর উন্নয়নে ব্যবহৃত হয়।

এই প্রেক্ষাপটে, চেন বোয়ুয়ান ২০২৫ সালের জুন মাসে ওপেনএআই-তে যোগদান করেন। এছাড়াও, তিনি সোরা ভিডিও জেনারেশন টিমের একজন সদস্য এবং সেখানে একাধিক পদে অধিষ্ঠিত আছেন।

এমআইটিতে থাকাকালীন চেন বয়ুয়ান কম্পিউটার সায়েন্স অ্যান্ড আর্টিফিশিয়াল ইন্টেলিজেন্স ল্যাবরেটরিতে (CSAIL) সহকারী অধ্যাপক ভিনসেন্ট সিটজম্যানের অধীনে ওয়ার্ল্ড মডেলিং নিয়ে অধ্যয়ন করেন। কিহওয়ান সং একই ল্যাবের একজন সহপাঠী ছিলেন এবং একই অধ্যাপকের তত্ত্বাবধানে ছিলেন।

▲ https://kiwhan.dev/

সিটজম্যান ল্যাবের গবেষণার মূল কেন্দ্রবিন্দু হলো 'ওয়ার্ল্ড মডেলিং', যার সহজ অর্থ হলো, শুধু পিক্সেল অনুকরণ না করে, মানসিক সিমুলেটরের মাধ্যমে ভৌত জগতের পরিবর্তন ভবিষ্যদ্বাণী করার জন্য এআই-কে সক্ষম করে তোলা। এই গবেষণা পদ্ধতিটি জিপিটি ইমেজ ২-এর প্রযুক্তিগত দিকনির্দেশনাকে সরাসরি প্রভাবিত করে থাকতে পারে।

তাঁরা দুজন তাঁদের ডক্টরাল অধ্যয়নকালে একাধিকবার একসঙ্গে কাজ করেছেন এবং যৌথভাবে 'হিস্ট্রি-গাইডেড ভিডিও ডিফিউশন' ও 'লার্জ ভিডিও প্ল্যানার' নামে দুটি গবেষণাপত্র প্রকাশ করেছেন। এগুলিতে মূলত অনুসন্ধান করা হয়েছে কীভাবে ডিফিউশন মডেল এবং সিকোয়েন্স জেনারেশনকে একত্রিত করা যায়, যা মডেলটিকে কন্টেন্ট তৈরির আগেই কালিক ও স্থানিক কার্যকারণ যুক্তি স্পষ্ট করতে সক্ষম করে।

▲ https://arxiv.org/abs/2502.06764

উল্লেখ্য যে, কিওয়ান সং হলেন ‘লম্বা গলা’ স্টিকার-শৈলীর কার্টুন অবতারের স্রষ্টা।

এই দুই সহপাঠী ছাড়াও দলটিতে আরও দুজন চীনা সদস্য রয়েছেন, যারা চীনা গবেষকদের এমন একটি নেটওয়ার্ক থেকে এসেছেন যাদের এই শিল্পক্ষেত্রে বছরের পর বছর ধরে অভিজ্ঞতা সঞ্চিত হয়েছে।

জিয়ানফেং ওয়াং প্রায় নয় বছর মাইক্রোসফটে প্রধান গবেষক হিসেবে বৃহৎ পরিসরের মাল্টিমোডাল রিপ্রেজেন্টেশন লার্নিং-এর উপর কাজ করেছেন। DALL-E 3 তৈরির সময় ওপেনএআই দলের সাথে তাঁর গভীর সহযোগিতা ছিল। ওপেনএআই-তে যোগদানের পর, তিনি প্রধানত মডেলটির নির্দেশনা পালনের ক্ষমতা এবং জগৎ সম্পর্কে ধারণা উন্নত করার দায়িত্বে ছিলেন।

▲ https://scholar.google.com/citations?user=vJWEw_8AAAAJ&hl=en

বিং লিয়াং গুগলে পাঁচ বছরেরও বেশি সময় কাটিয়েছেন, যেখানে তিনি সিনিয়র সফটওয়্যার ইঞ্জিনিয়ার হিসেবে ইমাজেন ৩, ভিও ভিডিও মডেল এবং জেমিনি মাল্টিমোডাল সিরিজের মূল গবেষণা ও উন্নয়নে অংশগ্রহণ করেন। তিনি গত আগস্টে ইমেজ জেনারেশন গবেষণার নেতৃত্ব দিতে ওপেনএআই-তে যোগদান করেছেন।

▲ https://www.linkedin.com/in/bing-liang/

তারা কেবল নিজেদের ব্যক্তিগত দক্ষতাই নয়, বরং তাদের প্রতিযোগীদের বহু বছরের সঞ্চিত প্রকৌশলগত অভিজ্ঞতা এবং সম্মুখীন হওয়া প্রতিবন্ধকতাগুলোও সঙ্গে নিয়ে এসেছিলেন, যা দলটিকে অনেক অপ্রয়োজনীয় পথ থেকে বাঁচিয়েছিল।

প্রতিভাবানদের জন্য একটি মঞ্চ প্রদান করুন

উইশিন লিয়াং এবং ইউগুয়াং ইয়াং দলের আরেকটি উল্লেখযোগ্য জুটি। দুজনেই ঝেজিয়াং বিশ্ববিদ্যালয়ের চু কোচেন অনার্স কলেজ থেকে স্নাতক হয়েছেন এবং তাদের স্নাতক পর্যায়ের শিক্ষাগত যোগ্যতাও একই।

ইউগুয়াং ইয়াং-এর কর্মজীবনের পরিধি বেশ বিস্তৃত। তিনি চু কোচেন অনার্স কলেজ থেকে ইঞ্জিনিয়ারিং-এ স্নাতক ডিগ্রি অর্জন করেন এবং এরপর জনস হপকিন্স বিশ্ববিদ্যালয় থেকে কম্পিউটেশনাল কেমিস্ট্রি, ফিজিক্স ও মেশিন লার্নিং বিষয়ে ডক্টরেট সম্পন্ন করেন। ডিগ্রি অর্জনের পর, তিনি অ্যামাজন অ্যালেক্সাতে স্পিচ রিকগনিশন বিষয়ে ডিপ লার্নিং গবেষণায় কাজ করেন এবং তারপর মাইক্রোসফট বিং-এ কোয়েরি আন্ডারস্ট্যান্ডিং ও লার্জ-স্কেল রিট্রিভালের দায়িত্বে যোগ দেন।

তিনি সিংহুয়া বিশ্ববিদ্যালয়ে মানব রক্তনালীতে ন্যানোরোবটের চলাচলের জন্য রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদমের উপর ভিজিটিং গবেষণাও পরিচালনা করেন, যে সময়ে তিনি সাতটি পিয়ার-রিভিউড জার্নাল পেপার প্রকাশ করেন। এই আন্তঃশাস্ত্রীয় পটভূমি GPT Image 2 রিলিজ ডেমোনস্ট্রেশনে সরাসরি সুস্পষ্ট।

ইউগুয়াং ইয়াং-এর তুলনায় ওয়েইশিন লিয়াং-এর কর্মজীবন বেশি অ্যাকাডেমিক। তিনি স্ট্যানফোর্ড এআই ল্যাব (SAIL)-এ পিএইচডি সম্পন্ন করেন, যে সময়ে তিনি ক্রিস্টোফার ম্যানিং, লি ফেই-ফেই এবং জেমস ঝোউ-সহ বেশ কয়েকজন প্রখ্যাত অধ্যাপকের সাথে কাজ করেছেন।

▲ https://ai.stanford.edu/~wxliang/

মেটাতে ইন্টার্নশিপ করার সময় তিনি "মিক্সচার-অফ-ট্রান্সফরমার্স (MoT)" শীর্ষক গবেষণাপত্রটি প্রকাশ করেন, যেখানে মোডাল ডিকাপলিং সহ একটি হাইব্রিড এক্সপার্ট মডেল আর্কিটেকচার উপস্থাপন করা হয়। এটি ফিডফরওয়ার্ড নেটওয়ার্ক, অ্যাটেনশন ম্যাট্রিক্স এবং লেয়ার নর্মালাইজেশন সহ ট্রান্সফরমারের প্রতিটি নন-এমবেডেড প্যারামিটারে মোডাল-অ্যাওয়্যার স্পার্স প্রসেসিং প্রয়োগ করে, যা ফলস্বরূপ মাল্টিমোডাল প্রি-ট্রেনিংয়ের কম্পিউটেশনাল খরচ ৬৬% কমিয়ে আনে এবং ৩০-বাইট প্যারামিটার স্কেলে প্রি-ট্রেনিং ভ্যালিডেশন সম্পন্ন করে।

মাল্টিমোডাল মডেল, যেগুলোকে একই সাথে টেক্সট এবং উচ্চ-রেজোলিউশনের ছবি প্রসেস করতে হয়, সেগুলোর কম্পিউটেশনাল খরচ সহজেই সূচকীয় হারে বাড়তে পারে। তবে, MoT তার মোডাল ডিকাপলিং অ্যাটেনশন মেকানিজমের মাধ্যমে প্রি-ট্রেনিং পর্যায়ে বিভিন্ন মোডালিটির মধ্যে দক্ষতার সাথে ওয়েট বণ্টন করে এই সমস্যার কার্যকরভাবে সমাধান করে। এই গবেষণাটি, যা পরবর্তীতে "মাল্টিমোডাল আন্ডারস্ট্যান্ডিং এবং জেনারেশনকে একীভূত করার ক্ষেত্রে একটি মৌলিক অবদান" হিসেবে প্রশংসিত হয়, মাল্টিমোডাল মডেলিংয়ের ক্ষেত্রে ব্যাপক মনোযোগ আকর্ষণ করেছে।

▲ https://arxiv.org/abs/2411.04996

সাম্প্রতিক বছরগুলোতে, সিংহুয়া বিশ্ববিদ্যালয়ের ইয়াও ক্লাস, ঝেজিয়াং বিশ্ববিদ্যালয়ের চু কোচেন অনার্স কলেজ, চীনের বিজ্ঞান ও প্রযুক্তি বিশ্ববিদ্যালয়ের জুনিয়র ক্লাস, সাংহাই জিয়াও টং বিশ্ববিদ্যালয় এবং অন্যান্য প্রতিষ্ঠানের স্নাতকরা ওপেনএআই, অ্যানথ্রোপিক, ডিপমাইন্ড এবং মেটার মতো বিদেশী এআই ল্যাবগুলোর মূল চালিকাশক্তিতে পরিণত হয়েছেন।

উপরে উল্লিখিত সদস্যদের পাশাপাশি, দলটিতে বেশ কয়েকজন মূল গবেষকও রয়েছেন, যাঁদের প্রত্যেকেই গুরুত্বপূর্ণ ভূমিকা পালন করেন:

কেনজি হাতা: স্ট্যানফোর্ড বিশ্ববিদ্যালয় থেকে কম্পিউটার সায়েন্সে স্নাতকোত্তর ডিগ্রি অর্জন করেছেন এবং পূর্বে গুগল রিসার্চে কর্মরত ছিলেন। ওপেনএআই-তে যোগদানের পর, তিনি 4o ইমেজ জেনারেশন (GPT-Image-1) এবং সোরা 2 সহ একাধিক মডেলের উন্নয়নে অংশগ্রহণ করেছেন এবং মডেল ইটারেশনের সবচেয়ে পূর্ণাঙ্গ অভিজ্ঞতা সম্পন্ন দলের সদস্যদের মধ্যে তিনি অন্যতম।

আয়ান হক: ওপেনএআই-তে যোগদানের পূর্বে তিনি লুমা এআই-তে গবেষক হিসেবে কর্মরত ছিলেন, যেখানে তিনি ড্রিম মেশিন নামক ভিডিও জেনারেশন মডেলের প্রশিক্ষণে অংশগ্রহণ করেন। এই অভিজ্ঞতা তাকে উচ্চ-মাত্রিক টেম্পোরাল ডেটা প্রক্রিয়াকরণের সক্ষমতা প্রদান করে। ওপেনএআই-তে তিনি প্রধানত জিপিটি ইমেজ ২ এবং থিংকিং প্যাটার্নস-এর উন্নয়নের দায়িত্বে ছিলেন।

দিব্যা ভট্টাচার্য: ইয়েল বিশ্ববিদ্যালয় থেকে কম্পিউটার সায়েন্সে স্নাতক ও স্নাতকোত্তর ডিগ্রি এবং গুগলে প্রায় ৫ বছরের অভিজ্ঞতা। তিনি ২০২৪ সালের ফেব্রুয়ারিতে ইমেজ জেনারেশন গবেষণার নেতৃত্ব দেওয়ার জন্য ওপেনএআই-তে যোগদান করেন। উদ্বোধনী অনুষ্ঠানে তিনি মডেলটির মাল্টি-ফরম্যাট জেনারেশন সক্ষমতা প্রদর্শন করেন এবং মডেলটির আউটপুট ফরম্যাটকে ‘আউট অফ দ্য বক্স’ করার ক্ষেত্রে তিনি একজন মূল সদস্য।

মেংচাও জেড.: সাংহাই জিয়াও টং বিশ্ববিদ্যালয় থেকে স্নাতক এবং টেক্সাস এএন্ডএম বিশ্ববিদ্যালয় থেকে স্নাতকোত্তর ডিগ্রিধারী, এবং তাঁর একটি শক্তিশালী প্রকৌশল পটভূমি রয়েছে। ওপেনএআই-তে যোগদানের পূর্বে, তিনি বৃহৎ পরিসরের সুপারিশ সিস্টেমের আর্কিটেকচার ডিজাইনের নেতৃত্ব দিয়েছিলেন এবং বর্তমানে মডেল প্রযুক্তিগত সক্ষমতাকে ব্যবহারযোগ্য পণ্যে রূপান্তরিত করার দায়িত্বে আছেন।

এছাড়াও, দলের আরও বেশ কয়েকজন সদস্যের পরিচয় বর্তমানে জানা যায়নি।

পরামর্শদাতা নেটওয়ার্ক গবেষণার প্রতি আগ্রহ তৈরি করে এবং বিশ্ববিদ্যালয়ের পটভূমি মৌলিক বোঝাপড়ার ভিত্তি স্থাপন করে। পরামর্শদাতা, সহপাঠী এবং প্রাক্তন সহকর্মীদের নিয়ে গড়া এই প্রতিভাবান নেটওয়ার্ক স্বাভাবিকভাবেই অত্যন্ত গভীর আস্থার সম্পর্ক গড়ে তোলে। মূল্যবোধ এবং প্রকৌশলগত ভাষায় উচ্চ মাত্রার ঐক্যের কারণে উদ্ভাবনের খরচ প্রায় শূন্য।

মোটা অঙ্কের টাকা দিয়ে এক বা দুজন চেন বয়ুয়ানকে দলে ভেড়ানোটা কেবলই একটি সাময়িক ব্যবস্থা। অংশীদার ছাড়া এই স্বতঃস্ফূর্ত উদ্ভাবনের পুনরাবৃত্তি করা কঠিন। বড় কোম্পানিগুলোর সুস্পষ্ট পদক্রম ও উদ্দেশ্যসহ সাংগঠনিক কাঠামো বাণিজ্যিকীকরণের জন্য সুবিধাজনক হলেও, এটি প্রায়শই মৌলিক গবেষণার ক্ষেত্রে প্রতিবন্ধকতা তৈরি করে, যার জন্য প্রয়োজন মুক্ত অনুসন্ধান।

কৃত্রিম বুদ্ধিমত্তার প্রতিযোগিতা শেষ পর্যন্ত 'মানুষ'কে কেন্দ্র করেই গড়ে উঠেছে। পরবর্তী চেন বয়ুয়ানের সন্ধানের পরিবর্তে, আমাদের এমন একটি বাস্তুতন্ত্র গড়ে তুলতে হবে যেখানে চেন বয়ুয়ানের মতো মানুষেরা তাদের নিজ নিজ স্থানীয় প্রেক্ষাপটে স্বাভাবিকভাবে মিলিত হতে এবং পারস্পরিক সাফল্য অর্জন করতে পারেন।

iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট iFanr (WeChat ID: ifanr) ফলো করুন, যেখানে যত তাড়াতাড়ি সম্ভব আপনার জন্য আরও আকর্ষণীয় কন্টেন্ট উপস্থাপন করা হবে।