
"এটি সত্যিই একটি দুর্দান্ত আন্ডারডগ গল্প।"
১৯ নভেম্বর ভোরবেলা জেমিনি ৩-এর উৎক্ষেপণ স্বাভাবিক প্রশান্তি ভেঙে দেয়। উৎক্ষেপণের দিনে, এটি বিশ্বব্যাপী ৫৪ মিলিয়নেরও বেশি ভিজিট অর্জন করে, যা প্ল্যাটফর্মের জন্য একটি নতুন রেকর্ড স্থাপন করে।

গুগলের এই বিজয়ী প্রত্যাবর্তন তার প্রতিযোগীদের মধ্যেও চমক সৃষ্টি করেছে। দ্য ইনফরমেশনের মতে, গুগলের নিরলস আক্রমণাত্মক মনোভাবের মুখোমুখি হয়ে, ওপেনএআই-এর সিইও স্যাম অল্টম্যান সোমবার একটি অভ্যন্তরীণ স্মারকে তাৎক্ষণিকভাবে ঘোষণা করেছেন যে কোম্পানিটি "কোড রেড" স্ট্যাটাসে প্রবেশ করেছে, চ্যাটজিপিটির ক্ষমতা উল্লেখযোগ্যভাবে আপগ্রেড করার জন্য সমস্ত কৌশলগত সম্পদ একত্রিত করার প্রস্তুতি নিচ্ছে।

দ্য ভার্জের মতে, বিষয়টির সাথে পরিচিত সূত্রের বরাত দিয়ে, ওপেনএআই আগামী সপ্তাহের প্রথম দিকে GPT-5.2 মডেলটি প্রকাশ করার পরিকল্পনা করছে, যা ডিসেম্বরের শেষের দিকের মূল পরিকল্পনার চেয়ে একটি উল্লেখযোগ্য পদক্ষেপ।
এটি কেবল পরোক্ষভাবে জেমিনি ৩-এর প্রভাবশালী উপস্থিতি নিশ্চিত করে না, বরং পরবর্তী কথোপকথনকে আরও অর্থবহ করে তোলে।
সম্প্রতি, ডিপমাইন্ডের প্রধান প্রযুক্তি কর্মকর্তা এবং গুগলের নতুন প্রধান এআই স্থপতি, কোরে কাভুক্কুওগলু, লোগান কিলপ্যাট্রিকের সাক্ষাৎকার অনুষ্ঠানে উপস্থিত হয়েছিলেন, যেখানে তিনি বলেছিলেন, "আমরা একসময় অনুসারী ছিলাম, কিন্তু উদ্ভাবনই একমাত্র উপায়।"
এক নজরে হাইলাইটস:
১. কোরে কাভুক্কুওগলু জোর দিয়ে বলেন যে জেমিনির অপ্টিমাইজেশন নিম্নলিখিত মূল ক্ষেত্রগুলির উপর দৃষ্টি নিবদ্ধ করে:
- নির্দেশাবলী এই নীতি অনুসরণ করে : নিশ্চিত করুন যে মডেলটি নির্বিচারে কন্টেন্ট তৈরি করার পরিবর্তে ব্যবহারকারীর নির্দিষ্ট চাহিদাগুলি সঠিকভাবে বোঝে এবং বাস্তবায়ন করে।
- আন্তর্জাতিকীকরণ : বিশ্বব্যাপী ব্যবহারকারীদের জন্য উচ্চমানের অভিজ্ঞতা নিশ্চিত করতে বহুভাষিক সহায়তা ক্ষমতা বৃদ্ধি করুন।
- এজেন্ট এবং টুলের ক্ষমতা : মডেলটি কেবল আমাদের বিদ্যমান টুল এবং ফাংশনগুলিকে প্রাকৃতিকভাবে ব্যবহার করতে পারে না, বরং নিজস্ব টুলও লিখতে পারে।
২. জেমিনি ৩ হল "সমগ্র গুগল টিমের সহযোগিতার একটি মডেল।" ইউরোপ এবং এশিয়া সহ সারা বিশ্বের দলগুলি এতে অবদান রেখেছিল, যার মধ্যে কেবল ডিপমাইন্ড টিমই নয়, গুগলের বিভিন্ন বিভাগের দলগুলিও অন্তর্ভুক্ত ছিল।
৩. প্রযুক্তিগত অগ্রগতির সাথে সাথে, টেক্সট মডেল এবং ইমেজ মডেলের স্থাপত্য এবং ধারণাগুলি ক্রমশ একত্রিত হচ্ছে। অতীতে, তাদের স্থাপত্যগুলি উল্লেখযোগ্যভাবে ভিন্ন ছিল, কিন্তু এখন তারা আরও একই রকম হয়ে উঠছে। এটি প্রযুক্তিগত বিবর্তনের একটি স্বাভাবিক ফলাফল: প্রত্যেকেই আরও দক্ষ সমাধান অন্বেষণ করছে, তাদের ধারণাগুলি ধীরে ধীরে একত্রিত হচ্ছে এবং শেষ পর্যন্ত, একটি সাধারণ উন্নয়ন পথ তৈরি হচ্ছে।
ভিডিও লিঙ্ক:
সম্পূর্ণ বিষয়বস্তুর প্রতিলিপি এবং অনুবাদ নিচে দেওয়া হল। (ক্রম পরিবর্তন করা হয়েছে।)
বেঞ্চমার্কিং কেবল প্রথম ধাপ; ব্যবহারকারীর প্রতিক্রিয়া হল দ্বিতীয় ধাপ।
লোগান কিলপ্যাট্রিক : সবাইকে স্বাগতম, রিলিজ নোটসে আবার স্বাগতম। আমি ডিপমাইন্ড টিমের লোগান কিলপ্যাট্রিক। আজ, ডিপমাইন্ডের সিটিও এবং গুগলের নতুন প্রধান এআই স্থপতি কোরেকে আমার সাথে পেয়ে আমি সম্মানিত বোধ করছি। কোরে, আমাদের সাথে যোগ দেওয়ার জন্য আপনাকে ধন্যবাদ, এবং আমি আপনার সাথে আরও গভীর আলোচনা করার জন্য উন্মুখ।
কোরে কাভুক্কুওগলু : আমিও এর জন্য অপেক্ষা করছি। আমন্ত্রণের জন্য ধন্যবাদ!
লোগান কিলপ্যাট্রিক : অবশ্যই, জেমিনি ৩ মুক্তি পেয়েছে। আমাদের ধারণা ছিল এই মডেলটি ভালো পারফর্ম করবে, এবং বেঞ্চমার্কের ফলাফল খুবই চিত্তাকর্ষক ছিল, কিন্তু ব্যবহারকারীদের হাতে এটি পৌঁছে দেওয়ার পর প্রকৃত ব্যবহারকারীর প্রতিক্রিয়া…
কোরে কাভুক্কুওগলু : এটি চূড়ান্ত পরীক্ষা। বেঞ্চমার্কিং কেবল প্রথম ধাপ; আমরা পরে অনেক পরীক্ষাও করেছি, যার মধ্যে বিশ্বস্ত পরীক্ষকদের প্রাক-প্রকাশের অভিজ্ঞতায় অংশগ্রহণ করাও অন্তর্ভুক্ত। তাই আমরা অনুভব করতে পারি যে এটি একটি চমৎকার মডেল, অসাধারণ ক্ষমতা সহ। যদিও এটি নিখুঁত নয়, ব্যবহারকারীর প্রতিক্রিয়া আমাকে সত্যিই সন্তুষ্ট করেছে।
সবাই মডেলটি সত্যিই পছন্দ করেছে বলে মনে হচ্ছে, এবং আমরা যে অংশগুলিকে আকর্ষণীয় মনে করি সেগুলিতে তারা সমানভাবে আগ্রহী। এখন পর্যন্ত, সবকিছু ঠিকঠাক চলছে, এবং সবকিছু মসৃণভাবে এগিয়ে চলেছে।
লোগান কিলপ্যাট্রিক : হ্যাঁ, আমরা গতকালই এটি নিয়ে কথা বলছিলাম, এবং মূল বিষয় ছিল AI উন্নয়ন কত দ্রুত এগিয়েছে। গত বছরের I/O সম্মেলনের কথা মনে করে যখন আমরা Gemini 2.5 প্রকাশ করেছিলাম, AI এর ভবিষ্যৎ সম্পর্কে প্রদর্শনী এবং সার্জের আলোচনা শুনে, আমার মনে হয়েছিল যে 2.5 ইতিমধ্যেই সবচেয়ে উন্নত মডেল, বহুমাত্রিক ক্ষেত্রে অগ্রসর হচ্ছে। এবং এখন, Gemini 3.0 আরেকটি সাফল্য অর্জন করেছে। আমি কৌতূহলী, এই অগ্রগতি অব্যাহত রাখা যাবে কিনা তা নিয়ে আলোচনা চলছে; আপনার বর্তমান মতামত কী?
কোরে কাভুক্কুওগলু : বর্তমান অগ্রগতি এবং গবেষণার উপর আমি অত্যন্ত আত্মবিশ্বাসী। গবেষণার প্রথম সারিতে থাকাকালীন, আপনি দেখতে পাবেন যে প্রতিটি ক্ষেত্রই উদ্ভাবনের জন্য উৎসাহে ভরপুর, তথ্য, প্রাক-প্রশিক্ষণ, সূক্ষ্ম-সুরকরণ থেকে শুরু করে প্রতিটি পদক্ষেপে, প্রচুর নতুন ধারণা এবং সাফল্যের উত্থান ঘটছে।
পরিশেষে, সবকিছুই উদ্ভাবন এবং সৃজনশীলতার উপর নির্ভর করে। যখন আমাদের প্রযুক্তি বাস্তব জগতে সত্যিকার অর্থে প্রভাব ফেলতে পারে এবং ব্যাপকভাবে ব্যবহৃত হয়, তখন আমরা আরও প্রতিক্রিয়া পাই, আমাদের নাগাল প্রসারিত হয় এবং এর ফলে আরও অনুপ্রেরণা তৈরি হয়।
তাছাড়া, আমি বিশ্বাস করি যে ভবিষ্যতের সমস্যাগুলি আরও জটিল এবং বৈচিত্র্যময় হবে, যা নতুন চ্যালেঞ্জ নিয়ে আসবে, তবে এই চ্যালেঞ্জগুলি উপকারী এবং আমাদের সাধারণ বুদ্ধিমত্তার দিকে চালিত করবে।
কখনও কখনও, যদি আপনি কেবল একটি বা দুটি মানদণ্ড দেখেন, তাহলে আপনার মনে হতে পারে যে অগ্রগতি ধীর হয়ে গেছে, তবে এটি স্বাভাবিক। যখন কোনও নির্দিষ্ট প্রযুক্তিগত চ্যালেঞ্জ স্পষ্ট হয়ে ওঠে তখন মানদণ্ডগুলি প্রতিষ্ঠিত হয়। প্রযুক্তির অগ্রগতির সাথে সাথে, এগুলি আর অত্যাধুনিক প্রযুক্তির সমার্থক নয়, এবং তখনই নতুন মানদণ্ড স্থাপনের প্রয়োজন হয়।
মেশিন লার্নিং-এর ক্ষেত্রে এটি সাধারণ: বেঞ্চমার্কিং এবং মডেল ডেভেলপমেন্ট একে অপরের পরিপূরক। বেঞ্চমার্কিং মডেল পুনরাবৃত্তিকে নির্দেশ করে এবং কেবলমাত্র বর্তমান অত্যাধুনিকতার কাছাকাছি পৌঁছেই আমরা পরবর্তী লক্ষ্য স্পষ্ট করতে পারি এবং তারপরে একটি নতুন বেঞ্চমার্ক তৈরি করতে পারি।
লোগান কিলপ্যাট্রিক : আমি সম্পূর্ণ একমত। উদাহরণস্বরূপ, প্রাথমিক HLE বেঞ্চমার্ক পরীক্ষায়, সমস্ত মডেল মাত্র 1% থেকে 2% নির্ভুলতা অর্জন করেছিল, যেখানে DeepMind-এর সর্বশেষ মডেলগুলি এখন প্রায় 40% পর্যন্ত পৌঁছাতে পারে, যা আশ্চর্যজনক। ArcGIS বেঞ্চমার্ক পরীক্ষায় প্রথমে প্রায় কোনও মডেলই ছিল না যা সেগুলি পরিচালনা করতে পারে, কিন্তু এখন নির্ভুলতাও 40% ছাড়িয়ে গেছে।
তবে, কিছু স্ট্যাটিক বেঞ্চমার্ক প্রকৃতপক্ষে সময়ের পরীক্ষায় উত্তীর্ণ হয়েছে, যেমন GPQA ডায়মন্ড। যদিও আমরা এখন মাত্র ১% নির্ভুলতা উন্নত করতে পারি, তবুও এটি ব্যাপকভাবে ব্যবহৃত হয় এবং স্যাচুরেশনের কাছাকাছি হতে পারে।

কোরে কাভুক্কুওগলু : এই মানদণ্ডগুলি প্রকৃতপক্ষে অনেক চ্যালেঞ্জিং সমস্যা উপস্থাপন করে যা আমরা এখনও সম্পূর্ণরূপে কাটিয়ে উঠতে পারিনি, তবে এখনও তাদের পরীক্ষার মূল্য রয়েছে। GPQA কে উদাহরণ হিসাবে নিন; আমাদের 90% এর বেশি নিখুঁত নির্ভুলতার হার অনুসরণ করার দরকার নেই, কারণ আমরা ইতিমধ্যেই সেই লক্ষ্যের কাছাকাছি পৌঁছে গেছি, তাই অমীমাংসিত সমস্যার সংখ্যা স্বাভাবিকভাবেই হ্রাস পাচ্ছে।
অতএব, নতুন সীমানা খুঁজে বের করা এবং নতুন মানদণ্ড স্থাপন করা অত্যন্ত গুরুত্বপূর্ণ। মানদণ্ড নির্ধারণ অগ্রগতি পরিমাপের একটি উপায়, কিন্তু এটি একটি নিখুঁত সারিবদ্ধতা নয়। আদর্শভাবে, দুটি পুরোপুরি সারিবদ্ধ হবে, কিন্তু বাস্তবে, এগুলি কখনই পুরোপুরি মিলিত হতে পারে না।
আমার কাছে, অগ্রগতি পরিমাপের জন্য সবচেয়ে গুরুত্বপূর্ণ মানদণ্ড হল: আমাদের মডেল কি বাস্তব জগতে ব্যাপকভাবে ব্যবহৃত হয়? বিজ্ঞানী, ছাত্র, আইনজীবী এবং প্রকৌশলীরা কি সমস্যা সমাধানের জন্য এটি ব্যবহার করছেন? মানুষ কি এটি লেখার, ইমেল পাঠানো এবং গ্রহণ করার জন্য ব্যবহার করছেন, ইত্যাদি? প্রকৃত অগ্রগতি, তা সহজ হোক বা জটিল, আরও ক্ষেত্র এবং পরিস্থিতিতে ব্যবহারকারীদের জন্য ক্রমাগত বৃহত্তর মূল্য তৈরি করার ক্ষমতার মধ্যে নিহিত। বেঞ্চমার্কিং কেবল এই অগ্রগতি পরিমাপ করতে আমাদের সাহায্য করার একটি হাতিয়ার।
লোগান কিলপ্যাট্রিক : আমার একটি প্রশ্ন আছে যা একেবারেই বিতর্কিত নয়: জেমিনি 3 অসংখ্য বেঞ্চমার্ক পরীক্ষায় অসাধারণভাবে ভালো পারফর্ম করেছে, সমস্ত গুগল পণ্য এবং অংশীদার ইকোসিস্টেমে একই সাথে চালু হয়েছে এবং ব্যবহারকারীদের কাছ থেকে খুব ইতিবাচক প্রতিক্রিয়া পেয়েছে। পরবর্তী প্রধান গুগল মডেল রিলিজের দিকে তাকিয়ে, আপনার কি মনে হয় আমাদের কোন দিকগুলিতে উন্নতি করা উচিত? উদাহরণস্বরূপ, "আমরা X, Y এবং Z তে আরও ভালো করার আশা করি," নাকি আমাদের প্রথমে জেমিনি 3 এর সাফল্যের ফল উপভোগ করা উচিত?
কোরে কাভুক্কুওগলু : আমার মনে হয় আমরা দুটোই পেতে পারি। আমাদের এই মুহূর্তটি উপভোগ করা উচিত; সর্বোপরি, মুক্তির দিনটি উদযাপন করার মতো, এবং দলের তাদের অর্জনের জন্য গর্বিত হওয়া উচিত। কিন্তু একই সাথে, আমরা স্পষ্টভাবে দেখতে পাচ্ছি যে মডেলটির বিভিন্ন ক্ষেত্রে ত্রুটি রয়েছে: এর লেখার ক্ষমতা নিখুঁত নয়, এবং এর কোডিং ক্ষমতার উন্নতির সুযোগ রয়েছে।
বিশেষ করে এজেন্ট অ্যাকশন এবং কোডিং-এ, উন্নতির জন্য এখনও উল্লেখযোগ্য জায়গা রয়েছে, যা প্রবৃদ্ধির জন্য সবচেয়ে উত্তেজনাপূর্ণ ক্ষেত্রও। আমাদের অপ্টিমাইজেশনের ক্ষেত্রগুলি চিহ্নিত করতে হবে এবং তারপরে উন্নতি অব্যাহত রাখতে হবে। আমি বিশ্বাস করি আমরা যথেষ্ট অগ্রগতি অর্জন করেছি: 90% থেকে 95% কোডিং-সম্পর্কিত ব্যবহারকারীদের জন্য (সফ্টওয়্যার ইঞ্জিনিয়ার বা সৃজনশীল ব্যক্তি যারা পণ্য তৈরি করতে চান), জেমিনি 3 সম্ভবত সেরা হাতিয়ার, তবে কিছু পরিস্থিতিতে আরও অপ্টিমাইজেশন প্রয়োজন।
"সৃজনশীল" থেকে "ব্যবহারিক"
লোগান কিলপ্যাট্রিক : "ধীরে ধীরে অপ্টিমাইজেশন" সম্পর্কে আপনার মতামত কী? উদাহরণস্বরূপ, জেমিনি 2.5 থেকে 3.0 পর্যন্ত, অথবা অন্যান্য সংস্করণ পুনরাবৃত্তিতে, আমাদের অপ্টিমাইজেশন অগ্রাধিকারগুলি কী? আজ এতগুলি বেঞ্চমার্ক পরীক্ষা উপলব্ধ থাকার কারণে, আমরা কীভাবে আমাদের অপ্টিমাইজেশন দিকটি বেছে নেব, তা সে পুরো জেমিনি সিরিজের জন্য হোক বা বিশেষভাবে প্রো সংস্করণের জন্য হোক?
কোরে কাভুক্কুওগলু : আমার মনে হয় বেশ কয়েকটি গুরুত্বপূর্ণ ক্ষেত্র রয়েছে। প্রথমত, নির্দেশনা মেনে চলা । মডেলটিকে ব্যবহারকারীর চাহিদা সঠিকভাবে বুঝতে এবং বাস্তবায়ন করতে হবে, এলোমেলোভাবে উত্তর প্রকাশ করার পরিবর্তে, যা আমরা সবসময় জোর দিয়ে আসছি। দ্বিতীয়ত, আন্তর্জাতিকীকরণ । গুগলের ব্যবসা বিশ্বজুড়ে বিস্তৃত, এবং আমরা চাই বিশ্বব্যাপী ব্যবহারকারীরা এই মডেলটি ব্যবহার করতে সক্ষম হোক।
লোগান কিলপ্যাট্রিক : আসলে, আজ সকালে আমি তুলসির সাথে কথা বলেছি, এবং তিনি উল্লেখ করেছেন যে এই মডেলটি এমন কিছু ভাষায় অসাধারণভাবে ভালো পারফর্ম করে যেখানে আমরা আগে লড়াই করেছি।
কোরে কাভুক্কুওগলু : এটা সত্যিই দারুন। তাই আমাদের এই ক্ষেত্রগুলিতে মনোযোগ দিতে হবে, যেগুলি হয়তো অত্যাধুনিক নয় কিন্তু ব্যবহারকারীদের সাথে যোগাযোগের জন্য অত্যন্ত গুরুত্বপূর্ণ। যেমনটি আমি আগেই বলেছি, আমাদের ব্যবহারকারীদের কাছ থেকে প্রতিক্রিয়া জানাতে হবে।
আরও প্রযুক্তিগত ক্ষেত্রে, ফাংশন কল, টুল কল, এজেন্ট অ্যাকশন এবং কোড ক্ষমতা অত্যন্ত গুরুত্বপূর্ণ।
ফাংশন কল এবং টুল কল একটি মডেলের বুদ্ধিমান গুণক প্রভাবকে ব্যাপকভাবে বৃদ্ধি করতে পারে: মডেলটি কেবল আমাদের বিদ্যমান সরঞ্জাম এবং ফাংশনগুলিকে প্রাকৃতিকভাবে ব্যবহার করতে পারে না, বরং নিজস্ব সরঞ্জামও লিখতে পারে। মূলত, মডেলটি নিজেই একটি সরঞ্জাম।
কোডিং দক্ষতা কেবল এই কারণেই গুরুত্বপূর্ণ নয় যে আমাদের দলে অনেক প্রকৌশলী রয়েছে, বরং কোড হল ডিজিটাল জগতের ভিত্তি। সফটওয়্যার ডেভেলপমেন্ট হোক বা যেকোনো ধারণাকে বাস্তবে রূপান্তরিত করা, কোড অপরিহার্য। এটি মডেলগুলিকে মানুষের জীবনের অনেক দিকের সাথে গভীরভাবে একীভূত করতে সাহায্য করে।
উদাহরণস্বরূপ, আমি "ভাইব কোডিং" সম্পর্কে খুব আশাবাদী। অনেক মানুষ সৃজনশীল কিন্তু তাদের ধারণাগুলিকে বাস্তবে রূপ দেওয়ার ক্ষমতার অভাব রয়েছে। ভাইব কোডিং তাদের "সৃজনশীল" থেকে "ব্যবহারিক" দিকে যেতে সাহায্য করে: কেবল আপনার ধারণাগুলি লিখে রাখুন, এবং আপনি সংশ্লিষ্ট অ্যাপ্লিকেশনটি আপনার সামনে উপস্থিত দেখতে পাবেন এবং বেশিরভাগ সময় এটি নিখুঁতভাবে কাজ করবে।
ধারণা থেকে পণ্য পর্যন্ত এই বন্ধ চক্রটি দুর্দান্ত; এটি আরও বেশি লোককে স্রষ্টা হওয়ার সুযোগ দেয়।

লোগান কিলপ্যাট্রিক : অসাধারণ! এটি এআই স্টুডিওর জন্য নিখুঁত বিক্রয় বিন্দু, এবং আমরা এই ক্লিপটি সম্পাদনা করে অনলাইনে প্রকাশ করব। আপনি যে গুরুত্বপূর্ণ বিষয়ের কথা উল্লেখ করেছেন তা হল জেমিনি 3 রিলিজের সাথে গুগল অ্যান্টি-গ্র্যাভিটি প্ল্যাটফর্মের একযোগে লঞ্চ। মডেলের দৃষ্টিকোণ থেকে, মডেলের মান উন্নত করার জন্য এই পণ্যের স্থাপত্য কতটা গুরুত্বপূর্ণ বলে আপনি মনে করেন? স্পষ্টতই, এটি টুল ব্যবহার এবং কোডিং ক্ষমতার সাথে ঘনিষ্ঠভাবে সম্পর্কিত।
কোরে কাভুক্কুওগলু : আমার কাছে, এটি অত্যন্ত গুরুত্বপূর্ণ। প্ল্যাটফর্মটি নিজেই সত্যিই উত্তেজনাপূর্ণ, কিন্তু মডেলের দৃষ্টিকোণ থেকে, এটি একটি দ্বিমুখী রাস্তা। প্রথমত, মডেলটি শেষ ব্যবহারকারীদের (সফ্টওয়্যার ইঞ্জিনিয়ারদের) সাথে সরাসরি একীভূত করে তাদের কাছ থেকে প্রতিক্রিয়া পেতে পারে, যা মডেলটির কোন দিকে উন্নতি প্রয়োজন তা স্পষ্ট করতে সাহায্য করে এবং এটি আমাদের জন্য অত্যন্ত গুরুত্বপূর্ণ।
জেমিনি এবং এআই স্টুডিওর মতো, অ্যান্টি-গ্র্যাভিটি প্ল্যাটফর্ম আরেকটি উদাহরণ। এই পণ্যগুলি আমাদের ব্যবহারকারীদের সাথে ঘনিষ্ঠভাবে সংযোগ স্থাপন করতে এবং প্রকৃত প্রতিক্রিয়া সংকেত পেতে সাহায্য করে, যা একটি বিশাল সম্পদ। যদিও অ্যান্টি-গ্র্যাভিটি প্ল্যাটফর্মটি অল্প সময়ের জন্য একটি গুরুত্বপূর্ণ লঞ্চ অংশীদার হয়েছে, গত দুই থেকে তিন সপ্তাহ ধরে এর প্রতিক্রিয়া লঞ্চ প্রস্তুতিতে একটি নির্ধারক ভূমিকা পালন করেছে।
এআই মোড অনুসন্ধানের ক্ষেত্রেও একই কথা প্রযোজ্য, যেখান থেকে আমরা প্রচুর প্রতিক্রিয়া পেয়েছি। বেঞ্চমার্কিং আমাদের বিজ্ঞান এবং গণিতের মতো ক্ষেত্রে বুদ্ধিমত্তা উন্নত করতে সাহায্য করে, তবে বাস্তব-বিশ্বের ব্যবহারের ঘটনাগুলি বোঝাও সমানভাবে গুরুত্বপূর্ণ; মডেলগুলিকে বাস্তব-বিশ্বের সমস্যাগুলি সমাধান করতে সক্ষম হতে হবে।
জেমিনি ৩, সম্পূর্ণ গুগল টিম সহযোগিতার একটি মডেল।
লোগান কিলপ্যাট্রিক : নতুন প্রধান এআই স্থপতি হিসেবে, আপনার দায়িত্ব কেবল আমাদের কাছে চমৎকার মডেল নিশ্চিত করার বাইরেও বিস্তৃত; আপনি সেই মডেলগুলি বাস্তবায়নের জন্য পণ্য দলগুলিকেও পরিচালনা করেন এবং সমস্ত গুগল পণ্য জুড়ে অসাধারণ ব্যবহারকারীর অভিজ্ঞতা তৈরি করেন। মুক্তির দিনে সমস্ত গুগল পণ্যে জেমিনি 3 এর একযোগে লঞ্চ ব্যবহারকারীদের জন্য একটি বিশাল বিস্ময় ছিল এবং আমরা আশা করি এটি ভবিষ্যতে আরও বেশি পণ্যকে অন্তর্ভুক্ত করবে। ডিপমাইন্ডের দৃষ্টিকোণ থেকে, এই ক্রস-টিম সহযোগিতা কি অতিরিক্ত জটিলতা যোগ করে? সর্বোপরি, দেড় বছর আগে, জিনিসগুলি সম্ভবত অনেক সহজ ছিল।
কোরে কাভুক্কুওগলু : কিন্তু আমাদের লক্ষ্য বুদ্ধিমত্তা তৈরি করা, তাই না? অনেকেই আমাকে জিজ্ঞাসা করেন যে সিটিও এবং প্রধান এআই স্থপতি উভয়ের মধ্যে কোনও দ্বন্দ্ব আছে কিনা, কিন্তু আমার কাছে, এই দুটি ভূমিকা মূলত একই।
বুদ্ধিমত্তা তৈরি করতে হলে পণ্য এবং ব্যবহারকারীদের মধ্যে মিথস্ক্রিয়ার মাধ্যমে এটি অর্জন করতে হবে। আমার মূল লক্ষ্য হল নিশ্চিত করা যে সমস্ত Google পণ্য সর্বাধিক উন্নত প্রযুক্তি ব্যবহার করে। আমরা কোনও পণ্য দল নই, বরং প্রযুক্তি বিকাশকারী। আমরা মডেল এবং প্রযুক্তি বিকাশের জন্য দায়ী। অবশ্যই, পণ্য সম্পর্কে আমাদের নিজস্ব মতামতও রয়েছে, তবে সবচেয়ে গুরুত্বপূর্ণ বিষয় হল, আমরা সর্বোত্তম উপায়ে প্রযুক্তিগত সহায়তা প্রদান করি, AI যুগে সেরা পণ্য তৈরি করতে পণ্য দলগুলির সাথে সহযোগিতা করি।
এটি একটি নতুন যুগ, যেখানে নতুন প্রযুক্তি ব্যবহারকারীর প্রত্যাশা, পণ্যের আচরণ এবং তথ্য সরবরাহের পদ্ধতিকে নতুন করে সংজ্ঞায়িত করছে। অতএব, আমি আশা করি গুগলের মধ্যে এই প্রযুক্তিগত ক্ষমতায়নকে এগিয়ে নিয়ে যাব, সমস্ত পণ্য দলের সাথে সহযোগিতা করব। এটি কেবল পণ্য এবং ব্যবহারকারীদের জন্যই নয়, বরং আমাদের জন্যও গুরুত্বপূর্ণ।
কেবলমাত্র ব্যবহারকারীদের কাছাকাছি যাওয়ার মাধ্যমেই আমরা তাদের চাহিদা বুঝতে পারি এবং প্রকৃত প্রতিক্রিয়া সংকেত পেতে পারি, যা মডেল পুনরাবৃত্তির পিছনে মূল চালিকা শক্তি। আমরা এভাবেই কৃত্রিম জেনারেল ইন্টেলিজেন্স (AGI) তৈরি করি: আমাদের পণ্যের মাধ্যমে ব্যবহারকারীদের সাথে একসাথে বেড়ে ওঠা।
লোগান কিলপ্যাট্রিক : আমি সম্পূর্ণ একমত। এটা আপনার টুইটের ক্যাপশন হতে পারে! আমি আরও মনে করি যে আমরা মূলত আমাদের গ্রাহক এবং অংশীদারদের সাথে কৃত্রিম জেনারেল ইন্টেলিজেন্স (AGI) তৈরি করছি – এটি একটি ল্যাবে বিচ্ছিন্ন গবেষণা নয়, বরং সমগ্র বিশ্বের সাথে একটি সহযোগিতামূলক প্রচেষ্টা।
কোরে কাভুক্কুওগলু : আমি মনে করি এটি একটি "বিশ্বস্ত পরীক্ষা ব্যবস্থা" – আমরা ক্রমবর্ধমানভাবে ইঞ্জিনিয়ারিং চিন্তাভাবনার উপর জোর দিচ্ছি। এই চিন্তাভাবনা গুরুত্বপূর্ণ কারণ একটি সু-পরিকল্পিত সিস্টেম আরও শক্তিশালী এবং সুরক্ষিত।
বাস্তব-বিশ্বের পণ্য তৈরি করার সময়, আমরা "বিশ্বস্ত পরীক্ষার" ধারণার উপর খুব বেশি মনোযোগ দিই, যা নিরাপত্তা এবং গোপনীয়তার উপর আমাদের জোরের মাধ্যমে প্রতিফলিত হয়: আমরা নিরাপত্তা এবং গোপনীয়তার মূল নীতিগুলি শুরু থেকেই তৈরি করি, পরে সেগুলি যোগ করার পরিবর্তে।
প্রাক-প্রশিক্ষণ, সূক্ষ্ম-টিউনিং, অথবা ডেটা স্ক্রীনিং যাই হোক না কেন, দলের প্রত্যেকেরই নিরাপত্তার কথা বিবেচনা করা উচিত। আমাদের অবশ্যই নিবেদিতপ্রাণ সুরক্ষা এবং গোপনীয়তা দল রয়েছে যারা প্রাসঙ্গিক প্রযুক্তিগত সহায়তা প্রদান করে, তবে আমরা চাই যে জেমিনি দলের প্রত্যেকেই গভীরভাবে জড়িত থাকুক, উন্নয়নের প্রতিটি পর্যায়ে সুরক্ষা এবং গোপনীয়তাকে একীভূত করুক। এই দলগুলিও সূক্ষ্ম-টিউনিং দলের অংশ।
অতএব, মডেলগুলি পুনরাবৃত্তি করার সময় এবং প্রার্থী সংস্করণ প্রকাশ করার সময়, আমরা কেবল GPQA এবং HLE এর মতো বেঞ্চমার্ক পরীক্ষার ফলাফলগুলিই উল্লেখ করি না, বরং সুরক্ষা এবং গোপনীয়তার মেট্রিক্সগুলিও কঠোরভাবে পর্যালোচনা করি। এই প্রকৌশলগত মানসিকতা অত্যন্ত গুরুত্বপূর্ণ।
লোগান কিলপ্যাট্রিক : আমি সম্পূর্ণ একমত। এটি গুগলের কর্পোরেট সংস্কৃতির সাথেও সামঞ্জস্যপূর্ণ; সর্বোপরি, জেমিনি মডেল প্রকাশ করা একটি বিশাল উদ্যোগ যার জন্য বিশ্বব্যাপী দলবদ্ধতার প্রয়োজন।
কোরে কাভুক্কুওগলু : জেমিনি ৩ এর কথা বলতে গেলে, আমার মনে হয় সবচেয়ে উল্লেখযোগ্য বৈশিষ্ট্য হল এটি "সম্পূর্ণ গুগল টিম সহযোগিতার জন্য একটি মডেল"।
লোগান কিলপ্যাট্রিক : আমরা প্রাসঙ্গিক তথ্য দেখতে পারি। এটি সম্ভবত ইতিহাসের সবচেয়ে বেশি অংশগ্রহণকারী প্রকল্পগুলির মধ্যে একটি, ঠিক যেমন নাসার অ্যাপোলো প্রোগ্রাম। এটি একটি বিশাল বিশ্বব্যাপী প্রকল্প।
কোরে কাভুক্কুওগলু : ঠিকই বলেছেন, এটা বিশ্বব্যাপী।
লোগান কিলপ্যাট্রিক : এটা অবিশ্বাস্য যে গুগলের সমস্ত দল এতে জড়িত ছিল।
কোরে কাভুক্কুওগলু : ইউরোপ এবং এশিয়া সহ সারা বিশ্বের দলগুলি অবদান রেখেছিল, কেবল ডিপমাইন্ড টিমই নয়, গুগলের বিভিন্ন বিভাগেরও। এটি ছিল একটি বিশাল সম্মিলিত প্রচেষ্টা: এআই মোড এবং জেমিনি অ্যাপের সাথে একসাথে এটি প্রকাশ করা কোনও সহজ কাজ ছিল না।
এই পণ্য দলগুলি মডেল ডেভেলপমেন্ট পর্যায়ে আমাদের সাথে ঘনিষ্ঠভাবে সহযোগিতা করেছিল, যার কারণে আমরা মুক্তির দিনেই সমস্ত প্ল্যাটফর্মে একই সাথে মডেলটি চালু করতে সক্ষম হয়েছি। "পূর্ণ গুগল সম্পৃক্ততা" শব্দটি কেবল মডেল তৈরিতে সরাসরি জড়িত দলগুলিকেই বোঝায় না বরং সেই সমস্ত দলকেও বোঝায় যারা তাদের নিজ নিজ দায়িত্ব পালন করেছে এবং নীরবে অবদান রেখেছে।
ন্যানো বানানা, একটি স্বতঃস্ফূর্ত নাম, স্বাভাবিকভাবেই মিশে গেছে।
লোগান কিলপ্যাট্রিক : আরেকটি বিষয় যা আমার আগ্রহের, তা হলো জেনারেটিভ মিডিয়া মডেল—যদিও আমরা সবসময় এগুলোর প্রতি আগ্রহী ছিলাম, অতীতে এগুলো তেমন একটা গুরুত্বপূর্ণ বিষয় ছিল না। তবে, ভিও ৩, ভিও ৩.১ এবং ন্যানো ব্যানানা মডেল প্রকাশের পর, পণ্য বাস্তবায়নে আমরা দারুণ সাফল্য পেয়েছি।
আমি কৌতূহলী, কৃত্রিম জেনারেল ইন্টেলিজেন্স (AGI) অর্জনে জেনারেটিভ ভিডিও মডেলের ভূমিকাকে আপনি কীভাবে দেখেন? মাঝে মাঝে আমার মনে হয় যে ভিডিও মডেলগুলি AGI-এর সাথে সম্পর্কিত নয়, কিন্তু ঘনিষ্ঠভাবে পরীক্ষা করার পর, তারা বিশ্ব এবং পদার্থবিদ্যার নিয়মগুলি বোঝার সাথে জড়িত, তাই দুটিকে একে অপরের সাথে সংযুক্ত করা উচিত।
কোরে কাভুক্কুওগলু : ১০ থেকে ১৫ বছর আগে, জেনারেটিভ মডেলগুলি মূলত ইমেজ ডোমেইনের উপর দৃষ্টি নিবদ্ধ করত কারণ সেই সময়ে আমরা ইমেজ জেনারেশন প্রক্রিয়াটি আরও ভালভাবে পর্যবেক্ষণ করতে পারতাম, এবং বিশ্ব এবং ভৌত আইনগুলি বোঝাও ছিল ইমেজ জেনারেশন মডেলগুলির মূল লক্ষ্য।
গুগলের জেনারেটিভ মডেল অনুসন্ধানের সূত্রপাত ১০ বছর আগে, অথবা তারও আগে। আমি যখন পিএইচডির ছাত্র ছিলাম, তখন সবাই জেনারেটিভ ইমেজ মডেল নিয়ে কাজ করছিল, যেমন পিক্সেল কনভোলিউশনাল নিউরাল নেটওয়ার্ক (পিক্সেল সিএনএন)। পরে, আমরা বুঝতে পারি যে টেক্সট ডোমেইনে অগ্রগতি আরও দ্রুত হবে।
তবে, ইমেজ মডেলের গুরুত্ব আবারও স্পষ্ট হয়ে উঠেছে। ডিপমাইন্ড দীর্ঘদিন ধরে ইমেজ, ভিডিও এবং অডিও মডেলগুলিতে গভীর প্রযুক্তিগত শক্তি সঞ্চয় করেছে, যার ফলে টেক্সট মডেলের সাথে এই প্রযুক্তিগুলির একীকরণ একটি স্বাভাবিক অগ্রগতি।
আমরা সবসময় মাল্টিমোডালিটির উপর জোর দিয়েছি, যার মধ্যে ইনপুট মাল্টিমোডালিটি এবং আউটপুট মাল্টিমোডালিটি অন্তর্ভুক্ত। প্রযুক্তিগত অগ্রগতির সাথে সাথে, টেক্সট মডেল এবং ইমেজ মডেলের স্থাপত্য এবং ধারণাগুলি ক্রমশ একত্রিত হচ্ছে। অতীতে, তাদের স্থাপত্যগুলি উল্লেখযোগ্যভাবে ভিন্ন ছিল, কিন্তু এখন তারা ক্রমশ একই রকম হয়ে উঠছে। এটি এমন কিছু নয় যা আমরা ইচ্ছাকৃতভাবে প্রচার করেছি, বরং প্রযুক্তিগত বিবর্তনের একটি স্বাভাবিক ফলাফল: প্রত্যেকেই আরও দক্ষ সমাধান অন্বেষণ করছে, তাদের ধারণাগুলি ধীরে ধীরে একত্রিত হচ্ছে এবং শেষ পর্যন্ত, একটি সাধারণ উন্নয়ন পথ তৈরি হয়েছে।
এই সংমিশ্রণের মূল মূল্য এই যে টেক্সট মডেলগুলি বিশ্ব সম্পর্কে সমৃদ্ধ জ্ঞান রাখে, অন্যদিকে চিত্র মডেলগুলি বিশ্বকে অন্য দৃষ্টিকোণ থেকে বোঝে। দুটিকে একত্রিত করলে মডেলটি ব্যবহারকারীর উদ্দেশ্য আরও ভালভাবে বুঝতে পারে এবং আরও আশ্চর্যজনক ফলাফল তৈরি করতে পারে।
লোগান কিলপ্যাট্রিক : ন্যানো কলা সম্পর্কে আমার আরেকটি প্রশ্ন আছে: আপনার কি মনে হয় আমাদের সব মডেলের কিছু আকর্ষণীয় নাম দেওয়া উচিত? এটা কি সাহায্য করবে?
কোরে কাভুক্কুওগলু : অগত্যা নয়। আমার মনে হয় নামগুলি স্বাভাবিকভাবেই তৈরি হওয়া উচিত, ইচ্ছাকৃতভাবে বেছে নেওয়া উচিত নয়। উদাহরণস্বরূপ, আমরা ইচ্ছাকৃতভাবে জেমিনি 3 নামটি ডিজাইন করিনি।
লোগান কিলপ্যাট্রিক : যদি জেমিনি ৩ এর নাম এই না থাকতো, তাহলে তুমি এর নাম কি রাখতে? এটা কি মজার নাম হতো?
কোরে কাভুক্কুওগলু : আমি জানি না, আমি জিনিসের নামকরণে ভালো নই। আসলে, আমাদের জেমিনি মডেলগুলির অভ্যন্তরীণ কোডনাম রয়েছে, যার মধ্যে কিছু এমনকি জেমিনি মডেল নিজেই তৈরি করে, কিন্তু ন্যানো ব্যানানা নয়; এটি মডেল দ্বারা তৈরি করা হয়নি।
এই নামের পেছনে একটা গল্প আছে, যা আমার মনে হয় ইতিমধ্যেই জনসমক্ষে প্রকাশ করা হয়েছে। আমার মনে হয় যতক্ষণ পর্যন্ত নামটি স্বাভাবিকভাবে এবং স্বতঃস্ফূর্তভাবে উদ্ভূত হয়, ততক্ষণ পর্যন্ত এটাই যথেষ্ট। এটা অর্থপূর্ণ যে মডেলটি তৈরিকারী দলের নামের সাথে একটি আবেগগত সংযোগ থাকতে পারে।
"ন্যানো বানানা" নামটিই রাখা হয়েছিল কারণ আমরা পরীক্ষার সময় এই কোড নামটি ব্যবহার করেছিলাম, এবং সকলেই এটি পছন্দ করেছিল; এটি স্বতঃস্ফূর্তভাবে ছড়িয়ে পড়ে। আমার মনে হয় কোনও প্রক্রিয়ার মাধ্যমে ইচ্ছাকৃতভাবে এই জাতীয় প্রাকৃতিকভাবে গঠিত নাম তৈরি করা কঠিন। যদি আপনার কাছে থাকে, তবে এটি ব্যবহার করুন; যদি না থাকে, তবে একটি আদর্শ নাম ব্যবহার করাও ঠিক আছে।
লোগান কিলপ্যাট্রিক : আসুন ন্যানো ব্যানানা প্রো সম্পর্কে কথা বলি, যা জেমিনি ৩ প্রো-এর উপর ভিত্তি করে তৈরি একটি অত্যাধুনিক ইমেজ জেনারেশন মডেল। আমি শুনেছি যে ন্যানো ব্যানানা সম্পন্ন করার পর, দলটি দেখেছে যে প্রো সংস্করণে আপগ্রেড করার ফলে টেক্সট রেন্ডারিং এবং বিশ্ব জ্ঞান বোঝার মতো আরও বিস্তারিত পরিস্থিতিতে কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত হয়েছে। এই উন্নয়ন সম্পর্কে আপনার মতামত কী?
কোরে কাভুক্কুওগলু : এটি বিভিন্ন প্রযুক্তির একীকরণের স্পষ্ট প্রকাশ। আমরা সবসময় বলেছি যে জেমিনির প্রতিটি সংস্করণ হল প্রো, ফ্ল্যাশ ইত্যাদি মডেলের একটি পরিবার, যেখানে বিভিন্ন আকারের মডেল গতি, নির্ভুলতা এবং খরচের দিক থেকে বিনিময় করে। একই কথা ইমেজ জেনারেশন মডেলের ক্ষেত্রেও প্রযোজ্য, যা স্বাভাবিকভাবেই বিভিন্ন পজিশনিং সহ পণ্য তৈরি করে।
জেমিনি ৩.০ প্রো-এর আর্কিটেকচারের উপর ভিত্তি করে এবং প্রথম প্রজন্মের মডেলের অভিজ্ঞতার সাথে মিলিত হয়ে, দলটি মডেল স্কেল প্রসারিত করে এবং টিউনিং পদ্ধতিগুলি অপ্টিমাইজ করে আরও শক্তিশালী ইমেজ জেনারেশন মডেল তৈরি করেছে, যা বেশ যুক্তিসঙ্গত। এর মূল সুবিধা হল জটিল পরিস্থিতি পরিচালনা করা: উদাহরণস্বরূপ, বিপুল সংখ্যক জটিল নথি ইনপুট করার সময়, মডেলটি কেবল প্রাসঙ্গিক প্রশ্নের উত্তর দিতে পারে না, বরং সংশ্লিষ্ট ইনফোগ্রাফিক্সও তৈরি করতে পারে এবং চমৎকার ফলাফল অর্জন করতে পারে। এটি ইনপুট মাল্টিমোডালিটি এবং আউটপুট মাল্টিমোডালিটির প্রাকৃতিক সংমিশ্রণের একটি প্রকাশ, যা দুর্দান্ত।

লোগান কিলপ্যাট্রিক : হ্যাঁ, এটা জাদুর মতো! আশা করি, এই ভিডিওটি প্রকাশিত হওয়ার সময় সবাই উদাহরণ দেখে ফেলেছেন; অভ্যন্তরীণভাবে ভাগ করা কিছু ঘটনা সত্যিই আশ্চর্যজনক।
কোরে কাভুক্কুওগলু : একেবারে একমত! যখন আপনি এমন একটি মডেল দেখেন যা একটি স্পষ্ট এবং স্বজ্ঞাত ছবিতে প্রচুর পরিমাণে টেক্সট এবং জটিল ধারণা উপস্থাপন করতে পারে, তখন আপনি সত্যিই অবাক হয়ে যান। এটি মডেলের ক্ষমতার সরাসরি প্রদর্শন।
লোগান কিলপ্যাট্রিক : আর এখানে অনেক বিস্তারিত তথ্য আছে যা প্রশংসার যোগ্য। আমার আরেকটি সম্পর্কিত প্রশ্ন আছে: গত ডিসেম্বরে, তুলসি প্রতিশ্রুতি দিয়েছিলেন যে আমরা একটি সমন্বিত জেমিনি মডেল চেকপয়েন্ট প্রকাশ করব। আপনি যা বর্ণনা করেছেন তার অর্থ কি এই যে আমরা এখন সেই লক্ষ্যের খুব কাছাকাছি?
কোরে কাভুক্কুওগলু : ঐতিহাসিকভাবে, জেনারেটিভ মডেলের স্থাপত্য ধারাবাহিক ছিল…
লোগান কিলপ্যাট্রিক : তাহলে আমার মনে হয় এটাই আমাদের লক্ষ্য: এই বৈশিষ্ট্যগুলিকে একটি মডেলের মধ্যে সত্যিই একীভূত করা, কিন্তু বাস্তবে অবশ্যই কিছু বাধা রয়েছে। আপনি কি এটিকে একটি ম্যাক্রো দৃষ্টিকোণ থেকে ব্যাখ্যা করতে পারেন?
কোরে কাভুক্কুওগলু : যেমনটি আমি আগেই বলেছি, প্রযুক্তি এবং স্থাপত্য একত্রিত হচ্ছে, এবং এই মিলন একটি অনিবার্য প্রবণতা, তবে এটি যাচাই করা প্রয়োজন। আমরা ব্যক্তিগত অনুমানের উপর নির্ভর করতে পারি না; আমাদের অবশ্যই বৈজ্ঞানিক পদ্ধতি অনুসরণ করতে হবে: অনুমান তৈরি করা, পরীক্ষা পরিচালনা করা এবং ফলাফল পর্যবেক্ষণ করা। কখনও কখনও এটি সফল হয়, কখনও কখনও এটি ব্যর্থ হয়, তবে এটি প্রযুক্তিগত অগ্রগতির প্রক্রিয়া।
আমরা ধীরে ধীরে আমাদের লক্ষ্যের দিকে এগিয়ে যাচ্ছি, এবং আমি বিশ্বাস করি যে অদূর ভবিষ্যতে আমরা আরও একীভূত মডেল দেখতে পাব, তবে এর জন্য প্রচুর উদ্ভাবনের প্রয়োজন হবে।
এটি আসলে বেশ কঠিন—মডেলের আউটপুট স্পেস অত্যন্ত গুরুত্বপূর্ণ কারণ এটি সরাসরি শেখা সংকেতের মানের সাথে সম্পর্কিত। বর্তমানে, আমাদের শেখা সংকেতগুলি মূলত কোড এবং টেক্সট থেকে আসে, যে কারণে মডেলটি এই ক্ষেত্রগুলিতে ভালো পারফর্ম করে।
তবে, ছবি তৈরির প্রক্রিয়াটি ভিন্ন: এর জন্য অত্যন্ত উচ্চমানের প্রয়োজন, যার জন্য কেবল পিক্সেল-স্তরের নির্ভুলতাই নয়, ছবির ধারণার সামঞ্জস্যও প্রয়োজন – অর্থাৎ প্রতিটি পিক্সেলকে সামগ্রিক ছবির যুক্তির সাথে সঙ্গতিপূর্ণ হতে হবে। একই সাথে ভালো টেক্সট এবং ছবি তৈরি করা খুবই কঠিন। কিন্তু আমি বিশ্বাস করি এটি একেবারেই সম্ভব; এর জন্য কেবল মডেল উদ্ভাবনের জন্য একটি উপযুক্ত দিকনির্দেশনা খুঁজে বের করা প্রয়োজন।
লোগান কিলপ্যাট্রিক : এটা খুবই উত্তেজনাপূর্ণ! আশা করি, এটি আমাদের কাজকে আরও দক্ষ করে তুলবে, উদাহরণস্বরূপ, একটি সমন্বিত মডেল চেকপয়েন্ট থাকার মাধ্যমে।
কোরে কাভুক্কুওগলু : এটা বলা কঠিন, কিন্তু এটা খুবই সম্ভব।
সবকিছুই শেখার উপর ভিত্তি করে।
লোগান কিলপ্যাট্রিক : কোডিং এবং টুল ব্যবহার সম্পর্কে আমার আরেকটি প্রশ্ন আছে। জেমিনির উন্নয়নের দিকে ফিরে তাকালে: সংস্করণ ১.০ মাল্টিমোডাল কম্পিউটিংয়ের উপর দৃষ্টি নিবদ্ধ করেছিল এবং সংস্করণ ২.০ অবকাঠামো তৈরি শুরু করেছিল। যদিও আমাদের অগ্রগতি দ্রুত হয়েছে, কেন আমরা মাল্টিমোডাল ডোমেইনে শুরু থেকেই এজেন্ট টুল ব্যবহারে অত্যাধুনিক পর্যায়ে পৌঁছাতে পারিনি? সর্বোপরি, জেমিনি ১.০ মাল্টিমোডাল কম্পিউটিংয়ে ধারাবাহিকভাবে নেতৃত্ব দিয়েছিল।
কোরে কাভুক্কুওগলু : আমার মনে হয় না এটা ইচ্ছাকৃত ছিল। সত্যি কথা বলতে, আমার মনে হয় এটা মডেল ডেভেলপমেন্ট এনভায়রনমেন্ট বাস্তব জগতের কতটা কাছাকাছি তার সাথে ঘনিষ্ঠভাবে সম্পর্কিত। এটি বাস্তবতার যত কাছাকাছি, ব্যবহারকারীর প্রকৃত চাহিদা তত ভালোভাবে বুঝতে পারে।
জেমিনির বিকাশ "বিশুদ্ধ গবেষণা" থেকে "ইঞ্জিনিয়ারিং চিন্তাভাবনা"-এ স্থানান্তরিত হওয়ার এবং পণ্যের সাথে গভীরভাবে একীভূত হওয়ার একটি প্রক্রিয়া। গুগলের AI গবেষণায় গভীর ভিত্তি রয়েছে এবং এর অনেক অসামান্য গবেষক রয়েছে, কিন্তু জেমিনিকে যা বিশেষ করে তোলে তা হল এটি আমাদের "প্রবন্ধ লেখা এবং গবেষণা করা" থেকে "পণ্যের মাধ্যমে ব্যবহারকারীদের সাথে একসাথে বিকাশ"-এ স্থানান্তরিত করেছে।
আমি আমাদের দলের জন্য গর্বিত – আমাদের বেশিরভাগই, আমি সহ, চার বা পাঁচ বছর আগে গবেষণাপত্র প্রকাশ এবং AI গবেষণা পরিচালনার উপর মনোযোগী ছিলাম। এখন, আমরা প্রযুক্তির অগ্রভাগে আছি, পণ্য এবং ব্যবহারকারীদের মাধ্যমে প্রযুক্তিগত পুনরাবৃত্তিকে একত্রিত করে।
এই রূপান্তরটি অসাধারণ: আমরা প্রতি ছয় মাস অন্তর একটি নতুন মডেল প্রকাশ করি এবং প্রতি এক থেকে দেড় মাস অন্তর এটি আপডেট করি। আমি বিশ্বাস করি এই প্রক্রিয়ার মাধ্যমেই আমরা ধীরে ধীরে বুদ্ধিমান এজেন্ট সরঞ্জাম ব্যবহারের ক্ষমতা উন্নত করেছি।
লোগান কিলপ্যাট্রিক : আরেকটি আকর্ষণীয় বিষয়: ডিপমাইন্ড এখন অসংখ্য বিশ্ব-নেতৃস্থানীয় এআই পণ্যের গর্ব করে, যেমন ভাইব কোডিং, এআই স্টুডিও, জেমিনি এবং অ্যান্টি-গ্র্যাভিটি প্ল্যাটফর্ম। গুগলের অনেক অত্যাধুনিক মডেলও রয়েছে, যেমন জেমিনি ৩, ন্যানো ব্যানানা এবং ভিও। দশ বা পনেরো বছর আগেও পৃথিবী সম্পূর্ণ ভিন্ন ছিল।
আমি কৌতূহলী। তোমার ক্যারিয়ারের দিকে ফিরে তাকালে, তুমি গতকাল বলেছিলে যে তুমি ডিপমাইন্ডের প্রথম ডিপ লার্নিং গবেষক, যা আমাকে এবং অন্যদের অবাক করেছে। ১৩ বছর আগে (২০১২) যখন ডিপ লার্নিংকে সন্দেহের চোখে দেখা হত, সেই সময় থেকে এখন পর্যন্ত যখন এই প্রযুক্তি অসংখ্য পণ্যকে শক্তিশালী করে এবং একটি মূল চালিকা শক্তি, তোমার চিন্তাভাবনা কী? এই সব কি প্রত্যাশিত ছিল, নাকি এটা তোমাকে অবাক করেছিল?
কোরে কাভুক্কুওগলু : আমার মনে হয় এটাই আদর্শ ফলাফল। পিএইচডি করা সকলের মতো, আপনিও নিশ্চিত হয়ে যান যে আপনি যা করছেন তা গুরুত্বপূর্ণ এবং এর একটি উল্লেখযোগ্য প্রভাব পড়বে – সেই সময় আমার মানসিকতা এটাই ছিল।
তাই যখন ডেমি এবং শেন আমার সাথে যোগাযোগ করে বললেন যে ডিপমাইন্ড হলো বুদ্ধিমত্তা তৈরির উপর মনোযোগী একটি দল, যার মূলে রয়েছে গভীর শিক্ষা, তখন আমি অবিশ্বাস্যভাবে উত্তেজিত হয়ে পড়েছিলাম। আমার বন্ধু কার্ল গ্রেগার এবং আমি (আমরা দুজনেই নিউ ইয়র্ক ইউনিভার্সিটির জানের ল্যাব থেকে এসেছি) একই সাথে ডিপমাইন্ডে যোগ দিয়েছিলাম। সেই সময়ে, ডিপ লার্নিং এবং এআই-এর উপর মনোযোগী স্টার্টআপগুলি খুব বিরল ছিল, তাই ডিপমাইন্ডের দৃষ্টিভঙ্গি সত্যিই অসাধারণ ছিল এবং সেখানে কাজ করা অবিশ্বাস্যভাবে উত্তেজনাপূর্ণ ছিল। পরে, আমি আমার নিজস্ব ডিপ লার্নিং টিম তৈরি করেছিলাম এবং এটির বৃদ্ধি এবং সমৃদ্ধি দেখেছি।
গভীর শিক্ষার প্রতি আমার মনোভাব সবসময়ই ছিল: প্রাথমিক নীতিগুলির উপর ভিত্তি করে এটি তৈরি করা এবং "শিক্ষা-ভিত্তিক" মানসিকতা মেনে চলা, যা ডিপমাইন্ডের মূল দর্শনও: সবকিছুই শেখার উপর ভিত্তি করে।
প্রাথমিক DQN, AlphaGo, AlphaZero, এবং AlphaFold থেকে বর্তমান জেমিনি পর্যন্ত এই যাত্রার দিকে ফিরে তাকালে, এটি সত্যিই একটি আবেগঘন অভিজ্ঞতা। আমরা সবসময় ইতিবাচক প্রত্যাশা নিয়ে এগিয়ে এসেছি, কিন্তু একই সাথে, আমরা খুব ভাগ্যবান বোধ করি।
আমরা এই যুগে বাস করতে পেরে ভাগ্যবান। অনেকেই প্রযুক্তিগত বিস্ফোরণ প্রত্যক্ষ করার আশায় তাদের জীবন কৃত্রিম বুদ্ধিমত্তা বা তাদের নিজস্ব আবেগের জন্য উৎসর্গ করেছেন, এবং এখন তা সত্যিই ঘটেছে। কৃত্রিম বুদ্ধিমত্তার উত্থান কেবল মেশিন লার্নিং এবং গভীর শিক্ষার অগ্রগতির কারণেই নয়, বরং হার্ডওয়্যার, ইন্টারনেট এবং ডেটার বিকাশের সাথেও অবিচ্ছেদ্য – এই সমস্ত কারণ আজকের পরিস্থিতিতে অবদান রেখেছে। অতএব, আমি কৃত্রিম বুদ্ধিমত্তার ক্ষেত্রটি বেছে নিতে পেরে গর্বিত, এবং এই যুগে বাস করতে পেরে আমি নিজেকে ভাগ্যবান মনে করি। এটি সত্যিই উত্তেজনাপূর্ণ।
লোগান কিলপ্যাট্রিক : আমি সম্প্রতি "দ্য থিংকিং গেম" ভিডিও সিরিজটি দেখেছি এবং আলফাফোল্ডের পিছনের গল্পটি সম্পর্কে জানতে পেরেছি। আমি সেই যুগটি সরাসরি অনুভব করিনি, তাই আমি কেবল উপকরণ এবং অন্যান্য লোকের বিবরণের মাধ্যমে এটি সম্পর্কে জানি। আপনি ডিপমাইন্ডে বেশ কয়েকটি গুরুত্বপূর্ণ প্রকল্পের সাথে জড়িত ছিলেন। আপনার বর্তমান কাজটি আপনার অতীতের কাজের চেয়ে কীভাবে আলাদা বলে মনে হয়? উদাহরণস্বরূপ, আপনি আগে উল্লেখ করেছিলেন যে "আমরা বিশ্বের কাছে মডেলগুলি আনার পদ্ধতিগুলি আয়ত্ত করেছি।" এই অনুভূতিটি আপনার পূর্ববর্তী প্রকল্পগুলির সাথে কীভাবে মিল বা আলাদা?
কোরে কাভুক্কুওগলু : জটিল বৈজ্ঞানিক ও প্রযুক্তিগত সমস্যাগুলিকে সফল ফলাফলে রূপান্তরিত করার জন্য আপনি কীভাবে একটি দলকে সংগঠিত করেন এবং একটি সংস্কৃতি গড়ে তোলেন? আমি বিশ্বাস করি আমরা DQN, AlphaGo এবং AlphaZero থেকে শুরু করে AlphaFold পর্যন্ত একাধিক প্রকল্প থেকে প্রচুর অভিজ্ঞতা অর্জন করেছি, যার সবকটিরই গভীর প্রভাব রয়েছে। আমরা শিখেছি কীভাবে নির্দিষ্ট লক্ষ্য এবং মিশনের জন্য বড় দলগুলিকে সংগঠিত করতে হয়।
আমার মনে আছে ডিপমাইন্ডের প্রথম দিকে, আমরা ২৫ জন একসাথে একটি গবেষণাপত্র প্রকাশের জন্য একটি প্রকল্পে কাজ করতাম – অনেকেই প্রশ্ন তুলেছিলেন যে কীভাবে ২৫ জন একসাথে একটি গবেষণাপত্রে সহযোগিতা করতে পারে, কিন্তু আমরা তা করেছিলাম। বৈজ্ঞানিক গবেষণায় এত বড় আকারের সহযোগিতা অস্বাভাবিক, কিন্তু কার্যকর সংগঠনের মাধ্যমে আমরা তা অর্জন করেছি। সময়ের সাথে সাথে এই অভিজ্ঞতা এবং মানসিকতা বিকশিত হয়েছে এবং ক্রমশ গুরুত্বপূর্ণ হয়ে উঠেছে।
গত দুই বা তিন বছরে, আমরা ইঞ্জিনিয়ারিং চিন্তাভাবনাও অন্তর্ভুক্ত করেছি – আমাদের মডেলের জন্য একটি প্রধান উন্নয়ন দিক রয়েছে এবং মূল দিকনির্দেশনার উপর ভিত্তি করে অন্বেষণ করতে শিখেছি।
আমার মনে হয় ডিপ থিঙ্ক একটি ভালো উদাহরণ: আমরা এটি ব্যবহার করে আন্তর্জাতিক গণিত অলিম্পিয়াড (IMO) এবং আন্তর্জাতিক কলেজিয়েট প্রোগ্রামিং প্রতিযোগিতা (ICPC) এর মতো শীর্ষ-স্তরের প্রতিযোগিতায় অংশগ্রহণ করেছি। এই প্রতিযোগিতাগুলিতে অত্যন্ত কঠিন সমস্যা রয়েছে এবং অনেকেই প্রতিযোগিতার জন্য বিশেষভাবে একটি মডেল কাস্টমাইজ করতে চাইবেন, কিন্তু আমরা আমাদের বিদ্যমান মডেলটিকে অপ্টিমাইজ করার সুযোগ হিসেবে এটি ব্যবহার করার সিদ্ধান্ত নিয়েছি।
আমরা প্রযুক্তির বহুমুখী ব্যবহারের উপর দৃঢ়ভাবে বিশ্বাস করি। প্রতিযোগিতার মাধ্যমে, আমরা নতুন ধারণাগুলি অন্বেষণ করি, এই ধারণাগুলিকে বিদ্যমান মডেলগুলিতে একীভূত করি এবং শেষ পর্যন্ত এমন মডেল তৈরি করি যা শীর্ষ-স্তরের প্রতিযোগিতায় অংশগ্রহণ করতে পারে, যা আমরা পরে সকলের জন্য উপলব্ধ করি।
লোগান কিলপ্যাট্রিক : এটি আমাকে একটি সমান্তরাল কথা মনে করিয়ে দেয়: আগে, একটি কাগজে ২৫ জন সহযোগিতা করতেন, কিন্তু এখন জেমিনি ৩ অবদানকারীর তালিকায় ২,৫০০ জন থাকতে পারে – অনেকেই ভাবতে পারেন, "কীভাবে ২,৫০০ জন জড়িত হতে পারে?", কিন্তু এটা সত্য। বৃহৎ আকারের সহযোগিতার মাধ্যমে সমস্যা সমাধানের এই উপায় সত্যিই আশ্চর্যজনক।
কোরে কাভুক্কুওগলু : এটি খুবই গুরুত্বপূর্ণ, এবং এখানেই গুগলের শক্তি নিহিত। গুগলের পূর্ণ-স্ট্যাক প্রযুক্তিগত ক্ষমতা রয়েছে, যা থেকে আমরা উপকৃত হতে পারি: ডেটা সেন্টার, চিপস এবং নেটওয়ার্ক থেকে শুরু করে বৃহৎ আকারের মডেল স্থাপন পর্যন্ত, প্রতিটি পর্যায়ে বিশেষজ্ঞ রয়েছেন।
ইঞ্জিনিয়ারিং চিন্তাভাবনার বিষয়ে ফিরে আসা যাক, এই দিকগুলি অবিচ্ছেদ্য। একটি মডেল ডিজাইন করার সময়, আমরা বিবেচনা করি যে এটি কোন হার্ডওয়্যারের উপর চলবে; এবং পরবর্তী প্রজন্মের হার্ডওয়্যার ডিজাইন করার সময়, আমরা মডেলের ভবিষ্যত দিকটি পূর্বাভাস দিই। এই সহযোগিতাটি দুর্দান্ত, কিন্তু এত দিক সমন্বয় করার জন্য সত্যিই হাজার হাজার মানুষের সম্মিলিত প্রচেষ্টা প্রয়োজন। আমাদের এই সহযোগিতার মূল্য স্বীকার করা উচিত; এটি সত্যিই অসাধারণ।
লোগান কিলপ্যাট্রিক : এটা খুব সহজ কাজ নয়। ডিপমাইন্ডের ঐতিহ্যে ফিরে আসা: আমরা সবসময় একটি বহুমুখী বৈজ্ঞানিক পদ্ধতি ব্যবহার করেছি, বিভিন্ন আকর্ষণীয় সমস্যা সমাধানের চেষ্টা করেছি। এবং এখন, আমরা একাধিক ক্ষেত্রে এই প্রযুক্তির কার্যকারিতা স্পষ্টভাবে প্রদর্শন করেছি; আমাদের কেবল এটিকে আরও বিস্তৃত করতে হবে। অবশ্যই, এর জন্যও উদ্ভাবনের প্রয়োজন।
আপনার মতে, আজকের যুগে ডিপমাইন্ড কীভাবে "বিশুদ্ধ বৈজ্ঞানিক অনুসন্ধান" এবং "মিথুন রাশির স্কেল সম্প্রসারণ" এর মধ্যে ভারসাম্য বজায় রাখে? উদাহরণস্বরূপ, "মিথুন রাশির বিস্তার মডেল" এই সিদ্ধান্ত গ্রহণের একটি বহিঃপ্রকাশ।
কোরে কাভুক্কুওগলু : এটি সবচেয়ে গুরুত্বপূর্ণ প্রশ্ন: উভয়ের মধ্যে ভারসাম্য খুঁজে বের করা অপরিহার্য।
অনেকেই এখন আমাকে জিজ্ঞাসা করেন, মিথুন রাশির সবচেয়ে বড় ঝুঁকি কী? আমি এটি নিয়ে মনোযোগ সহকারে ভেবেছি, এবং উত্তর হল "নতুনত্বের অভাব"। আমি একেবারেই বিশ্বাস করি না যে আমরা এমন একটি "এক-আকার-ফিট-সকল সূত্র" খুঁজে পেয়েছি যা আমরা কেবল ধাপে ধাপে অনুসরণ করতে পারি।
আমাদের লক্ষ্য হলো সাধারণ বুদ্ধিমত্তা তৈরি করা, যার জন্য ব্যবহারকারী এবং পণ্যের সাথে গভীর একীকরণ প্রয়োজন। তবে, এই লক্ষ্যটি নিজেই অত্যন্ত চ্যালেঞ্জিং, এবং আমাদের কাছে প্রস্তুত সমাধান নেই। এই লক্ষ্য অর্জনের মূল চালিকা শক্তি হল উদ্ভাবন।
উদ্ভাবন বিভিন্ন মাত্রা এবং দিকনির্দেশনা নিতে পারে: জেমিনি প্রকল্পের মধ্যে, আমরা নতুন স্থাপত্য, নতুন ধারণা এবং নতুন পদ্ধতি অন্বেষণ করি; সামগ্রিকভাবে, গুগল ডিপমাইন্ড আরও আন্তঃবিষয়ক অনুসন্ধান পরিচালনা করবে, কারণ জেমিনি প্রকল্পের মধ্যে কিছু ধারণা সম্পূর্ণরূপে বিকশিত হওয়ার জন্য খুব সীমিত হতে পারে।
অতএব, গুগল ডিপমাইন্ড এবং গুগল রিসার্চকে একসাথে বিভিন্ন ধারণা অন্বেষণ করতে হবে এবং তারপর এই ধারণাগুলিকে জেমিনিতে একীভূত করতে হবে, কারণ জেমিনি কোনও স্থাপত্য নয়, বরং একটি লক্ষ্য: সাধারণ বুদ্ধিমত্তা তৈরি করা যাতে সমস্ত গুগল পণ্য এই এআই ইঞ্জিনে চলতে পারে।
আমরা শেষ পর্যন্ত যে স্থাপত্যই গ্রহণ করি না কেন, আমরা বিকশিত হতে থাকব এবং উদ্ভাবন সর্বদা মূল চালিকা শক্তি হবে। ভারসাম্য খুঁজে বের করা, অথবা বিভিন্ন উপায়ে অনুসন্ধানকে এগিয়ে নেওয়া অত্যন্ত গুরুত্বপূর্ণ।
লোগান কিলপ্যাট্রিক : আমার একটি সম্পর্কিত প্রশ্ন আছে: I/O সম্মেলনে, আমি সের্গেইয়ের সাথে কথা বলেছিলাম, এবং যখন আপনি মডেল প্রকাশ এবং উদ্ভাবন চালানোর জন্য এত লোককে একত্রিত করেন, তখন আপনি এক ধরণের "মানবিক উষ্ণতা" অনুভব করতে পারেন – আমি এটি গভীরভাবে বুঝতে পারি। আমি সেই সময় আপনার পাশে বসে ছিলাম, এবং আমি আপনার উৎসাহও অনুভব করেছি।
এটি ব্যক্তিগতভাবে আমার কাছে খুবই অর্থবহ কারণ এটি ডিপমাইন্ডের সামগ্রিক সংস্কৃতিকে প্রতিফলিত করে: একটি গভীর বৈজ্ঞানিক ভিত্তির সাথে একটি বন্ধুত্বপূর্ণ এবং অন্তর্ভুক্তিমূলক দলগত পরিবেশ। অনেকেই হয়তো এই সংস্কৃতির গুরুত্ব এবং এটি কীভাবে কাজকে প্রভাবিত করে তা বুঝতে পারেন না। একজন দলনেতা হিসেবে, আপনি এই সংস্কৃতির প্রকাশকে কীভাবে দেখেন?
কোরে কাভুক্কুওগলু : প্রথমেই, প্রশংসার জন্য ধন্যবাদ; এটা আমাকে একটু বিব্রত করে। কিন্তু আমি সত্যিই টিমওয়ার্কের শক্তিতে এবং অন্যদের বিশ্বাস করা এবং সুযোগ দেওয়ার গুরুত্বে বিশ্বাস করি। টিমওয়ার্ক অত্যন্ত গুরুত্বপূর্ণ, এবং ডিপমাইন্ডে থাকাকালীন আমি এটিই শিখেছি।
আমরা একটি ছোট দল হিসেবে শুরু করেছিলাম এবং আমাদের বিকাশের সময় ধরে আস্থা বজায় রেখেছি। আমি বিশ্বাস করি এমন একটি পরিবেশ তৈরি করা অত্যন্ত গুরুত্বপূর্ণ যা "প্রভাবশালী এবং জটিল প্রযুক্তিগত এবং বৈজ্ঞানিক সমস্যা সমাধানের উপর দৃষ্টি নিবদ্ধ করে", এবং আমরা এখন এটিই করছি।
জেমিনির মূলে রয়েছে সাধারণ বুদ্ধিমত্তা তৈরি, এটি একটি অত্যন্ত চ্যালেঞ্জিং প্রযুক্তিগত এবং বৈজ্ঞানিক সমস্যা যার সমাধান আমাদের বিনয়ের সাথে করতে হবে, ক্রমাগত প্রশ্ন করতে হবে এবং নিজেদেরকে সর্বোত্তম করে তুলতে হবে। আমি আশা করি দলটিও এটি অনুভব করতে পারবে; আমি আমাদের দল, তাদের ঐক্যবদ্ধ প্রচেষ্টা এবং পারস্পরিক সমর্থনের জন্য সত্যিই গর্বিত।
আমি আগে ব্রেক রুমে দলের সাথে কথা বলছিলাম, "এটা কঠিন, আমরা সবাই ক্লান্ত, কিন্তু অত্যাধুনিক প্রযুক্তি তৈরির সময় এটাই স্বাভাবিক। আমাদের নিখুঁত প্রক্রিয়া নেই, কিন্তু সবাই তাদের সর্বোচ্চটা দিচ্ছে এবং একে অপরকে সমর্থন করছে।" এই সবকিছুকে আকর্ষণীয় এবং অর্থবহ করে তোলে এবং চ্যালেঞ্জ মোকাবেলা করার সাহস আমাদের দেয়, মূলত "একটি চমৎকার দল থাকা", যেখানে সবাই প্রযুক্তির সম্ভাবনা উপলব্ধি করার জন্য একসাথে কাজ করে।
আমি নিশ্চিতভাবে বলতে পারি যে আজ আমরা যে বৃহৎ ভাষা মডেল (LLM) স্থাপত্য ব্যবহার করি তা ২০ বছরের মধ্যে অবশ্যই অপ্রচলিত হয়ে যাবে। অতএব, ক্রমাগত নতুন দিকনির্দেশনা অন্বেষণ করাই সঠিক পছন্দ। গুগল ডিপমাইন্ড, গুগল রিসার্চ এবং সমগ্র একাডেমিক গবেষণা সম্প্রদায়কে একাধিক ক্ষেত্রে অনুসন্ধানকে এগিয়ে নিতে একসাথে কাজ করতে হবে।
আমি বিশ্বাস করি যে আমাদের "কোনটা ঠিক আর কোনটা ভুল" নিয়ে ব্যস্ত থাকা উচিত নয়। বাস্তব জগতে প্রযুক্তির ক্ষমতা এবং কর্মক্ষমতা আসলেই গুরুত্বপূর্ণ।
লোগান কিলপ্যাট্রিক : শেষ প্রশ্ন: গুগলে আমার প্রথম বছরে, আমি ব্যক্তিগতভাবে "গুগলের প্রত্যাবর্তন" অনুভব করেছি। গুগলের শক্তিশালী অবকাঠামোগত সুবিধা থাকা সত্ত্বেও, এআই-এর ক্ষেত্রে, আমরা ক্রমাগত তাল মিলিয়ে চলছি বলে মনে হচ্ছে। উদাহরণস্বরূপ, এআই স্টুডিওর প্রাথমিক পর্যায়ে, আমাদের কোনও ব্যবহারকারী ছিল না (পরে 30,000-এ বৃদ্ধি পেয়েছিল), কোনও রাজস্ব ছিল না এবং জেমিনি মডেলটিও প্রাথমিক পর্যায়ে ছিল।
এখন, জেমিনি ৩ মুক্তির সাথে সাথে, আমি সম্প্রতি বাস্তুতন্ত্রের বিভিন্ন অংশ থেকে প্রচুর প্রতিক্রিয়া পেয়েছি, এবং লোকেরা অবশেষে বুঝতে পেরেছে যে "গুগলের এআই যুগ এসে গেছে।" আপনি কি কখনও "প্রত্যাবর্তনের" এই অনুভূতি অনুভব করেছেন? আপনি কি বিশ্বাস করেছিলেন যে আমরা আজকের অবস্থানে পৌঁছাতে পারব? এই ভূমিকা পরিবর্তন দলের উপর কী প্রভাব ফেলবে?
কোরে কাভুক্কুওগলু : বৃহৎ ভাষা মডেল (এলএলএম) এর সম্ভাবনা ক্রমশ স্পষ্ট হয়ে উঠছে, আমি স্পষ্টভাবে বলছি যে আমি ডিপমাইন্ডকে একটি অত্যাধুনিক এআই ল্যাব হিসাবে বিবেচনা করি, তবে আমি এটাও বুঝতে পারি যে গবেষক হিসেবে আমরা নির্দিষ্ট কিছু ক্ষেত্রে যথেষ্ট বিনিয়োগ করিনি। এটি আমার জন্য একটি গুরুত্বপূর্ণ শিক্ষা: আমাদের অনুসন্ধানকে আরও বিস্তৃত করতে হবে এবং উদ্ভাবন অত্যন্ত গুরুত্বপূর্ণ, একক স্থাপত্যের মধ্যে সীমাবদ্ধ থাকার চেয়ে।
আমি সবসময় দলের সাথে সৎ ছিলাম: প্রায় আড়াই বছর আগে, যখন আমরা বৃহৎ ভাষার মডেলগুলিকে গুরুত্ব সহকারে নিতে শুরু করেছিলাম এবং জেমিনি প্রকল্প চালু করেছিলাম, তখন আমরা অনেক দিক থেকে অত্যাধুনিক প্রযুক্তির চেয়ে পিছিয়ে ছিলাম। এমন অনেক জিনিস ছিল যা আমরা জানতাম না, এবং যদিও আমাদের নিজস্ব সুবিধা ছিল, আমরা প্রকৃতপক্ষে একটি ক্যাচ-আপ পর্যায়ে ছিলাম।
এই ক্যাচ-আপ প্রক্রিয়াটি অনেক দিন ধরে চলে আসছে, এবং এখন, আমি বিশ্বাস করি আমরা শীর্ষস্থানীয় দলে প্রবেশ করেছি। আমাদের উন্নয়নের গতি, দলের গতিশীলতা এবং সহযোগিতামূলক ছন্দ নিয়ে আমি খুবই সন্তুষ্ট। তবে আমাদের অতীত ক্যাচ-আপ যাত্রার চ্যালেঞ্জগুলি মোকাবেলা করতে হবে।
তাল মিলিয়ে চলার প্রক্রিয়ায়, আমাদের অবশ্যই অন্যদের শক্তি থেকে শিখতে হবে, একই সাথে আমাদের নিজস্ব উদ্ভাবনের সাথে তাল মিলিয়ে আমাদের উপযুক্ত সমাধান খুঁজে বের করতে হবে: প্রযুক্তি, মডেল, প্রক্রিয়া, অথবা দলগত পরিচালনা পদ্ধতি যাই হোক না কেন, এগুলো সবই আমাদের কাছে অনন্য।
অনেকেই বলে, "গুগল অনেক বড় এবং অদক্ষ," কিন্তু আমি বিশ্বাস করি এটিকে একটি সুবিধায় রূপান্তরিত করা যেতে পারে। আমাদের অনন্য, বৃহৎ পরিসরে কাজ করার ক্ষমতা আছে, যেমন একই সাথে সমস্ত গুগল পণ্যে জেমিনিকে উপলব্ধ করা। আমি এখন যেখানে আছি তাতে আমি খুবই খুশি, তবে এটি ক্রমাগত শেখা এবং উদ্ভাবনের মাধ্যমে অর্জন করা হয়েছে। এটি সত্যিই একটি অসাধারণ "প্রত্যাবর্তনের" গল্প।
অবশ্যই, তুলনা সবসময়ই থাকবে, কিন্তু আমাদের লক্ষ্য একই রয়ে গেছে: সাধারণ বুদ্ধিমত্তা তৈরি করা – এবং আমরা এটি সঠিক উপায়ে অর্জন করতে চাই, আমাদের সমস্ত প্রচেষ্টা এবং উদ্ভাবন এতে নিবেদিত করে।
লোগান কিলপ্যাট্রিক : আমার মনে হয় আগামী ছয় মাস সম্ভবত গত ছয় মাসের মতোই উত্তেজনাপূর্ণ হবে, এমনকি তার আগের ছয় মাসও। এই সাক্ষাৎকারটি করার জন্য সময় দেওয়ার জন্য আবারও ধন্যবাদ, এটি খুবই আনন্দদায়ক ছিল! আশা করি আমরা আগামী বছরের I/O সম্মেলনের আগে আবার কথা বলতে পারব।
যদিও মনে হচ্ছে অনেক সময় কেটে যাবে, সময় অবশ্যই কেটে যাবে। আমার বিশ্বাস আগামী সপ্তাহে ২০২৬ সালের I/O সম্মেলনের জন্য একটি পরিকল্পনা সভা হবে। জেমিনি ৩, ন্যানো ব্যানানা প্রো এবং অন্যান্য পণ্যের সফল উৎক্ষেপণের জন্য আপনাকে, ডিপমাইন্ড টিমকে এবং সমস্ত মডেল গবেষকদের আবারও অভিনন্দন!
কোরে কাভুক্কুওগলু : ধন্যবাদ! এই আড্ডাটা অসাধারণ ছিল। কঠোর পরিশ্রমের জন্য দলকে ধন্যবাদ, এবং আমন্ত্রণের জন্য ধন্যবাদ!
#iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট অনুসরণ করতে আপনাকে স্বাগতম: iFanr (WeChat ID: ifanr), যেখানে যত তাড়াতাড়ি সম্ভব আরও উত্তেজনাপূর্ণ কন্টেন্ট আপনার কাছে উপস্থাপন করা হবে।
