ন্যানো বানানা অবশেষে আর নিরক্ষর নেই, কিন্তু আমি হয়তো “বোকা” হয়ে যাব।

গত সপ্তাহান্তে, জেমিনি ৩ প্রো ইমেজের ক্ষমতা বারবার ক্রমবর্ধমান বিভিন্ন উপায়ে "নির্যাতন" করা হয়েছে – ওহ, আপনি জিজ্ঞাসা করছেন এটি কী? এর অন্য নাম ন্যানো ব্যানানা ২। এত মজার নাম, তবুও এটিই রাখা হয়েছিল।

ন্যানো ব্যানানা২ প্রতিটি দিক থেকেই অসাধারণ, এমনকি এর "প্রতিযোগী" স্যাম অল্টম্যানকেও এর শ্রেষ্ঠত্ব স্বীকার করতে হচ্ছে।

▲ ছবি: দ্য ইনফরমেশন থেকে

প্রশংসা তো ঠিক তাই—প্রশংসা। ন্যানো কলা ফেজ ২ আসলে এআই ইমেজ জেনারেশনের ক্ষেত্রে একটি গুরুত্বপূর্ণ মোড়কে চিহ্নিত করে: সম্ভাব্যতা-ভিত্তিক "যুক্তি" থেকে বোধগম্যতা-ভিত্তিক "যৌক্তিক নির্মাণ"-এ স্থানান্তর। এটির একটি বিশেষ তাৎপর্যও রয়েছে: এআই এখন কেবল আপনার চোখকেই লক্ষ্য করে না, বরং আপনার বুদ্ধিমত্তাকেও লক্ষ্য করে।

বৃহৎ ভাষার মডেলগুলি আর "নিরক্ষর" নয়।

কৃত্রিম বুদ্ধিমত্তা (এআই) দ্বারা তৈরি ছবিগুলির ক্ষেত্রে সবসময়ই একটি অনিবার্য সমস্যা ছিল: এগুলি অবিশ্বাস্যভাবে প্রতিভাবান এবং অনায়াসে ফলাফল তৈরি করতে পারে, তবে কখনও কখনও তারা নিয়ন্ত্রণ হারিয়ে ফেলে, যেন তারা মাতাল। এটি মিডজার্নি যুগে শুরু হয়েছিল এবং তারপর থেকে ধীরে ধীরে উন্নতি হয়েছে, তবে এটি এখনও বিদ্যমান।

সবচেয়ে বড় ত্রুটিগুলির মধ্যে একটি ছিল টেক্সট। অনেক দিন ধরে, কোনও ছবি AI দ্বারা তৈরি করা হয়েছে কিনা তা নির্ধারণ করার সবচেয়ে সহজ উপায় ছিল ছবির লেখাটি দেখা।

এটি ডিফিউশন মডেলের একটি সহজাত ত্রুটি: এটি টেক্সটকে প্রতীকের পরিবর্তে টেক্সচার হিসেবে বিবেচনা করে।

ন্যানো ব্যানানা ২-এর সবচেয়ে স্পষ্ট সাফল্য হল এটি "শব্দ চিনতে পারে", যা টেক্সট রেন্ডারিং নামেও পরিচিত।

আমার হঠাৎ পরীক্ষায় "Banana's Revenge" শিরোনামে একটি রেট্রো সিনেমার পোস্টার এবং লাল সেরিফ ফন্টে "Released in 2025" সাবটাইটেল তৈরি হয়েছে।

অতীতে, এই কমান্ডটি ব্যবহার করলে সম্ভবত একটি অত্যন্ত শৈল্পিক চিত্র তৈরি হত। "BANANA REVENGE" এর কিছু রূপ স্পষ্ট এবং স্বাভাবিক থাকলেও, ছোট লেখাটি প্রায়শই ভালভাবে ধরে রাখতে পারত না এবং কখনও কখনও মূল শিরোনামটি "BANNANA" বানানও করা হত। যাইহোক, Nano Banana 2-তে, এই চরিত্রগুলি সঠিকভাবে, স্পষ্টভাবে এবং নান্দনিকভাবে পর্দায় "লিখিত"।

তাহলে কি? এটা কি শুধু শব্দ যোগ করে সময় বাঁচানোর জন্য?

সাধারণ ব্যবহারকারীদের জন্য, এটি এক ধরণের "ইমোজি স্বাধীনতা" হতে পারে। আপনি অবশেষে এমন একটি ছবি তৈরি করতে পারেন যা আপনার বসের সমালোচনা করে, সুনির্দিষ্ট লেখা সহ, আর আলাদা টেক্সট বক্স তৈরি না করেই।

ব্যবসায়িক জগতের জন্য, এর অর্থ হল AI চিত্র তৈরি আনুষ্ঠানিকভাবে "উপাদান" পর্যায় থেকে "ডেলিভারেবল" পর্যায়ে চলে গেছে।

▲ ছবি X ব্যবহারকারী @chumsdock থেকে

যখন AI সঠিকভাবে প্রতীকী তথ্য প্রক্রিয়া করতে পারে, তখন ডেলিভারেবলগুলি আরও বৈচিত্র্যময় এবং ব্যবহারিক হয়ে ওঠে, যার মধ্যে ই-কমার্স পোস্টার, পিপিটি চিত্র এবং এমনকি ডেটা চার্ট অন্তর্ভুক্ত থাকে তবে সীমাবদ্ধ নয়। পূর্বে, ডিজাইনাররা কেবল ব্যাকগ্রাউন্ড ইমেজ তৈরি করতে AI ব্যবহার করতে পারতেন; মূল তথ্য এখনও ম্যানুয়ালি যোগ করতে হত। এখন, AI সরাসরি প্রোটোটাইপ তৈরি করতে পারে, এমনকি ডেটা অ্যানোটেশন সহ পাই চার্ট, অথবা এমন বিজ্ঞাপন যেখানে পাঠ্য পুরোপুরি দৃষ্টিভঙ্গির সাথে খাপ খায়।

এটি বাণিজ্যিক ডেলিভারির "শেষ মাইল", এবং তথ্য প্রেরণের ক্ষেত্রে কাঁচা চিত্র মডেলগুলির জন্য একটি বিশাল পদক্ষেপ।

"সম্ভাবনা অনুমান করা" থেকে "পদার্থবিদ্যা বোঝা" পর্যন্ত

টেক্সট রেন্ডারিংয়ের সাফল্য ন্যানো ব্যানানা ২-এর অন্তর্নিহিত প্রযুক্তিগত উল্লম্ফনের একটি অত্যন্ত প্রতিনিধিত্বমূলক ক্ষুদ্র জগৎ। আরও গভীর পরিবর্তন হল এই "কলা" একটি মস্তিষ্ক তৈরি করেছে ।

এটি "যুক্তির" উপর ভিত্তি করে চিত্র তৈরিকে বোঝায়।

একটি বৃহৎ মডেল মূলত একটি সম্ভাব্য পরিসংখ্যান যন্ত্র। যখন আপনি একটি মডেলকে "কাচের টেবিলে বসে থাকা বিড়াল" আঁকতে বলেন, তখন এটি লক্ষ লক্ষ চিত্র থেকে শেখে এবং চিত্র তৈরি করার সময়, এটি কেবল পিক্সেলের পরিসংখ্যানগত ধরণগুলি পুনরুত্পাদন করে।

ন্যানো ব্যানানা ২ এর পার্থক্য হলো এতে জেমিনি ৩ ভাষা মডেলের যুক্তি ক্ষমতা অন্তর্ভুক্ত। ছবি তৈরির আগে, এটি প্রথমে তার "মস্তিষ্কে" একটি ভৌত মডেল তৈরি করে বলে মনে হয়। এটি জানে যে সাধারণত একটি "বিড়ালের" নীচে ঝাপসা ছায়া থাকে এবং কাচের প্লেটের উপর বা নীচে থাকা বস্তুগুলির মধ্যে বিভিন্ন আলোর সম্পর্ক থাকে।

আরেকটি সাধারণ পরীক্ষায়, যখন আমি এটি দিয়েছিলাম, তখন "টেবিলের উপর নীল তরলের বীকার এবং পটভূমিতে একটি ব্ল্যাকবোর্ডে আণবিক সূত্র সহ একটি জটিল রসায়ন ল্যাব তৈরি করতে বলা হলে," এটি অসাধারণ যৌক্তিক যুক্তি প্রদর্শন করেছিল:

বিকারের তরল পদার্থে সঠিক মেনিস্কাস থাকবে; কাচের পাত্র দ্বারা আলোর প্রতিসরণ ভৌত স্বজ্ঞাততার সাথে সঙ্গতিপূর্ণ; সবচেয়ে গুরুত্বপূর্ণ বিষয় হল, পটভূমির ব্ল্যাকবোর্ডে আণবিক সূত্রগুলি আর এলোমেলো রেখা নয়, বরং সূত্রগুলি যা সঠিক রাসায়নিক কাঠামোর মতো দেখায় (যদিও এখনও ত্রুটি রয়েছে)।

যখন পেইন্টব্রাশের একটি "মস্তিষ্ক" থাকে, তখন আমরা এর সাথে যোগাযোগের উপায় পরিবর্তন করি।

টেক্সট জেনারেশনের উপর জোর দেওয়ার কারণ হলো টেক্সট রেন্ডারিং হলো বাহ্যিক প্রকাশ, যা রিজনিংকে অভ্যন্তরীণ ইঞ্জিন হিসেবে প্রতিফলিত করে। একসাথে, ন্যানো ব্যানানা ২ ব্যবহারকারীদের জন্য যে চূড়ান্ত অভিজ্ঞতা নিয়ে আসে তা হল একটি "থিঙ্কিং ক্যানভাস"।

গুগল এই মডেলটিকে তার বাস্তুতন্ত্রের সাথে গভীরভাবে একীভূত করেছে, বাস্তবতাকে "পরিবর্তন" করার জন্য কেবল ছবি তৈরির বাইরেও। পরবর্তী পদক্ষেপ হল আরও গুরুতর ক্ষেত্রগুলিতে যাওয়া: ইনফোগ্রাফিক্স, পাঠ পরিকল্পনা, শিক্ষণ উপকরণ ইত্যাদি।

সামগ্রিকভাবে, চিত্র তৈরিতে সাধারণত ব্যবহারকারীরা ২০% নির্দেশাবলী প্রদান করেন, বাকি ৮০% শূন্যস্থান পূরণ করার জন্য AI-এর কাছে ছেড়ে দেন—আগে এটি সম্ভাব্যতার (এলোমেলো রঙ) উপর নির্ভর করত। এখন, এটি কার্যকারণ যুক্তির উপর নির্ভর করে, কেবল "ফলাফল" চিত্রিত করে না বরং "প্রক্রিয়া"কেও বোঝায়, যা চিত্রের বর্ণনামূলক এবং মানসিক প্রভাবকে তাৎপর্যপূর্ণভাবে বৃদ্ধি করে।

এটি এখন আর কেবল আপনার চোখকে খুশি করার জন্য নয়; এটি আপনার বুদ্ধিমত্তাকে খুশি করার চেষ্টা শুরু করেছে। উপরের চিত্রের মতো একটি কাঠামোগত চিত্র, যদিও যান্ত্রিক প্রকৌশলের মানদণ্ডের সাথে ১০০% সঙ্গতিপূর্ণ নয়, তবুও দেখায় যে নখই পেরেক এবং রিভেটগুলিই রিভেট। "যৌক্তিক সঠিকতা" হল এর যুক্তি ক্ষমতার সরাসরি প্রকাশ।

তবে, সবকিছুরই দুটি দিক থাকে। অন্য দৃষ্টিকোণ থেকে, এর অর্থ হতে পারে সৃজনশীলতার একজাতকরণ ।

যখন AI নিখুঁতভাবে চার্ট, পোস্টার এবং চিত্র তৈরি করতে পারে যা "ব্যবসায়িক মান পূরণ করে", তখন এটি মূলত নান্দনিকতার গড় স্তরকে সমান করে তোলে। সমস্ত পোস্টার সঠিকভাবে সাজানো এবং নিখুঁত আলো রয়েছে, তবে তারা অতীতের নকশাগুলিতে "অসম্পূর্ণতা" থেকে জন্ম নেওয়া প্রতিভার স্ট্রোকও হারাতে পারে।

▲ ছবি ব্যবহারকারী X @ dotey থেকে

গভীর সমস্যা হলো সত্যের অন্তর্ধান। উপরে উল্লিখিত যুক্তিসঙ্গতভাবে সুষ্ঠু, তথ্য সমৃদ্ধ বিষয়বস্তু যখন ব্যাপকভাবে তৈরি করা যায়, তখন মনকে আনন্দিত করা কখনও সহজ ছিল না, এবং কখনও এত সহজও ছিল না । যদি এটি আমার সমস্ত তথ্য গ্রহণ, ছবি থেকে টেক্সট পর্যন্ত, নির্ধারণ করে, তাহলে… কেমন দেখাবে?

আর তারপর আছে ডিপফেকসের দীর্ঘস্থায়ী সমস্যা, যা নিয়ে অসংখ্যবার আলোচনা হয়েছে। যদিও গুগল AI কন্টেন্ট ট্যাগ করার জন্য SynthID (মানুষের চোখে অদৃশ্য একটি ডিজিটাল ওয়াটারমার্ক) যুক্ত করেছে, তবুও প্রযুক্তির জাল-বিরোধী ব্যবস্থাগুলি ভিজ্যুয়াল ইমপ্যাক্টের তুলনায় প্রায়শই ফ্যাকাশে। "বাস্তববাদ" তৈরি করা এতটাই সস্তা এবং সুবিধাজনক হয়ে উঠেছে যে "দেখা মানে বিশ্বাস করা" এই বিশ্বাসটি সম্পূর্ণরূপে পুনর্গঠিত হবে।

"ন্যানো বানানা" বলা হোক বা "জেমিনি ৩ প্রো", সেটা এখন আর গুরুত্বপূর্ণ নয়। গুরুত্বপূর্ণ বিষয় হল, এই মুহূর্ত থেকে, স্ক্রিনে আমরা যে প্রতিটি পিক্সেল এবং প্রতিটি লাইন টেক্সট দেখি তা আর মানুষের আঙুল থেকে নয়, বরং যন্ত্রের চিন্তাভাবনা থেকে আসতে পারে।

এটা একই সাথে উত্তেজনাপূর্ণ এবং মাঝে মাঝে, ঠাণ্ডাও করে তোলে।

#iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট অনুসরণ করতে আপনাকে স্বাগতম: iFanr (WeChat ID: ifanr), যেখানে যত তাড়াতাড়ি সম্ভব আরও উত্তেজনাপূর্ণ কন্টেন্ট আপনার কাছে উপস্থাপন করা হবে।

ifanr | মূল লিঙ্ক · মন্তব্য দেখুন · সিনা ওয়েইবো