ন্যানো ব্যানানা ২ সবেমাত্র মুক্তি পেয়েছে! এটি সাশ্রয়ী মূল্যের এবং প্রচুর পরিমাণে; এটি চেষ্টা করার পরে, আমি এই বিবরণগুলি আবিষ্কার করেছি।

ছবি তৈরির জন্য AI ব্যবহার করার সময়, সবসময় একটি দ্বিধা দেখা দেয়: গতি নাকি গুণমান?

তবে, গতি এবং গুণমান পরস্পর একচেটিয়া নয়। এইমাত্র, গুগল আনুষ্ঠানিকভাবে তাদের পরবর্তী প্রজন্মের ইমেজ জেনারেশন মডেল: ন্যানো ব্যানানা ২ (জেমিনি ৩.১ ফ্ল্যাশ ইমেজ) প্রকাশ করেছে।

বিশ্ব কাঁপানো অনেক স্লোগান ছাড়াই, এটি কেবল উন্নত চিত্রের গুণমান এবং আরও মানুষের মতো বোঝাপড়াকে সম্পূর্ণ নতুন অন্তর্নিহিত স্থাপত্যে রূপান্তরিত করেছে। এই একটি জিনিস কৃত্রিম বুদ্ধিমত্তা-উত্পাদিত চিত্রগুলিকে ভাগ্যের বিষয় বলে মনে হয় না বরং আরও আশ্বস্তভাবে ব্যবহারযোগ্য করে তোলে।

▲অফিসিয়াল ব্লগ ঠিকানা: https://blog.google/innovation-and-ai/technology/ai/nano-banana-2/

সম্পূর্ণ ইন্টারনেট অ্যাক্সেসের মাধ্যমে, এই AI সত্যিই বুঝতে পারে আপনি কী বলছেন।

এই পরিবর্তনটি ব্যাখ্যা করার জন্য, আমাদের মনে রাখতে হবে যে তিন বছর আগে কৃত্রিম বুদ্ধিমত্তা-উত্পাদিত ছবি ব্যবহার করা কতটা কঠিন ছিল।

যদি তুমি তাকে "ব্রেইজড পর্ক" আঁকতে বলো, তাহলে সে বাধ্যতার সাথে জ্বলন্ত মাংসের টুকরো আঁকতে পারে; কিন্তু যদি তুমি তাকে পোস্টারে একটি চীনা বাক্য লিখতে বলো, তাহলে প্রায়শই অর্থহীন লেখার একটি গুচ্ছ তৈরি হবে। বাস্তব জগৎ সম্পর্কে এই সাধারণ জ্ঞানের অভাবই প্রথম প্রজন্মের AI-এর সবচেয়ে হতাশাজনক দিক।

বর্তমান ন্যানো ব্যানানা ২ অনেক বদলে গেছে। এর পূর্বসূরী, ন্যানো ব্যানানা প্রো-এর মতো, এটি জেমিনির বিশাল বাস্তব-জগতের জ্ঞানের ভিত্তি অ্যাক্সেস করে এবং ওয়েব অনুসন্ধান থেকে প্রাপ্ত রিয়েল-টাইম তথ্যের সাথে এটিকে একত্রিত করতে পারে, যা এটিকে কিছুটা সাধারণ জ্ঞানসম্পন্ন একজন জ্ঞানী ব্যক্তির মতো অনুভব করায়।

এটি প্রথম যে পরিবর্তনটি লক্ষ্য করেছিল তা হল এটি স্থান এবং অনুপাতকে আরও ভালভাবে বুঝতে শুরু করেছিল।

▲ইঙ্গিত: ছবিতে, ওরিয়েন্টাল পার্ল রেডিও এবং টিভি টাওয়ারটি একটি অতি-দৈত্য, অতি-সুন্দর বিড়ালের আধিপত্য। আশেপাশের ভবনগুলি দেখতে ছোট খেলনা মডেলের মতো, অন্যদিকে বিড়ালটি বিশাল। গেমটি একটি বাস্তবসম্মত শহুরে পরিবেশে সেট করা হয়েছে। সামগ্রিক পরিবেশ শান্ত, উষ্ণ, প্রশান্তিদায়ক এবং আরাধ্য।

উপরের ক্ষেত্রে, এআই সঠিকভাবে সাংহাইয়ের ল্যান্ডমার্কগুলি পুনরায় তৈরি করেছে এবং দৈত্যাকার বিড়াল এবং ক্ষুদ্রাকৃতির শহরের মধ্যে আলো, ছায়া এবং দৃষ্টিভঙ্গির সম্পর্ক অত্যন্ত স্বাভাবিকভাবে পরিচালনা করেছে।

সবচেয়ে লক্ষণীয় পরিবর্তন হল এটি অবশেষে চরিত্রগুলি চিনতে এবং লিখতে শিখেছে। উদাহরণস্বরূপ, যখন "মুরিং অ্যাট ম্যাপেল ব্রিজ অ্যাট নাইট" এর একটি ঐতিহ্যবাহী চীনা কালি চিত্র আঁকতে বলা হয়েছিল, তখন এটি কেবল "চাঁদ অস্ত যায়, কাক কাঁদে, তুষারপাত ভরা আকাশ" কবিতাটি সম্পূর্ণরূপে ক্যালিগ্রাফিতে লিখেছিল তা নয়, এমনকি কালি চিত্রের বিন্যাস এবং শৈল্পিক ধারণাটিও বেশ ভালভাবে ধারণ করা হয়েছিল।

▲অবশ্যই, এতে ত্রুটি নেই; যদি আপনি ঘনিষ্ঠভাবে দেখেন, তাহলে উপরে একটি অতিরিক্ত "পূর্ণ" চরিত্র রয়েছে।

এর কাব্যিক গুণাবলীর বাইরে, এটি বেশ জটিল UI পরিস্থিতিও পরিচালনা করতে পারে—নীচের ছবিতে, জটিল আধা-স্বচ্ছ ডেটা প্যানেল, ভাসমান শপিং তালিকা এবং সুনির্দিষ্ট চীনা প্রদর্শন সবকিছুই AI দ্বারা সুশৃঙ্খলভাবে সাজানো হয়েছে এবং তথ্যের মধ্যে শ্রেণিবদ্ধ সম্পর্ক সত্যিই স্পষ্ট করা হয়েছে।

▲আহবান: প্রথম ব্যক্তির দৃষ্টিকোণ, একটি উজ্জ্বল আলোকিত সুপারমার্কেটের আইলে অবস্থিত। ক্যামেরার সামনে একজন মানুষ ফ্যান্টা সোডার বোতল ধরে আছেন। প্রাণবন্ত কমলা পানীয়টি তার আইকনিক ব্র্যান্ডের বোতলে রাখা হয়েছে, যার চারপাশে একটি বহু-স্তরযুক্ত হলোগ্রাফিক অগমেন্টেড রিয়েলিটি ইন্টারফেস রয়েছে যা চীনা ভাষায় পুষ্টির তথ্য প্রদর্শন করে, যার মধ্যে রয়েছে ক্যালোরির সংখ্যা, চিনির পরিমাণ, ক্যাফিনের স্তর, সতেজতা নির্দেশক, শেলফ-লাইফ/মেয়াদোত্তীর্ণতার তারিখ এবং ফ্যান্টার ব্র্যান্ডের উপর ভিত্তি করে প্রস্তাবিত সতেজ পানীয়ের রেসিপি এবং ককটেল মিশ্রণের বিকল্পগুলি। UI প্যানেলে একটি কাচের মতো ফিনিশ, নরম পরিবেষ্টিত আলো, বাস্তবসম্মত আলো এবং ছায়া, প্রাকৃতিক ক্ষেত্রের গভীরতা এবং 2K রেজোলিউশনে একটি নিমজ্জিত প্রথম-ব্যক্তি ইন্টারেক্টিভ ইন্টারফেস রয়েছে।

দুই পাতার সাদা-কালো জাপানি কমিক্সের বিন্যাস অত্যন্ত সতর্কতামূলক, এবং এটি একটি অসাধারণ কাজ।

▲প্রম্পট: একটি মাঙ্গা ম্যাগাজিনের জন্য একটি বাস্তবসম্মত দ্বি-পৃষ্ঠার স্প্রেড ডিজাইন করুন। প্রতিটি পৃষ্ঠায় একাধিক মাঙ্গা-শৈলীর প্যানেল থাকা উচিত যা একটি গতিশীল বিন্যাসে সাজানো থাকে, যা পেশাদারভাবে মুদ্রিত জাপানি মাঙ্গার গুণমান উপস্থাপন করে। সামগ্রিক স্টাইলটি কালো এবং সাদা হওয়া উচিত, সাহসী, শক্তিশালী কালি রেখা, স্ক্রিন টোন এবং অভিব্যক্তিপূর্ণ চরিত্রের অঙ্কন ব্যবহার করে। সংলাপ বুদবুদ এবং চীনা অনম্যাটোপোইয়া অন্তর্ভুক্ত করুন এবং প্যানেলের মধ্যে রূপান্তরের মাধ্যমে ক্রিয়া, আবেগ এবং ছন্দ প্রকাশ করুন। বাম এবং ডান পৃষ্ঠাগুলি একই দৃশ্য বা অধ্যায়ের অংশ হিসাবে উপস্থিত হয়ে নির্বিঘ্নে একসাথে প্রবাহিত হওয়া উচিত। ঐতিহ্যবাহী মাঙ্গা ক্যামেরা কৌশলগুলি ব্যবহার করুন: ক্লোজ-আপ, দীর্ঘ শট, কোণযুক্ত প্যানেল এবং নাটকীয় দৃষ্টিভঙ্গি এবং রচনা। সামগ্রিক অনুভূতি বাস্তবসম্মত এবং বিশ্বাসযোগ্য হওয়া উচিত, যেন এটি একটি আসল মাঙ্গা ম্যাগাজিন থেকে একটি দ্বি-পৃষ্ঠার স্প্রেড।

বিকল্পভাবে, "কুং ফু টি"-এর উপর এই চীনা ইনফোগ্রাফিকটি ধাপে ধাপে নির্দেশাবলী সহ একটি দৃশ্যমান সমাধান প্রদান করে যা সরাসরি ব্যবহার করা যেতে পারে, বিন্যাস থেকে শুরু করে শৈল্পিক ধারণা পর্যন্ত।

▲প্রম্পট: ঐতিহ্যবাহী চীনা কুংফু চা অনুষ্ঠান সম্পর্কে একটি সুন্দরভাবে ডিজাইন করা উল্লম্ব ইনফোগ্রাফিক। পটভূমিতে একটি ঐতিহ্যবাহী চীনা কালি চিত্র রয়েছে। উপরে একটি বৃহৎ, মার্জিত চীনা ক্যালিগ্রাফি শিরোনাম রয়েছে যাতে স্পষ্টভাবে "কুংফু চা" লেখা আছে। নীচে তিনটি চিত্রিত ধাপ রয়েছে: ধাপ ১ ফুটন্ত জল দিয়ে চায়ের কাপ গরম করার সময় দেখানো হয়েছে, তার সাথে চীনা বাক্যাংশ "温杯" (কাপ গরম করা) লেখা আছে; ধাপ ২ গাইওয়ানে (ঢাকনাযুক্ত বাটিতে) চা পাতা যোগ করার সময় দেখানো হয়েছে, তার সাথে চীনা বাক্যাংশ "投茶" (চা যোগ করা) লেখা আছে; ধাপ ৩ চা ঢালার সময় দেখানো হয়েছে, তার সাথে চীনা বাক্যাংশ "出汤" (চা ঢালা) লেখা আছে। লেআউটটিতে মার্জিত, ন্যূনতম এবং উষ্ণ মাটির সুর এবং একটি সুষম নকশা রয়েছে।

ন্যানো ব্যানানা ২-এর একজন প্রাথমিক বিটা ব্যবহারকারী মোটামুটি বস্তুনিষ্ঠ মূল্যায়ন করেছেন: "এটি নিখুঁত নয়, তবে এটিই প্রথম মডেল যা একটি নির্দিষ্ট মাত্রার ধারাবাহিকতার সাথে সত্যিকারের জটিল ছবি এবং চার্ট পরিচালনা করতে পারে।"

এই নতুন মডেলের বোধগম্যতার সীমা পরীক্ষা করার জন্য, তিনি আকস্মিকভাবে একটি অত্যন্ত জটিল পরীক্ষামূলক প্রশ্ন ছুঁড়ে দিলেন: "প্রাচীন ভেনিসে স্থাপিত 'ওয়াল্ডো কোথায়'-এর একটি ছবি আমাকে আঁকুন, কিন্তু আপনি যে বস্তুটি খুঁজছেন তা কোনও ব্যক্তি হতে পারে না; এটি নীল ডোরাকাটা ফ্লাইট স্যুট পরা একটি ভোঁদড় হতে হবে।"

ন্যানো ব্যানানা ২ অবশেষে যুক্তিটি বের করে এনেছে, কেবল অঙ্কনে কোনও ভুল এড়ায়নি, বরং একটি দৃঢ় উত্তরও দিয়েছে।

তাড়াতাড়ি মেকআপ করো, যাতে আমাদের আর একটা বা অন্যটা বেছে নিতে না হয়?

সাধারণ জ্ঞানের বোধগম্যতা ছাড়াও, শক্তিশালী "বিষয় ধারাবাহিকতা" এই ন্যানো ব্যানানা ২ আপডেটের আরেকটি প্রধান বিক্রয় বিন্দু।

একটি একক প্রজন্মের প্রক্রিয়া চলাকালীন, এটি ৫টি অক্ষর পর্যন্ত মুখের বৈশিষ্ট্য বা ১৪টি আইটেমের উপস্থিতি বজায় রাখতে পারে। এর অর্থ হল আপনি আত্মবিশ্বাসের সাথে কমিক স্ট্রিপ আঁকার জন্য বা চলচ্চিত্রের স্টোরিবোর্ড তৈরির জন্য এটি ব্যবহার করতে পারেন।

তাছাড়া, এর ছবির মান যথেষ্ট উচ্চ যা সরাসরি কাজে ব্যবহারের জন্য উপযুক্ত।

এটি ৫১২ পিক্সেলের ছবি থেকে শুরু করে ৪কে আল্ট্রা-হাই-ডেফিনেশন পোস্টার পর্যন্ত সবকিছু পরিচালনা করতে পারে। "চংকিং হট পট" সম্পর্কে একটি প্রম্পট ইনপুট করুন এবং এটি একটি সাইবারপাঙ্ক-স্টাইলের বৃষ্টির রাতের রাস্তার দৃশ্য তৈরি করবে, যেখানে ভেজা অ্যাসফল্টের উপর সূক্ষ্ম বিবরণ, লাল এবং নীল নিয়ন আলোর প্রতিফলন এবং "খোলা ২৪ ঘন্টা" চিহ্ন থাকবে।

▲শিরোনাম: বৃষ্টির রাতে একটি ব্যস্ত এশিয়ান শহরের সিনেমাটিক রাস্তার ছবি। একটি পুরানো ভবনের উপর একটি বিশাল, জ্বলজ্বলে লাল নিয়ন সাইনবোর্ড ঝুলছে, যেখানে স্পষ্টভাবে "চংকিং হট পট" লেখা আছে। এর নীচে, একটি ছোট নীল নিয়ন সাইনবোর্ডে লেখা আছে "২৪ ঘন্টা খোলা – স্বাগতম"। ভেজা পিচ নিয়ন আলো প্রতিফলিত করে।

এটি তার শক্তিশালী রঙের তীব্রতার সাথে পপ আর্ট স্টাইলকেও পরিচালনা করতে পারে।

অথবা হয়তো এই ধরণের ফ্যাশন সম্পাদকীয়, যার মধ্যে অযৌক্তিকতার ছোঁয়া আছে কিন্তু উচ্চমানের অনুভূতি প্রকাশ করে:

▲টিপস: এই উচ্চ-রেজোলিউশনের বার্ডস-আই ভিউ ছবিটি LOMO Ic-a দিয়ে তোলা হয়েছে। মাটি অসংখ্য সাদা-কালো বিলবোর্ডে সুন্দরী ফ্যাশন মডেলদের বিজ্ঞাপনে ঢাকা, এবং বিজ্ঞাপনের উপরে দাঁড়িয়ে আছেন একজন অবিশ্বাস্য সুন্দরী চীনা চলচ্চিত্র অভিনেত্রী, যিনি লম্বা কালো কোট পরে আছেন।

এই কেস স্টাডিতে, যা পাখির চোখের দৃশ্য থেকে নেওয়া হয়েছে, এআই নিপুণভাবে একটি পুরানো দিনের LOMO ক্যামেরার অনন্য টেক্সচারকে অনুকরণ করেছে। অভিনেত্রী কালো এবং সাদা পোস্টারে ঢাকা মাটিতে একা দাঁড়িয়ে আছেন, যা একটি শক্তিশালী সিনেমাটিক উত্তেজনা এবং আখ্যানের একটি শক্তিশালী অনুভূতি তৈরি করে।

তবে, এর স্পষ্ট ত্রুটিগুলিও নেই। যখন এটি অ্যানিমে চরিত্র, পেন্সিল স্কেচ এবং নেন্ডোরয়েডকে একই বাস্তব কফি শপের দৃশ্যে বাধ্য করে, তখন স্কেচ করা চরিত্রগুলির একীকরণ খুব বিশ্রী বলে মনে হয় এবং প্রান্তগুলিতে স্থানান্তর যথেষ্ট স্বাভাবিক নয়।

স্পষ্টতই, ক্রস-ডাইমেনশনাল ফিউশনের দিক থেকে, এটি পূর্ববর্তী প্রজন্মের মডেলগুলির তুলনায় অনেক কম স্বাভাবিক, এবং এখনও উন্নতির সুযোগ রয়েছে।

▲ তাৎক্ষণিক শব্দ: একটি ব্যস্ত ক্যাফেতে প্রাতঃরাশ পরিবেশন করা একটি দৈনন্দিন দৃশ্যের ছবি। সামনে নীল চুলের একজন অ্যানিমে পুরুষ, একজন পেন্সিল স্কেচ, অন্যজন ক্লেমেশনের ব্যক্তি।

প্রকৃতপক্ষে, অফিসিয়াল ব্লগে ন্যানো ব্যানানা ২ (জেমিনি ৩.১ ফ্ল্যাশ ইমেজ) এর প্রশংসা করা সত্ত্বেও, উৎপন্ন ছবিগুলির প্রকৃত গুণমান এবং গতিতে কোনও লক্ষণীয় উন্নতি দেখা যায়নি, এবং কিছু পরিস্থিতিতে, তারা পূর্ববর্তী প্রজন্মের মডেলগুলির তুলনায় এমনকি নিম্নমানের ছিল।

ন্যানো ব্যানানা ২-কে সত্যিকার অর্থে জনপ্রিয় করে তোলার পেছনে এর অত্যন্ত সাশ্রয়ী মূল্যের মূল্য-কার্যক্ষমতা অনুপাত অন্যতম।

আজ থেকে, আপনি সহজেই জেমিনি অ্যাপ এবং গুগল সার্চ বক্সে এটি ব্যবহার করতে পারবেন। সাবস্ক্রিপশন প্ল্যান ছাড়া নিয়মিত ব্যবহারকারীরা 24 ঘন্টার মধ্যে 100টি বিনামূল্যে টিকিট পেতে পারেন; অন্যদিকে প্রো সাবস্ক্রাইবাররা 1000টি পর্যন্ত টিকিট পেতে পারেন।

ডেভেলপারদের জন্য, API মূল্য অর্ধেক করা হয়েছে, যা এখন আগের প্রজন্মের প্রো মডেলের দামের মাত্র অর্ধেক। এর ফলে একটি একক 4K উচ্চ-রেজোলিউশনের ছবি তৈরির খরচ প্রায় $0.15।

▲ লিঙ্ক দেওয়া হল: https://ai.google.dev/gemini-api/docs/pricing#gemini-3.1-flash-image-preview

অবশ্যই, কৃত্রিম বুদ্ধিমত্তা যত বেশি উচ্চ-রেজোলিউশনের ছবি অত্যন্ত কম খরচে এবং দ্রুততার সাথে তৈরি করতে পারে, মানুষ তত বেশি অস্বস্তিতে পড়ে। ইন্টারনেটে ভুয়া ছবি ছড়িয়ে পড়ার সাথে সাথে, "দেখাই বিশ্বাস করা" এই কথাটি আর নির্ভরযোগ্য নয়। যদি কেউ এক সেকেন্ডের মধ্যে প্রায় অস্পষ্ট ছবি তৈরি করতে পারে, তাহলে আমরা কীভাবে পার্থক্যটি বুঝতে পারব?

গুগল এই বিষয়টি সম্পর্কে ভালোভাবেই অবগত, তাই তারা সেই অনুযায়ী তাদের জাল-বিরোধী প্রযুক্তি আপগ্রেড করেছে। ন্যানো ব্যানানা ২ সিন্থআইডি ডিজিটাল ওয়াটারমার্কিং এবং সি২পিএ কন্টেন্ট শংসাপত্রের জন্য সমর্থন আরও উন্নত করে, যা কোনও ছবি এআই-জেনারেটেড কিনা এবং এটি কীভাবে পরিবর্তন করা হয়েছে তা স্পষ্ট করে তোলে।

পরিসংখ্যান অনুসারে, গত বছরের নভেম্বর থেকে জেমিনিতে এই যাচাইকরণ ফাংশনটি ২ কোটিরও বেশি বার কল করা হয়েছে।

গত দুই বছরে AI-চালিত গ্রাফিক্সের উন্নয়ন সত্যিই চমকপ্রদ। আমরা Nano Banana Pro-এর প্রাথমিক বিস্ময়ের পাশাপাশি ক্লান্তিকর সেটআপ এবং দীর্ঘ অপেক্ষার অভিজ্ঞতা অর্জন করেছি। Nano Banana 2-এর উত্থান গুণমান এবং গতিকে আরও একত্রিত করার প্রচেষ্টা করে এবং ব্যবহারকারীদের প্রবেশের বাধাকে অনেকাংশে কমিয়ে দেয়।

এমন একটি ধারণা যা আপনার মাথায় ভেসে ওঠে, আর বারবার পুনর্বিবেচনা বা উদ্বিগ্ন অপেক্ষার প্রয়োজন হয় না। এন্টার চাপার সাথে সাথেই এটি চলে আসে। স্বাভাবিক, সহজ এবং তাৎক্ষণিকভাবে সহজলভ্য—এটি শুনতে সাধারণ মনে হলেও, এটি করতে সক্ষম হওয়া আসলে বেশ অসাধারণ।

#iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট অনুসরণ করতে আপনাকে স্বাগতম: iFanr (WeChat ID: ifanr), যেখানে যত তাড়াতাড়ি সম্ভব আরও উত্তেজনাপূর্ণ কন্টেন্ট আপনার কাছে উপস্থাপন করা হবে।

ifanr | মূল লিঙ্ক · মন্তব্য দেখুন · সিনা ওয়েইবো