ন্যানো ব্যানানা ২ মাত্র এক ঘন্টার জন্য বাজারে এসেছিল এবং পরে তা নামিয়ে ফেলা হয়েছিল, সহজেই সমস্ত AI ব্যর্থতার কারণ হওয়া পরীক্ষাগুলি পরিচালনা করতে সক্ষম হয়েছিল।

অনলাইনে ভাইরাল হওয়া 'ন্যানো বানানা' এখন ২.০ সংস্করণ প্রকাশ করছে।

একেবারে নতুন ন্যানো ব্যানানা ২ কতটা শক্তিশালী? নিচের ছবিতে ঘড়ির কাঁটার দিকে একবার তাকান ১১:১৫ এবং পুরো গ্লাস রেড ওয়াইন।

▲ছবির উৎস: x@synthwavedd

এই ছবিটি এত চিত্তাকর্ষক কেন? কৃত্রিম বুদ্ধিমত্তা (এআই) দ্বারা তৈরি ছবির ক্ষেত্রে, একটি অত্যন্ত চ্যালেঞ্জিং পরীক্ষা রয়েছে যা বর্তমানে কোনও কৃত্রিম বুদ্ধিমত্তা (এআই) নির্ভরযোগ্যভাবে সম্পাদন করতে পারে না: ঘড়ি এবং পূর্ণ গ্লাস রেড ওয়াইন পরীক্ষা ।

আপনার AI-জেনারেটেড ইমেজ যথেষ্ট স্মার্ট কিনা তা পরীক্ষা করার জন্য " ঘড়িতে 11:15 এবং উপরে একটি ওয়াইন গ্লাস ভর্তি " প্রম্পটটি প্রবেশ করান।

আমরা বৃহৎ মডেল এরিনা, সিড্রিম এবং ন্যানো ব্যানানা ভার্সন ১.০-তে একাধিকবার চেষ্টা করেছি, কিন্তু কোনও এআই সঠিকভাবে ঘড়ির চিহ্ন এবং প্রায় উপচে পড়া রেড ওয়াইনের গ্লাস প্রদর্শন করতে পারেনি।

ন্যানো কলা ২ এই অর্জন করেছে। ন্যানো কলার বর্তমান সংস্করণের তুলনায়, এর টেক্সট রেন্ডারিং ক্ষমতা আরও উন্নত করা হয়েছে, যা সরাসরি টেক্সট লেখা এবং বিভিন্ন স্টাইল এবং ভাষা পরিচালনা করার অনুমতি দেয়; এর বিশ্ব জ্ঞানও উন্নত করা হয়েছে, বিভিন্ন ইনফোগ্রাফিক্সের সঠিক প্রজন্মকে সক্ষম করে; এবং এর কমান্ড সম্মতিও আরও অসাধারণ।

▲ আরও বাস্তবসম্মত ব্ল্যাকবোর্ড লেখা｜ছবির উৎস: x@testingcatalog

ন্যানো ব্যানানার বিপরীতে, যা প্রথমে গাছা সিস্টেমের মাধ্যমে বৃহৎ মডেলের জগতে চালু করা হয়েছিল, ন্যানো ব্যানানা 2 মডেলটি media.io তে ফাঁস হয়েছিল, যেখানে ব্যবহারকারীরা ন্যানো ব্যানানা 2 উপভোগ করতে পারবেন।

▲ মিডিয়া এআই (medio.io) বর্তমানে শুধুমাত্র ন্যানো কলা এবং সিড্রিমের মতো অন্যান্য এআই-চালিত ইমেজ মডেল ব্যবহার করে।

তবে, ন্যানো কলা ২ নামে পরিচিত এই মডেলটি দ্রুত সরিয়ে ফেলা হয়েছিল। রেডডিটে, কিছু ব্যবহারকারী উল্লেখ করেছেন যে মিডিয়া এআই মাত্র এক ঘন্টারও বেশি সময়ের জন্য অ্যাক্সেস প্রদান করেছিল।

তবে, এই অল্প সময়ের মধ্যে, নেটিজেনরা আবিষ্কার করেছেন যে অসম্পাদিত ছবির মান প্রকৃতপক্ষে NB 2.0 এর সাথে তুলনীয়, এবং এটি দ্রুত সোশ্যাল মিডিয়ায় ছড়িয়ে পড়ে। সবাই ন্যানো ব্যানানা 2 প্রিভিউ মডেলের আউটপুট ফলাফল শেয়ার করছিল, ন্যানো ব্যানানা 1.0 সংস্করণের তুলনায় উল্লেখযোগ্য পার্থক্য খুঁজে পেয়েছিল।

আপনি কি বলতে পারবেন, ১.০ এবং ২.০ সংস্করণের এই দুটি ছবির মধ্যে কোনটি ন্যানো ব্যানানা ২-এর?

▲ ছবির উৎস: x@Azinha810

দুটি ছবিতেই উপকূলীয় মহাসড়কে গাড়ির মডেলদের শুটিং দেখানো হয়েছে, তবে প্রথম ছবিটি রঙ এবং স্টাইলের দিক থেকে স্পষ্টতই আরও নির্ভুল, যেখানে প্রায়শই কৃত্রিম বুদ্ধিমত্তা-উত্পাদিত ছবির সাথে যুক্ত "প্লাস্টিক" অনুভূতির অভাব রয়েছে।

▲ ছবির উৎস: x@Azinha810

এই দুটি সায়েন্স ফিকশন স্টাইলের ছবিতে পার্থক্য আরও স্পষ্ট। দ্বিতীয় ছবিতে সিনেমাটিক অনুভূতি বেশি এবং এর ভিজ্যুয়াল কোয়ালিটি প্রথমটির তুলনায় আরও নির্ভুল বিশদ বিবরণ দেখায়। উদাহরণস্বরূপ, প্রথম ছবিতে থাকা ডিভাইসের ড্যাশবোর্ডটি দ্বিতীয়টির থেকে স্পষ্টতই আলাদা ; ন্যানো বানানা দ্বারা তৈরি ড্যাশবোর্ডটি এখনও স্পষ্টভাবে এআই স্টাইলে রয়েছে।

X-তে ব্লগার টেস্টিংক্যাটালগ দ্বারা প্রকাশিত তথ্য অনুসারে, ন্যানো ব্যানানা 2 এখনও জেমিনি 2.5 ফ্ল্যাশের উপর ভিত্তি করে তৈরি এবং এখনও জেমিনি 3.0 প্রো সম্পূর্ণরূপে ব্যবহার শুরু করেনি।

এর অর্থ হল ন্যানো ব্যানানা ২ গ্রাফিক্স মডেলের মুক্তির তারিখ জেমিনি ৩ এর আগে হতে পারে। আমরা ন্যানো ব্যানানা ২ সম্পর্কে বর্তমান ফাঁস সংকলন করেছি, যেখানে নিম্নলিখিত হাইলাইটগুলি উল্লেখ করা হয়েছে।

১. এটি আরও জটিল কাজ পরিচালনা করতে পারে , যেমন সুনির্দিষ্ট রঙ করা, দৃষ্টিকোণ বা কোণের উন্নত নিয়ন্ত্রণ, এবং তৈরি করা ছবিতে টেক্সট উপাদান সংশোধন করা, এমন কাজ যা বর্তমান সংস্করণ ১.০ তে সমর্থিত নয়।

▲ জল গোলাপী করার জন্য প্রম্পটটি প্রবেশ করান। দেখানো ছবিগুলি হল আসল ছবি, ন্যানো ব্যানানা ১, এবং ন্যানো ব্যানানা ২। | ছবির উৎস: x@Angaisb_

২. একটি নতুন মাল্টি-স্টেপ জেনারেশন ওয়ার্কফ্লো সহ , ন্যানো কলা এখন আর কেবল "এক-ক্লিক ইমেজ জেনারেটর" নয়, বরং এটিকে একজন ডিজাইনারের মতো মনে হয়।

পরিকল্পনা: আউটপুট কন্টেন্ট পরিকল্পনা করার জন্য যথেষ্ট সময় ব্যয় করা হয়।
তৈরি করুন: একটি প্রাথমিক ছবি তৈরি করুন।
পর্যালোচনা: অন্তর্নির্মিত চিত্র বিশ্লেষণ বৈশিষ্ট্যের মাধ্যমে স্ব-সেন্সরশিপ।
সংশোধন: যেকোনো ত্রুটি চিহ্নিত করুন এবং সংশোধন করুন।
পুনরাবৃত্তি: প্রয়োজন অনুযায়ী পুনরাবৃত্তি করুন, এবং অবশেষে ফলাফল প্রদান করুন।

৩. উচ্চতর রেজোলিউশন এবং আরও ব্যাপক আকৃতির অনুপাতের ছবি তৈরি , যার মধ্যে রয়েছে ১:১, ২:৩, ৩:২, ৩:৪, ৪:৩, ৯:১৬, ১৬:৯ এবং ২১:৯ এর মতো বিস্তৃত আকৃতির অনুপাত, যেখানে ফাঁস হওয়া তথ্যে বলা হয়েছে যে 1K, 2K এবং 4K এর মতো একাধিক রেজোলিউশন মোড রয়েছে।

▲ComfyUI ওয়ার্কফ্লো ইন্টারফেস

বৈশিষ্ট্যগুলির মধ্যে, মাল্টি-স্টেপ ওয়ার্কফ্লো সম্ভবত ন্যানো কলা আপডেটের সবচেয়ে বড় পার্থক্যকারী বিক্রয় বিন্দু । আমরা আগে ComfyUI এর মতো টুলের কথা শুনেছি যা কাঁচা ছবি এবং ভিডিও তৈরির জন্য ওয়ার্কফ্লো তৈরি করতে পারে। কিন্তু এখন, ন্যানো কলার মাধ্যমে এটি সরাসরি অর্জন করা যেতে পারে, যা উচ্চ-নির্ভুলতা ছবি তৈরির জন্য একটি বিশাল অগ্রগতি।

আসল পারফরম্যান্স নির্ভর করে তৈরি করা ছবির উপর। আসুন ন্যানো ব্যানানা ২-এর এই টেস্ট কেসগুলো দেখে নেওয়া যাক।

উন্নত টেক্সট রেন্ডারিং

প্রথমত, আসল কম্পিউটারের স্ক্রিনশট আছে। ন্যানো ব্যানানা ২ সরাসরি একটি উইন্ডোজ কম্পিউটারের স্ক্রিনশট তৈরি করতে পারে, যেখানে ব্রাউজারটি ইউটিউব ওয়েবসাইট অ্যাক্সেস করছে এবং ভিডিওটির থাম্বনেইলটি মিস্টার বিস্ট বলে উল্লেখ করা হয়েছে।

▲ সরাসরি আপনার উইন্ডোজ কম্পিউটারের একটি স্ক্রিনশট আপলোড করুন। প্রম্পট: গুগল ক্রোম খোলা রেখে একটি উইন্ডোজ ১১ ডেস্কটপের একটি স্ক্রিনশট তৈরি করুন, যেখানে http://YouTube.com-এ মিস্টার বিস্টের একটি ইউটিউব থাম্বনেইল দেখানো হবে। | ছবির উৎস: x@synthwavedd

আরও জটিল সেটআপের জন্য, ন্যানো ব্যানানা ২ এমনকি গুগল ডিপমাইন্ড ওয়েবপেজের একটি স্ক্রিনশট তৈরি করতে পারে। ঘন টেক্সটে কোনও বিকৃত অক্ষর দেখা যায় না, যা সত্যিই চিত্তাকর্ষক।

▲ছবির উৎস: x@synthwavedd

তবে, কিছু পর্যবেক্ষক নেটিজেন লক্ষ্য করেছেন যে ন্যানো ব্যানানা ২-এর পারফর্মেন্স নিখুঁত ছিল না, ছবিতে "জেমিনি ৩১" এবং "গুগল ডিপমাইন্ড – নেভডস্ক্ল" এর মতো টাইপিং ভুল দেখা গেছে।

সাবধানে পরীক্ষা না করে, শুধুমাত্র প্রধান শিরোনাম এবং উপশিরোনাম দেখে ত্রুটিগুলি সনাক্ত করা সত্যিই কঠিন। তবে, অল্প পরিমাণে লেখা প্রক্রিয়াকরণের সময়, ন্যানো কলা 2-তে ত্রুটির সম্ভাবনা অনেক কম।

টেলিভিশনে সম্প্রচারিত একটি সরাসরি সংবাদের এই ছবিটি দেখায় যে পর্দার লেখাটি সঠিক এবং সমানভাবে ফর্ম্যাট করা হয়েছে; এমনকি এটি মেঝেতে প্রতিফলিত লেখাটিকেও সঠিকভাবে প্রদর্শন করে।

▲ছবির উৎস: x@synthwavedd

একইভাবে, একটি লাইভ টিভি সম্প্রচারের এই স্ক্রিনশটটি রয়েছে, যেখানে স্ক্রিনের ডানদিকে অ্যাঙ্কর, সংবাদ অনুষ্ঠানের নীচে ক্লাসিক মার্কি এবং সমস্ত লেখা সঠিকভাবে উপস্থাপন করা হয়েছে।

▲ তাৎক্ষণিক কথা: ৫০ মিমি বিগ বাজেটের লাইভ সম্প্রচার ৮k ছবির ক্লোজ-আপ, ৩০ বছর বয়সী আকর্ষণীয় ইতালিয়ান মহিলা সংবাদ উপস্থাপক। তিনি একটি নিউজ ডেস্কে আছেন এবং তার পিছনে একটি স্ক্রিনে একটি জৈব-প্রকৌশলী কলা রয়েছে যার উপর লেখা আছে "ন্যানো বানানা ২ মিডিয়াতে লাইভ .IO?" লাইভ নিউজ শট। ছবির নীচে একটি লাল এবং নীল রঙের কালি রয়েছে যাতে লেখা আছে "ব্রেকিং নিউজ: ন্যানো বানানা ২ মিডিয়াতে .IO?"｜ছবি sourcex@BrentLynch

আমাদের বর্তমান ন্যানো কলা প্রক্রিয়াতেও একই প্রম্পট ছিল।

এই ছবিটি খুব বেশি কৃত্রিম বুদ্ধিমত্তা দ্বারা তৈরি বলে মনে হচ্ছে না, তবে ঝাপসা ব্যাকগ্রাউন্ড স্ক্রিন এটিকে কোনও সংবাদ অনুষ্ঠানের দৃশ্যের মতো কম দেখায় এবং লেখার প্রতিফলনও কিছুটা কৃত্রিম বলে মনে হয়, যা অ্যাঙ্করের চিত্রকে জোর দেয়।

বিশ্ব সম্পর্কে জ্ঞানের মাধ্যমে, তারা আমাদের নির্দেশাবলী আরও ভালভাবে বুঝতে পারে।

শুরুর ছবিতে ১১:১৫ ঘড়ি এবং রেড ওয়াইনের পূর্ণ গ্লাসের মতো, মন্তব্য বিভাগে, নেটিজেনরা গ্রোক এবং চ্যাটজিপিটির মতো অন্যান্য মডেল ব্যবহার করে তাদের নিজস্ব অসম্পাদিত ছবি পোস্ট করেছেন, কিন্তু তাদের কোনওটিই ন্যানো ব্যানানা ২-এর মতো নির্ভুল ছিল না।

কিছু নেটিজেন ন্যানো ব্যানানা ২ ব্যবহার করে একটি হ্যামবার্গারকে গ্লাসে পরিণত করার অভিজ্ঞতাও শেয়ার করেছেন, এবং এটিই একমাত্র হ্যামবার্গার যা পুরো হ্যামবার্গারটিকে গ্লাসে পরিণত করতে সক্ষম হয়েছিল; অন্যদিকে বাইটড্যান্সের সিড্রিম এবং রিভারফ্লো হ্যামবার্গারের কেবল বান অংশটিকে গ্লাসে পরিণত করেছে।

▲ প্রম্পট: কাচের তৈরি হ্যামবার্গার তৈরি করুন; ছবি ১ হল ন্যানো কলা ২ দ্বারা তৈরি একটি ছবি | ছবির উৎস: x@Angaisb_

বিশ্বব্যাপী জ্ঞানের অগ্রগতি ন্যানো ব্যানানা ২-কে প্রম্পটগুলি আরও ভালভাবে বুঝতে সক্ষম করে, নির্দেশাবলীর কঠোরভাবে আনুগত্য নিশ্চিত করে এবং প্রম্পটগুলি সহজ করে তোলে।

উদাহরণস্বরূপ, যখন একজন ব্যবহারকারী GTA 6 ট্রেলার তৈরি করার পরীক্ষা করেছিলেন, তখন ন্যানো ব্যানানা 2 তাকে সরাসরি একটি সম্পূর্ণ YouTube পৃষ্ঠা দিয়েছিল, এবং এটি এমনকি আসল GTA 6 লোগোটিও জানত।

▲ ছবির উৎস: x@jewgibor

তিনি "ওয়ান পিস লাইভ অ্যাকশন নেটফ্লিক্স" প্রম্পটের একটি সেটও পরীক্ষা করেছিলেন। ফলাফল হল যে ন্যানো ব্যানানা কেবল নেটফ্লিক্সের লোগোই জানত না, লাইভ-অ্যাকশন সংস্করণের অভিনেতাদেরও জানত।

বিশ্ব জ্ঞানের সাথে টেক্সট রেন্ডারিং একত্রিত করে, ন্যানো ব্যানানা ২ আমাদের জন্য ব্ল্যাকবোর্ডে সমস্যা সমাধান করতে পারে, যা চ্যাট বক্সে দীর্ঘ গাণিতিক যুক্তি দেখার চেয়ে অনেক বেশি আরামদায়ক।

▲ছবির উৎস: x@MagusWazir

ন্যানো ব্যানানা ভার্সন ১.০ এবং ন্যানো ব্যানানা ২ এর মধ্যে তুলনা নিম্নরূপ।

▲ ছবির উৎস: https://www.reddit.com/r/singularity/comments/1osolhn/nano_banana_2_vs_nano_banana_comparison_output/

এরকম অনেক ঘটনা আছে যেখানে ন্যানো ব্যানানা ২ ব্যবহার করে গণিতের সমস্যা সমাধান করা হয় এবং তারপর উত্তরগুলি ব্ল্যাকবোর্ডে লেখা হয়।

▲ ছবির উৎস: x@Liam06972452

শুধু সম্পাদনার ক্ষমতাই উন্নত হয়নি, বরং এবার অসম্পাদিত ছবি তোলার ক্ষমতাও উন্নত করা হয়েছে।

পরীক্ষার প্রিভিউ সংস্করণটি মিডিয়া এআই প্ল্যাটফর্মে সংক্ষেপে দেখানো হয়েছিল।

▲সূত্র: কেন কানেকি তার বন্ধুকে তুষারে কোলে নিয়ে যাচ্ছেন, টোকিও ঘৌল | ছবির উৎস: x@legit_api

টোকিও ঘৌল থেকে বরফের মধ্যে কানেকি কেনের বন্ধুকে জড়িয়ে ধরার দৃশ্যটি খুবই স্বাভাবিকভাবে তৈরি হয়েছিল। ধারাবাহিকভাবে সু-সম্পাদিত অ্যানিমে এবং সাইবারপাঙ্ক স্টাইলের পাশাপাশি, ন্যানো ব্যানানা ২-এর অসম্পাদিত ছবিগুলিও অবিশ্বাস্যভাবে উচ্চমানের দেখায়।

▲ প্রম্পট: অনেক মনিটরের সামনে কাজ করছে সাইবারপাঙ্ক হ্যাকার রোবট | ছবির উৎস: x@testingcatalog

এছাড়াও সব ধরণের "স্পুফ" প্রতিকৃতি চিত্র রয়েছে।

▲ ছবির উৎস: x@MicahBerkley

আর এই গ্রুপ ছবিগুলো একটা শক্তিশালী সিনেমার মতো স্টাইলের।

▲ ছবির উৎস: x@rpnickson

তবে, কেউ একজন মন্তব্য করেছেন, "এটি মোটেও ন্যানো ব্যানানা নয়; মিডিয়া এআই একটি চীনা কোম্পানি। ঠিক যেমন ডিপসিক যখন বেরিয়েছিল, তখন আমরাও ভেবেছিলাম এটি ওপেনএআই থেকে এসেছে; এটি তাদের স্বাভাবিক কৌশল।"

যখন ন্যানো ব্যানানা ১ প্রথমবারের মতো বিশাল মডেলের জগতে হাজির হয়েছিল, তখন কেউ নিশ্চিত ছিল না যে মডেলটি আসলেই গুগল থেকে এসেছে কিনা, কিন্তু শেষ পর্যন্ত, যতক্ষণ না কাঁচা ছবিগুলি যথেষ্ট অত্যাশ্চর্য হয়, আমরা এটি কিনতাম।

বর্তমান অসম্পাদিত ছবির মান বিবেচনা করে, এটিকে ন্যানো ব্যানানা ২ বলা পুরোপুরি গ্রহণযোগ্য।

#iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট অনুসরণ করতে আপনাকে স্বাগতম: iFanr (WeChat ID: ifanr), যেখানে যত তাড়াতাড়ি সম্ভব আরও উত্তেজনাপূর্ণ কন্টেন্ট আপনার কাছে উপস্থাপন করা হবে।

ifanr | মূল লিঙ্ক · মন্তব্য দেখুন · সিনা ওয়েইবো