
অনলাইনে ভাইরাল হওয়া 'ন্যানো বানানা' এখন ২.০ সংস্করণ প্রকাশ করছে।
একেবারে নতুন ন্যানো ব্যানানা ২ কতটা শক্তিশালী? নিচের ছবিতে ঘড়ির কাঁটার দিকে একবার তাকান ১১:১৫ এবং পুরো গ্লাস রেড ওয়াইন।

▲ছবির উৎস: x@synthwavedd
এই ছবিটি এত চিত্তাকর্ষক কেন? কৃত্রিম বুদ্ধিমত্তা (এআই) দ্বারা তৈরি ছবির ক্ষেত্রে, একটি অত্যন্ত চ্যালেঞ্জিং পরীক্ষা রয়েছে যা বর্তমানে কোনও কৃত্রিম বুদ্ধিমত্তা (এআই) নির্ভরযোগ্যভাবে সম্পাদন করতে পারে না: ঘড়ি এবং পূর্ণ গ্লাস রেড ওয়াইন পরীক্ষা ।
আপনার AI-জেনারেটেড ইমেজ যথেষ্ট স্মার্ট কিনা তা পরীক্ষা করার জন্য " ঘড়িতে 11:15 এবং উপরে একটি ওয়াইন গ্লাস ভর্তি " প্রম্পটটি প্রবেশ করান।

আমরা বৃহৎ মডেল এরিনা, সিড্রিম এবং ন্যানো ব্যানানা ভার্সন ১.০-তে একাধিকবার চেষ্টা করেছি, কিন্তু কোনও এআই সঠিকভাবে ঘড়ির চিহ্ন এবং প্রায় উপচে পড়া রেড ওয়াইনের গ্লাস প্রদর্শন করতে পারেনি।
ন্যানো কলা ২ এই অর্জন করেছে। ন্যানো কলার বর্তমান সংস্করণের তুলনায়, এর টেক্সট রেন্ডারিং ক্ষমতা আরও উন্নত করা হয়েছে, যা সরাসরি টেক্সট লেখা এবং বিভিন্ন স্টাইল এবং ভাষা পরিচালনা করার অনুমতি দেয়; এর বিশ্ব জ্ঞানও উন্নত করা হয়েছে, বিভিন্ন ইনফোগ্রাফিক্সের সঠিক প্রজন্মকে সক্ষম করে; এবং এর কমান্ড সম্মতিও আরও অসাধারণ।

▲ আরও বাস্তবসম্মত ব্ল্যাকবোর্ড লেখা|ছবির উৎস: x@testingcatalog
ন্যানো ব্যানানার বিপরীতে, যা প্রথমে গাছা সিস্টেমের মাধ্যমে বৃহৎ মডেলের জগতে চালু করা হয়েছিল, ন্যানো ব্যানানা 2 মডেলটি media.io তে ফাঁস হয়েছিল, যেখানে ব্যবহারকারীরা ন্যানো ব্যানানা 2 উপভোগ করতে পারবেন।

▲ মিডিয়া এআই (medio.io) বর্তমানে শুধুমাত্র ন্যানো কলা এবং সিড্রিমের মতো অন্যান্য এআই-চালিত ইমেজ মডেল ব্যবহার করে।
তবে, ন্যানো কলা ২ নামে পরিচিত এই মডেলটি দ্রুত সরিয়ে ফেলা হয়েছিল। রেডডিটে, কিছু ব্যবহারকারী উল্লেখ করেছেন যে মিডিয়া এআই মাত্র এক ঘন্টারও বেশি সময়ের জন্য অ্যাক্সেস প্রদান করেছিল।
তবে, এই অল্প সময়ের মধ্যে, নেটিজেনরা আবিষ্কার করেছেন যে অসম্পাদিত ছবির মান প্রকৃতপক্ষে NB 2.0 এর সাথে তুলনীয়, এবং এটি দ্রুত সোশ্যাল মিডিয়ায় ছড়িয়ে পড়ে। সবাই ন্যানো ব্যানানা 2 প্রিভিউ মডেলের আউটপুট ফলাফল শেয়ার করছিল, ন্যানো ব্যানানা 1.0 সংস্করণের তুলনায় উল্লেখযোগ্য পার্থক্য খুঁজে পেয়েছিল।
আপনি কি বলতে পারবেন, ১.০ এবং ২.০ সংস্করণের এই দুটি ছবির মধ্যে কোনটি ন্যানো ব্যানানা ২-এর?

▲ ছবির উৎস: x@Azinha810
দুটি ছবিতেই উপকূলীয় মহাসড়কে গাড়ির মডেলদের শুটিং দেখানো হয়েছে, তবে প্রথম ছবিটি রঙ এবং স্টাইলের দিক থেকে স্পষ্টতই আরও নির্ভুল, যেখানে প্রায়শই কৃত্রিম বুদ্ধিমত্তা-উত্পাদিত ছবির সাথে যুক্ত "প্লাস্টিক" অনুভূতির অভাব রয়েছে।

▲ ছবির উৎস: x@Azinha810
এই দুটি সায়েন্স ফিকশন স্টাইলের ছবিতে পার্থক্য আরও স্পষ্ট। দ্বিতীয় ছবিতে সিনেমাটিক অনুভূতি বেশি এবং এর ভিজ্যুয়াল কোয়ালিটি প্রথমটির তুলনায় আরও নির্ভুল বিশদ বিবরণ দেখায়। উদাহরণস্বরূপ, প্রথম ছবিতে থাকা ডিভাইসের ড্যাশবোর্ডটি দ্বিতীয়টির থেকে স্পষ্টতই আলাদা ; ন্যানো বানানা দ্বারা তৈরি ড্যাশবোর্ডটি এখনও স্পষ্টভাবে এআই স্টাইলে রয়েছে।
X-তে ব্লগার টেস্টিংক্যাটালগ দ্বারা প্রকাশিত তথ্য অনুসারে, ন্যানো ব্যানানা 2 এখনও জেমিনি 2.5 ফ্ল্যাশের উপর ভিত্তি করে তৈরি এবং এখনও জেমিনি 3.0 প্রো সম্পূর্ণরূপে ব্যবহার শুরু করেনি।
এর অর্থ হল ন্যানো ব্যানানা ২ গ্রাফিক্স মডেলের মুক্তির তারিখ জেমিনি ৩ এর আগে হতে পারে। আমরা ন্যানো ব্যানানা ২ সম্পর্কে বর্তমান ফাঁস সংকলন করেছি, যেখানে নিম্নলিখিত হাইলাইটগুলি উল্লেখ করা হয়েছে।
১. এটি আরও জটিল কাজ পরিচালনা করতে পারে , যেমন সুনির্দিষ্ট রঙ করা, দৃষ্টিকোণ বা কোণের উন্নত নিয়ন্ত্রণ, এবং তৈরি করা ছবিতে টেক্সট উপাদান সংশোধন করা, এমন কাজ যা বর্তমান সংস্করণ ১.০ তে সমর্থিত নয়।

▲ জল গোলাপী করার জন্য প্রম্পটটি প্রবেশ করান। দেখানো ছবিগুলি হল আসল ছবি, ন্যানো ব্যানানা ১, এবং ন্যানো ব্যানানা ২। | ছবির উৎস: x@Angaisb_
২. একটি নতুন মাল্টি-স্টেপ জেনারেশন ওয়ার্কফ্লো সহ , ন্যানো কলা এখন আর কেবল "এক-ক্লিক ইমেজ জেনারেটর" নয়, বরং এটিকে একজন ডিজাইনারের মতো মনে হয়।
- পরিকল্পনা: আউটপুট কন্টেন্ট পরিকল্পনা করার জন্য যথেষ্ট সময় ব্যয় করা হয়।
- তৈরি করুন: একটি প্রাথমিক ছবি তৈরি করুন।
- পর্যালোচনা: অন্তর্নির্মিত চিত্র বিশ্লেষণ বৈশিষ্ট্যের মাধ্যমে স্ব-সেন্সরশিপ।
- সংশোধন: যেকোনো ত্রুটি চিহ্নিত করুন এবং সংশোধন করুন।
- পুনরাবৃত্তি: প্রয়োজন অনুযায়ী পুনরাবৃত্তি করুন, এবং অবশেষে ফলাফল প্রদান করুন।
৩. উচ্চতর রেজোলিউশন এবং আরও ব্যাপক আকৃতির অনুপাতের ছবি তৈরি , যার মধ্যে রয়েছে ১:১, ২:৩, ৩:২, ৩:৪, ৪:৩, ৯:১৬, ১৬:৯ এবং ২১:৯ এর মতো বিস্তৃত আকৃতির অনুপাত, যেখানে ফাঁস হওয়া তথ্যে বলা হয়েছে যে 1K, 2K এবং 4K এর মতো একাধিক রেজোলিউশন মোড রয়েছে।

▲ComfyUI ওয়ার্কফ্লো ইন্টারফেস
বৈশিষ্ট্যগুলির মধ্যে, মাল্টি-স্টেপ ওয়ার্কফ্লো সম্ভবত ন্যানো কলা আপডেটের সবচেয়ে বড় পার্থক্যকারী বিক্রয় বিন্দু । আমরা আগে ComfyUI এর মতো টুলের কথা শুনেছি যা কাঁচা ছবি এবং ভিডিও তৈরির জন্য ওয়ার্কফ্লো তৈরি করতে পারে। কিন্তু এখন, ন্যানো কলার মাধ্যমে এটি সরাসরি অর্জন করা যেতে পারে, যা উচ্চ-নির্ভুলতা ছবি তৈরির জন্য একটি বিশাল অগ্রগতি।
আসল পারফরম্যান্স নির্ভর করে তৈরি করা ছবির উপর। আসুন ন্যানো ব্যানানা ২-এর এই টেস্ট কেসগুলো দেখে নেওয়া যাক।
উন্নত টেক্সট রেন্ডারিং
প্রথমত, আসল কম্পিউটারের স্ক্রিনশট আছে। ন্যানো ব্যানানা ২ সরাসরি একটি উইন্ডোজ কম্পিউটারের স্ক্রিনশট তৈরি করতে পারে, যেখানে ব্রাউজারটি ইউটিউব ওয়েবসাইট অ্যাক্সেস করছে এবং ভিডিওটির থাম্বনেইলটি মিস্টার বিস্ট বলে উল্লেখ করা হয়েছে।

▲ সরাসরি আপনার উইন্ডোজ কম্পিউটারের একটি স্ক্রিনশট আপলোড করুন। প্রম্পট: গুগল ক্রোম খোলা রেখে একটি উইন্ডোজ ১১ ডেস্কটপের একটি স্ক্রিনশট তৈরি করুন, যেখানে http://YouTube.com-এ মিস্টার বিস্টের একটি ইউটিউব থাম্বনেইল দেখানো হবে। | ছবির উৎস: x@synthwavedd
আরও জটিল সেটআপের জন্য, ন্যানো ব্যানানা ২ এমনকি গুগল ডিপমাইন্ড ওয়েবপেজের একটি স্ক্রিনশট তৈরি করতে পারে। ঘন টেক্সটে কোনও বিকৃত অক্ষর দেখা যায় না, যা সত্যিই চিত্তাকর্ষক।

▲ছবির উৎস: x@synthwavedd
তবে, কিছু পর্যবেক্ষক নেটিজেন লক্ষ্য করেছেন যে ন্যানো ব্যানানা ২-এর পারফর্মেন্স নিখুঁত ছিল না, ছবিতে "জেমিনি ৩১" এবং "গুগল ডিপমাইন্ড – নেভডস্ক্ল" এর মতো টাইপিং ভুল দেখা গেছে।
সাবধানে পরীক্ষা না করে, শুধুমাত্র প্রধান শিরোনাম এবং উপশিরোনাম দেখে ত্রুটিগুলি সনাক্ত করা সত্যিই কঠিন। তবে, অল্প পরিমাণে লেখা প্রক্রিয়াকরণের সময়, ন্যানো কলা 2-তে ত্রুটির সম্ভাবনা অনেক কম।
টেলিভিশনে সম্প্রচারিত একটি সরাসরি সংবাদের এই ছবিটি দেখায় যে পর্দার লেখাটি সঠিক এবং সমানভাবে ফর্ম্যাট করা হয়েছে; এমনকি এটি মেঝেতে প্রতিফলিত লেখাটিকেও সঠিকভাবে প্রদর্শন করে।

▲ছবির উৎস: x@synthwavedd
একইভাবে, একটি লাইভ টিভি সম্প্রচারের এই স্ক্রিনশটটি রয়েছে, যেখানে স্ক্রিনের ডানদিকে অ্যাঙ্কর, সংবাদ অনুষ্ঠানের নীচে ক্লাসিক মার্কি এবং সমস্ত লেখা সঠিকভাবে উপস্থাপন করা হয়েছে।

▲ তাৎক্ষণিক কথা: ৫০ মিমি বিগ বাজেটের লাইভ সম্প্রচার ৮k ছবির ক্লোজ-আপ, ৩০ বছর বয়সী আকর্ষণীয় ইতালিয়ান মহিলা সংবাদ উপস্থাপক। তিনি একটি নিউজ ডেস্কে আছেন এবং তার পিছনে একটি স্ক্রিনে একটি জৈব-প্রকৌশলী কলা রয়েছে যার উপর লেখা আছে "ন্যানো বানানা ২ মিডিয়াতে লাইভ .IO?" লাইভ নিউজ শট। ছবির নীচে একটি লাল এবং নীল রঙের কালি রয়েছে যাতে লেখা আছে "ব্রেকিং নিউজ: ন্যানো বানানা ২ মিডিয়াতে .IO?"|ছবি sourcex@BrentLynch
আমাদের বর্তমান ন্যানো কলা প্রক্রিয়াতেও একই প্রম্পট ছিল।

এই ছবিটি খুব বেশি কৃত্রিম বুদ্ধিমত্তা দ্বারা তৈরি বলে মনে হচ্ছে না, তবে ঝাপসা ব্যাকগ্রাউন্ড স্ক্রিন এটিকে কোনও সংবাদ অনুষ্ঠানের দৃশ্যের মতো কম দেখায় এবং লেখার প্রতিফলনও কিছুটা কৃত্রিম বলে মনে হয়, যা অ্যাঙ্করের চিত্রকে জোর দেয়।
বিশ্ব সম্পর্কে জ্ঞানের মাধ্যমে, তারা আমাদের নির্দেশাবলী আরও ভালভাবে বুঝতে পারে।
শুরুর ছবিতে ১১:১৫ ঘড়ি এবং রেড ওয়াইনের পূর্ণ গ্লাসের মতো, মন্তব্য বিভাগে, নেটিজেনরা গ্রোক এবং চ্যাটজিপিটির মতো অন্যান্য মডেল ব্যবহার করে তাদের নিজস্ব অসম্পাদিত ছবি পোস্ট করেছেন, কিন্তু তাদের কোনওটিই ন্যানো ব্যানানা ২-এর মতো নির্ভুল ছিল না।
কিছু নেটিজেন ন্যানো ব্যানানা ২ ব্যবহার করে একটি হ্যামবার্গারকে গ্লাসে পরিণত করার অভিজ্ঞতাও শেয়ার করেছেন, এবং এটিই একমাত্র হ্যামবার্গার যা পুরো হ্যামবার্গারটিকে গ্লাসে পরিণত করতে সক্ষম হয়েছিল; অন্যদিকে বাইটড্যান্সের সিড্রিম এবং রিভারফ্লো হ্যামবার্গারের কেবল বান অংশটিকে গ্লাসে পরিণত করেছে।

▲ প্রম্পট: কাচের তৈরি হ্যামবার্গার তৈরি করুন; ছবি ১ হল ন্যানো কলা ২ দ্বারা তৈরি একটি ছবি | ছবির উৎস: x@Angaisb_
বিশ্বব্যাপী জ্ঞানের অগ্রগতি ন্যানো ব্যানানা ২-কে প্রম্পটগুলি আরও ভালভাবে বুঝতে সক্ষম করে, নির্দেশাবলীর কঠোরভাবে আনুগত্য নিশ্চিত করে এবং প্রম্পটগুলি সহজ করে তোলে।
উদাহরণস্বরূপ, যখন একজন ব্যবহারকারী GTA 6 ট্রেলার তৈরি করার পরীক্ষা করেছিলেন, তখন ন্যানো ব্যানানা 2 তাকে সরাসরি একটি সম্পূর্ণ YouTube পৃষ্ঠা দিয়েছিল, এবং এটি এমনকি আসল GTA 6 লোগোটিও জানত।

▲ ছবির উৎস: x@jewgibor
তিনি "ওয়ান পিস লাইভ অ্যাকশন নেটফ্লিক্স" প্রম্পটের একটি সেটও পরীক্ষা করেছিলেন। ফলাফল হল যে ন্যানো ব্যানানা কেবল নেটফ্লিক্সের লোগোই জানত না, লাইভ-অ্যাকশন সংস্করণের অভিনেতাদেরও জানত।

বিশ্ব জ্ঞানের সাথে টেক্সট রেন্ডারিং একত্রিত করে, ন্যানো ব্যানানা ২ আমাদের জন্য ব্ল্যাকবোর্ডে সমস্যা সমাধান করতে পারে, যা চ্যাট বক্সে দীর্ঘ গাণিতিক যুক্তি দেখার চেয়ে অনেক বেশি আরামদায়ক।

▲ছবির উৎস: x@MagusWazir
ন্যানো ব্যানানা ভার্সন ১.০ এবং ন্যানো ব্যানানা ২ এর মধ্যে তুলনা নিম্নরূপ।

▲ ছবির উৎস: https://www.reddit.com/r/singularity/comments/1osolhn/nano_banana_2_vs_nano_banana_comparison_output/
এরকম অনেক ঘটনা আছে যেখানে ন্যানো ব্যানানা ২ ব্যবহার করে গণিতের সমস্যা সমাধান করা হয় এবং তারপর উত্তরগুলি ব্ল্যাকবোর্ডে লেখা হয়।

▲ ছবির উৎস: x@Liam06972452
শুধু সম্পাদনার ক্ষমতাই উন্নত হয়নি, বরং এবার অসম্পাদিত ছবি তোলার ক্ষমতাও উন্নত করা হয়েছে।
পরীক্ষার প্রিভিউ সংস্করণটি মিডিয়া এআই প্ল্যাটফর্মে সংক্ষেপে দেখানো হয়েছিল।

▲সূত্র: কেন কানেকি তার বন্ধুকে তুষারে কোলে নিয়ে যাচ্ছেন, টোকিও ঘৌল | ছবির উৎস: x@legit_api
টোকিও ঘৌল থেকে বরফের মধ্যে কানেকি কেনের বন্ধুকে জড়িয়ে ধরার দৃশ্যটি খুবই স্বাভাবিকভাবে তৈরি হয়েছিল। ধারাবাহিকভাবে সু-সম্পাদিত অ্যানিমে এবং সাইবারপাঙ্ক স্টাইলের পাশাপাশি, ন্যানো ব্যানানা ২-এর অসম্পাদিত ছবিগুলিও অবিশ্বাস্যভাবে উচ্চমানের দেখায়।

▲ প্রম্পট: অনেক মনিটরের সামনে কাজ করছে সাইবারপাঙ্ক হ্যাকার রোবট | ছবির উৎস: x@testingcatalog
এছাড়াও সব ধরণের "স্পুফ" প্রতিকৃতি চিত্র রয়েছে।

▲ ছবির উৎস: x@MicahBerkley
আর এই গ্রুপ ছবিগুলো একটা শক্তিশালী সিনেমার মতো স্টাইলের।

▲ ছবির উৎস: x@rpnickson
তবে, কেউ একজন মন্তব্য করেছেন, "এটি মোটেও ন্যানো ব্যানানা নয়; মিডিয়া এআই একটি চীনা কোম্পানি। ঠিক যেমন ডিপসিক যখন বেরিয়েছিল, তখন আমরাও ভেবেছিলাম এটি ওপেনএআই থেকে এসেছে; এটি তাদের স্বাভাবিক কৌশল।"
যখন ন্যানো ব্যানানা ১ প্রথমবারের মতো বিশাল মডেলের জগতে হাজির হয়েছিল, তখন কেউ নিশ্চিত ছিল না যে মডেলটি আসলেই গুগল থেকে এসেছে কিনা, কিন্তু শেষ পর্যন্ত, যতক্ষণ না কাঁচা ছবিগুলি যথেষ্ট অত্যাশ্চর্য হয়, আমরা এটি কিনতাম।
বর্তমান অসম্পাদিত ছবির মান বিবেচনা করে, এটিকে ন্যানো ব্যানানা ২ বলা পুরোপুরি গ্রহণযোগ্য।
#iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট অনুসরণ করতে আপনাকে স্বাগতম: iFanr (WeChat ID: ifanr), যেখানে যত তাড়াতাড়ি সম্ভব আরও উত্তেজনাপূর্ণ কন্টেন্ট আপনার কাছে উপস্থাপন করা হবে।
