
বছরের প্রথমার্ধে GPT-4o কে ঘিরে যে প্রচারণা শুরু হয়েছিল, তা কেবল আল্ট্রাম্যানকে GPU-এর প্রভাব অনুভব করতে বাধ্য করেনি, বরং সমস্ত বৃহৎ মডেলের জন্য কাঁচা ছবি এবং চাক্ষুষ বোধগম্যতাকে প্রায় আদর্শ বিক্রয় বিন্দুতে পরিণত করেছে।
কিন্তু এই বছরের দ্বিতীয়ার্ধে, সেই "কলা"ই সত্যিকার অর্থে তার উপস্থিতি প্রকাশ করেছিল: ন্যানো কলা।
শীর্ষস্থান পুনরুদ্ধারের প্রচেষ্টায়, OpenAI আজ আনুষ্ঠানিকভাবে তার সর্বশেষ ইমেজ ভিশন মডেল, GPT-Image-1.5 চালু করেছে। GPT-5.2 এর পরে, এটি OpenAI এর "রেড অ্যালার্ট" উদ্যোগের আরেকটি বড় পদক্ষেপ।

ডেটা-সেভিং সংস্করণটি নিম্নরূপ:
- আরও সঠিক নির্দেশ কার্যকরকরণ
- আরও সুনির্দিষ্ট সম্পাদনা
- আরও সম্পূর্ণ বিবরণ সংরক্ষিত আছে
- আগের চেয়ে চারগুণ দ্রুত
গাছা টানের রহস্যময় দিকগুলিকে বিদায় জানান, এবং সর্বাধিক সম্পাদনার বিবরণ আনলক করুন!
GPT-Image-1.5-এর সবচেয়ে বড় আপগ্রেড হল "সুনির্দিষ্ট সম্পাদনা"।
আগে, ছবি সম্পাদনা করার জন্য AI ব্যবহার করা এমন একজন স্টাইলিস্টের সাথে মোকাবিলা করার মতো ছিল যে মানুষের ভাষা বুঝতে পারে না। আপনি হয়তো আপনার ব্যাং ঠিক করতে চাইবেন, এবং এটি আপনার মাথার টাক কামিয়ে দেবে। এখন, মডেলটি অবশেষে মানুষের ভাষা বুঝতে পারে। আপনি যেখানে পরিবর্তন করতে চান ঠিক সেখানে এটি সামঞ্জস্য করে।
ইনপুট, আউটপুট এবং পরবর্তী সম্পাদনা লুপ জুড়ে আলো, রচনা এবং চরিত্রের বৈশিষ্ট্যগুলি সামঞ্জস্যপূর্ণ রাখা হয়েছে।
বিমূর্ত শোনাচ্ছে? অফিসিয়াল উদাহরণটি একবার দেখুন।
- ২০০০-এর দশকের চলচ্চিত্র-ধাঁচের শিশুদের জন্মদিনের পার্টির ছবিতে দুই পুরুষ এবং একটি কুকুরকে একত্রিত করা হয়েছে →
- পটভূমিতে জিনিস ছুঁড়ে মারার জন্য কোলাহলপূর্ণ শিশুদের যোগ করুন →
- বাম দিকের লোকটিকে একটি রেট্রো হাতে আঁকা স্টাইলে এবং কুকুরটিকে একটি প্লাশ খেলনা স্টাইলে পরিবর্তন করুন, ডানদিকের লোকটিকে এবং পটভূমিটিকে অপরিবর্তিত রেখে।
- সবাইকে ওপেনএআই সোয়েটার পরিয়ে দিন →
- অবশেষে, শুধুমাত্র কুকুরটিকে রাখা হয়েছিল, এবং ফুটেজটি একটি OpenAI লাইভ স্ট্রিমে অন্তর্ভুক্ত করা হয়েছিল…

ধারাবাহিক পদক্ষেপের পরেও, স্ক্রিন লজিকটি ক্র্যাশ করেনি। এটি দেখায় যে GPT-Image-1.5 আর অনুমানের উপর নির্ভর করছে না, বরং সত্যিকার অর্থে স্ক্রিনের কাঠামো বোঝে এবং CRUD ক্রিয়াকলাপ সম্পাদন করতে পারে। সঠিকভাবে এবং নির্ভরযোগ্যভাবে বিষয়বস্তু পরিবর্তন করার ক্ষমতা হল এর বর্তমান প্রযুক্তিগত প্রতিযোগিতামূলক সুবিধা।
আমার আসল পরীক্ষা থেকে আরও কয়েকটি কেস দেখা যাক।
তুমি হয়তো "A Panorama of Rivers and Mountains" নামক মাস্টারপিসটি দেখেছো, কিন্তু কিছু বিশদ বিবরণ হয়তো মিস করেছো।

একইভাবে, কে বলে যে কাবোসু নামে একজন শিবা ইনু, যিনি আধুনিক যুগ থেকে ভ্রমণ করেছেন, হঠাৎ করে "একশত ঘোড়া" চিত্রকর্মে উপস্থিত হতে পারেন না?

এমনকি মাস্ক এবং জুকারবার্গের মধ্যে আসন্ন খাঁচা দ্বন্দ্বকেও GPT-Image-1.5 ব্যবহার করে আল্ট্রাম্যান চরিত্রে সফলভাবে রূপান্তরিত করা হয়েছিল। মুখগুলি আলাদা দেখাচ্ছিল না, এবং অসঙ্গতি কার্যত অস্তিত্বহীন ছিল।

আমাদের অত্যন্ত নিচু কোণ থেকে তোলা একটি অত্যন্ত বিস্তারিত, বাস্তবসম্মত ছবি দরকার, যেখানে মাস্ক পার্ল নদীর তীরে বসে আছেন, এক হাত ক্যান্টন টাওয়ারের চূড়ায় বিশ্রাম নিচ্ছেন। বস্তুটির আকারকে তুলে ধরার জন্য, আমাদের তার পায়ের চারপাশে ছোট ছোট নৌকা এবং পর্যটকদের ছড়িয়ে দিতে হবে।
ফলস্বরূপ, এটি প্রকৃতপক্ষে "অনুপাত" বলতে কী বোঝায় তা শিখেছে।

▲ প্রম্পট: অত্যন্ত নিচু কোণ থেকে তোলা একটি অত্যন্ত বিস্তারিত এবং বাস্তবসম্মত ছবি। এলন মাস্ক পার্ল নদীর তীরে বসে আছেন, এক হাত ক্যান্টন টাওয়ারের চূড়ায় রেখে। তার বিশাল আকারকে তুলে ধরার জন্য, তার পায়ের চারপাশে ছোট নৌকা এবং পর্যটকদের যোগ করা যেতে পারে। 2K, 16:9
অবশেষে, আমি ঐ "খাতা" আঁকা বন্ধ করে দিয়েছি, কিন্তু আমার চীনা লেখা এখনও…
প্রাথমিক চিত্র মডেলের তুলনায়, GPT-Image-1.5 জটিল এবং বিস্তারিত নির্দেশাবলী অনুসরণে আরও ভালো এবং উপাদানগুলির মধ্যে পূর্বনির্ধারিত সম্পর্ক বজায় রাখতে পারে।
অফিসিয়াল উদাহরণটিতে একটি 6×6 গ্রিড ডায়াগ্রাম দেখানো হয়েছে যেখানে প্রতিটি সারি নির্দিষ্ট বিষয়বস্তু অনুসারে সাজানো উচিত: গ্রীক অক্ষর, প্রাণী, বস্তু, আইকন এবং শব্দ। মডেলটি সুশৃঙ্খলভাবে সাজানো হয়েছে, যা অবসেসিভ-বাধ্যতামূলক প্রবণতা সম্পন্ন ব্যক্তিদেরও খুশি করবে।

পরীক্ষার পর, লাইন আর্টকে বাস্তবসম্মত ছবিতে রূপান্তর করা এখন একটি মৌলিক কাজ হয়ে উঠেছে।

টেক্সট রেন্ডারিং ক্ষমতা আরও উন্নত করা হয়েছে, যার ফলে ঘন, ছোট-ফন্টের কন্টেন্টের আরও ভালো পরিচালনা সম্ভব হয়েছে। উদাহরণস্বরূপ, একটি মার্কডাউন ডকুমেন্টকে একটি স্বাভাবিক সংবাদপত্রের নিবন্ধ বিন্যাস হিসেবে রেন্ডার করা যেতে পারে, যার মধ্যে GPT-5.2 রিলিজ নোট, পারফরম্যান্স বেঞ্চমার্ক তুলনা ইত্যাদি অন্তর্ভুক্ত রয়েছে, একই সাথে ফর্ম্যাটিং এবং সংখ্যার অখণ্ডতা এবং নির্ভুলতা বজায় রাখা হয়েছে।

এই ক্ষমতাটি হয়তো তুচ্ছ শোনাতে পারে, কিন্তু পোস্টার, প্রচারমূলক ছবি এবং ইনফোগ্রাফিক্স তৈরি করতে চান এমন ব্যবহারকারীদের জন্য এটি একটি অপরিহার্য বিষয়।
ন্যানো ব্যানানা প্রো-এর আগে, জেনারেটিভ এআই-এর টেক্সট রেন্ডারিং ছিল হাস্যকরভাবে বিমূর্ত; এখন এটি অবশেষে পাঠযোগ্য। যাইহোক, আমাদের এতে জল ঢেলে দিতে হবে: যদিও GPT-Image-1.5-এর ইংরেজি দক্ষতা সত্যিই চিত্তাকর্ষক, এর চীনা পারফরম্যান্স এখনও একটি বিপর্যয়।
আমি এটিকে "অপ্টিমাস প্রাইম মঙ্গল গ্রহ জয় করছে" সম্পর্কে একটি চীনা কমিক স্ট্রিপ আঁকতে বলেছিলাম এবং এটি আপনার জন্য একটি মঙ্গলগ্রহের ভাষা তৈরি করেছে।

অন্যথায়, এটি একটি প্রাচীন ব্যক্তির দেয়ালে "শুইদিয়াও গেতু" লেখার চিত্র তৈরি করতে পারে, যেখানে লেখায় অসংখ্য ত্রুটি থাকবে এবং তারা যেভাবে কলমটি ধরেছিল তা যেন একটি ফাউন্টেন কলম।

সৌভাগ্যবশত, জেনারেশনের গতি ৪ গুণ বেশি। একটি কাজ এখনও আঁকার সময়, আপনি একসাথে বেশ কয়েকটি নতুন কাজ শুরু করতে পারেন, যার ফলে ট্রায়াল এবং এররের খরচ অনেক কমে যায়। এর অবজেক্ট জ্ঞানও বেশ ভালো; যখন জিজ্ঞাসা করা হয়েছিল যে পানিতে ডিমে লবণ দিলে কী হয়, তখন তৈরি হওয়া ছবিটি বেশ ভালো।

▲বাম দিকের ছবিটি আসল ছবি, এবং ডান দিকের ছবিটি তৈরি করা ছবি। ইঙ্গিত: যদি আপনি পানিতে প্রচুর লবণ যোগ করেন, তাহলে একটি ডিমের কী হয় তা দেখানো একটি ছবি তৈরি করুন।
ব্লগার @Yuchenj_UW বিশ্বাস করেন যে GPT Image 1.5 এর জেনারেশন ইফেক্ট মোটামুটিভাবে Nano Banana Pro এর সমতুল্য, কিন্তু এর "বুদ্ধি/যুক্তি করার ক্ষমতা" Nano Banana Pro এর থেকে উল্লেখযোগ্যভাবে নিম্নমানের, বিশেষ করে গণিত সমস্যায় (এবং অন্যান্য পদার্থবিদ্যা/ধাঁধাঁর সমস্যায়)।

আপনার পরবর্তী ডিজাইনারকে একজন ব্যক্তি হতে হবে না। ChatGPT প্রতিযোগিতার জন্য প্রস্তুত।
ওপেনএআই চ্যাটজিপিটিতে একটি ডেডিকেটেড ইমেজ তৈরির পোর্টালও তৈরি করেছে।
এই নতুন এন্ট্রি পয়েন্টটি ওয়েবসাইট এবং মোবাইল অ্যাপ উভয়ের সাইডবারেই পাওয়া যাবে। এটি প্রিসেট ফিল্টার এবং ট্রেন্ডিং কীওয়ার্ড দিয়ে পরিপূর্ণ এবং এটি নিয়মিত আপডেট করা হয়। একবার আপনার প্রতিকৃতি আপলোড করুন, এবং প্রতিটি ছবিতে আপনার ছবি ফুটে উঠবে; বারবার ছবি আপলোড করার প্রয়োজন নেই।
সত্যি কথা বলতে, ন্যানো ব্যানানায় এই বৈশিষ্ট্যটি নেই, তবে দেশীয় কাঁচা ইমেজ মডেলগুলি দীর্ঘদিন ধরে এটি ব্যাপকভাবে ব্যবহার করে আসছে। এক অর্থে, GPT-Image-1.5 তার দেশীয় প্রতিপক্ষের অভিজ্ঞতা থেকে কাজ করেও শিখছে।
এইমাত্র, আল্ট্রাম্যান সোশ্যাল মিডিয়ায় GPT-Image-1.5 ব্যবহার করে তৈরি একটি সেক্সি ক্রিসমাস ক্যালেন্ডারের জন্য পুরুষ মডেলদের ছবিও শেয়ার করেছেন।

যেহেতু আমরা ইতিমধ্যেই এখানে ছিলাম, তাই আমরা আল্ট্রাম্যানকে কয়েকটি ভিন্ন স্কিন দেওয়ার সিদ্ধান্ত নিয়েছি। স্টিকার স্টাইল, ববলহেড স্টাইল, স্কেচ স্টাইল—ভবিষ্যদ্বাণী করা হয়েছে যে আজকের পরে, আল্ট্রাম্যান আবার ইন্টারনেটের সবচেয়ে ব্যস্ততম ব্যক্তি হবেন।

প্রশংসার দাবি রাখে এমন একটি বিশদ হলো, যখন আপনি একটি প্রিসেট সমাধান তৈরির অনুরোধ করেন তখন OpenAI জনসমক্ষে পূর্বনির্ধারিত প্রম্পট প্রদান করে। এই ক্ষেত্রে, OpenAI প্রকৃতপক্ষে উন্মুক্ততার প্রতীক।

এছাড়াও, শুভেচ্ছা কার্ড তৈরি, অ্যালবামের কভার তৈরি, পুরানো ছবি পুনরুদ্ধার করা এবং পেশাদার চাকরির আবেদনের ছবি তোলা – এই সবই খুবই ব্যবহারিক প্রিসেট বিকল্প। উদাহরণস্বরূপ, লু শুন এবং ঠাকুরের ক্লাসিক ছবি, পুনরুদ্ধারের পরে, আসলে বেশ ভালো দেখাচ্ছে।

একটি ব্লগ পোস্টে, OpenAI-এর সিইও ফিদজি সিমো লিখেছেন, "মানুষের চিন্তাভাবনা কেবল শব্দ দিয়ে তৈরি নয়। আসলে, আমাদের সবচেয়ে সৃজনশীল ধারণাগুলি প্রায়শই আমাদের মনের চিত্র, শব্দ, ক্রিয়া বা নিদর্শন থেকে উদ্ভূত হয়।"
তিনি প্রকাশ করেছেন যে ChatGPT একটি প্রতিক্রিয়াশীল, টেক্সট-কেন্দ্রিক পণ্য থেকে আরও স্বজ্ঞাত একটি টুলে রূপান্তরিত হচ্ছে যা আপনার বিভিন্ন কাজের চাহিদা পূরণ করে। বিশুদ্ধ টেক্সট থেকে মাল্টিমিডিয়া এবং গতিশীল ইন্টারফেসে স্থানান্তর এই বিবর্তনের একটি গুরুত্বপূর্ণ পদক্ষেপ।
অনেক ব্যবহারকারী প্রথমে টেক্সট থেকে ছবি তৈরি করে ChatGPT-এর মুখোমুখি হন। "টেক্সটকে ছবিতে রূপান্তরিত করার" এই প্রক্রিয়াটি জাদুকরী, কিন্তু ChatGPT-এর চ্যাট ইন্টারফেসটি মূলত এর জন্য তৈরি করা হয়নি। ছবি তৈরি এবং সম্পাদনা সম্পূর্ণ ভিন্ন কাজ যার জন্য একটি নিবেদিতপ্রাণ ভিজ্যুয়াল স্পেস প্রয়োজন।

ওপেনএআই এর জন্য একটি নিবেদিতপ্রাণ প্রবেশপথ তৈরি করতে এতদূর এগিয়ে গেছে, যা চিত্র তৈরিকে আরও সৃজনশীল স্টুডিওর মতো পরিবেশ দেয়।
পরিকল্পনাটি এখানেই থেমে নেই।
সামগ্রিক ChatGPT অভিজ্ঞতাকে অপ্টিমাইজ করার জন্য OpenAI আরও ভিজ্যুয়াল উপাদান প্রবর্তন করবে। ভবিষ্যতের অনুসন্ধান ফলাফলে আরও ছবি এবং স্পষ্ট উৎস অন্তর্ভুক্ত থাকবে। ইউনিট রূপান্তর বা স্পোর্টস স্কোর পরীক্ষা করার মতো কাজের জন্য, আপনার কেবল টেক্সট বর্ণনা নয়, স্পষ্ট ভিজ্যুয়ালাইজেশন প্রয়োজন।

এমনকি লেখার অভিজ্ঞতাও বদলে যাচ্ছে। ভবিষ্যতে, অন্তর্নির্মিত লেখার মডিউল আপনাকে সরাসরি চ্যাটের মধ্যে সম্পাদনা করতে এবং এক ক্লিকে PDF এ রপ্তানি করতে বা সরাসরি ইমেলের মাধ্যমে পাঠাতে অনুমতি দেবে। ChatGPT এখন আর কেবল একটি সহজ ভাষা মডেল নয়; এটি একটি সত্যিকারের মাল্টিমডাল ওয়ার্কবেঞ্চ হয়ে উঠছে।
অবশ্যই, সাধারণ ব্যবহারকারীদের পাশাপাশি, ডেভেলপাররাও API এর মাধ্যমে GPT-Image-1.5 ব্যবহার করতে পারবেন।
GPT-Image-1 এর তুলনায়, GPT-Image-1.5-এ আরও শক্তিশালী ব্র্যান্ড উপাদান এবং মূল ভিজ্যুয়াল ধরে রাখার ক্ষমতা রয়েছে, যা এটিকে ই-কমার্স এবং ব্র্যান্ড মার্কেটিংয়ের মতো পরিস্থিতিতে উপযুক্ত করে তোলে যেখানে প্রচুর সংখ্যক বৈকল্পিক চিত্র তৈরি করতে হয়। চিত্র ইনপুট এবং আউটপুট খরচ 20% হ্রাস পায়, যার ফলে একই বাজেটে আরও চিত্র তৈরি করা সম্ভব হয়।

মূল্য হ্রাসের সাথে দক্ষতা বৃদ্ধি – এই পদক্ষেপগুলির সমন্বয় বেশ কার্যকর।
এছাড়াও, ডিজনি গত সপ্তাহে OpenAI-তে ১ বিলিয়ন ডলার বিনিয়োগ এবং একটি অংশীদারিত্ব চুক্তি ঘোষণা করেছে। এই তিন বছরের লাইসেন্সিং চুক্তির অধীনে, OpenAI-এর Sora এবং ইমেজ জেনারেশন মডেলগুলি Disney, Marvel, Pixar এবং Star Wars থেকে চরিত্র তৈরি করতে সক্ষম হবে, এবং আগামী বছরের শুরুতে আনুষ্ঠানিকভাবে এই বৈশিষ্ট্যটি চালু করার পরিকল্পনা রয়েছে।

কন্টেন্ট আইপি এবং এআই জেনারেশনের সমন্বয় অনেক সম্ভাবনা প্রদান করে।
আরও গুরুত্বপূর্ণ বিষয় হল, GPT-Image-1.5-এর মুক্তির মাধ্যমে চিত্র তৈরির সরঞ্জামগুলিকে "খেলনা" থেকে "সরঞ্জাম"-এ রূপান্তরিত করা হয়েছে।
বাজারে থাকা বেশিরভাগ AI ইমেজ এডিটিং টুল সম্পাদনা শুরু করার সাথে সাথেই ক্র্যাশ হয়ে যায়, যার ফলে কোনও ধারাবাহিকতা থাকে না।
GPT-Image-1.5 অন্তত এই দিকে একটি দৃঢ় পদক্ষেপ নিয়েছে। এটিতে পোস্ট-এডিটিং ক্ষমতা থাকতে শুরু করেছে, যা ন্যানো ব্যানানা প্রো-এর মতো বিশদ নিয়ন্ত্রণের অনুমতি দেয়, যা ছবির সামঞ্জস্য নিশ্চিত করে।
তুলনামূলকভাবে দুর্বল মডেল ক্ষমতার কারণে, GPT-Image-1.5 এর আরও ব্যাপক ইমেজ জেনারেশন প্রিসেট এবং বৈশিষ্ট্য সেটিংস এটিকে নতুন ন্যানো ব্যানানার বিরুদ্ধে একটি ভালো পাল্টা আক্রমণ করে তোলে।
ডেডিকেটেড ইমেজ ক্রিয়েশন পোর্টাল, প্রিসেট ফিল্টার লাইব্রেরি এবং অন্যান্য আপাতদৃষ্টিতে তুচ্ছ পণ্য ডিজাইনগুলি সাধারণ ব্যবহারকারীদের সমস্যাগুলি সঠিকভাবে সমাধান করে। অনেকেরই সবচেয়ে শক্তিশালী মডেলের প্রয়োজন হয় না; তাদের যা প্রয়োজন তা হল এমন সরঞ্জাম যা "শিখতে দ্রুত, বারবার সমন্বয়ের প্রয়োজন হয় না এবং এমন ফলাফল দেয় যা প্রায় আসলটির মতো।"
মডেল সক্ষমতায় নেতৃত্ব দেওয়া কেবল প্রথম ধাপ; আসল কথা হলো কীভাবে সেই সক্ষমতাগুলোকে ব্যবহারকারী-বান্ধব, সহজে ব্যবহারযোগ্য এবং প্রিয় পণ্যে রূপান্তর করা যায়।
#iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট অনুসরণ করতে আপনাকে স্বাগতম: iFanr (WeChat ID: ifanr), যেখানে যত তাড়াতাড়ি সম্ভব আরও উত্তেজনাপূর্ণ কন্টেন্ট আপনার কাছে উপস্থাপন করা হবে।
