
অতীতে, ইন্টারনেটে পরচর্চা, প্রতিকার চাওয়া এবং সুনির্দিষ্ট প্রমাণ দেওয়ার ক্ষেত্রে আমরা পাঁচটি শব্দের ওপর নির্ভর করতাম: "একটি ছবি হাজার শব্দের সমান।"
যদিও এআই-নির্মিত ছবি সর্বত্রই রয়েছে, কিন্তু ছবিতে জটিল চীনা নকশা বা কোনো নির্দিষ্ট সফটওয়্যারের আসল ইন্টারফেস দেখা গেলেই এআই-টি সঙ্গে সঙ্গে ধরা পড়ে যাবে এবং পুরোপুরি "নিরক্ষর" হয়ে পড়বে।

▲ ছবির উৎস: X@ hx831126
কিন্তু এখন সেই যুগের অবসান ঘটেছে।
ChatGPT-এর ইমেজ মডেল, GPT Image 2-এর পূর্ণাঙ্গ উন্মোচনের সাথে সাথে, টাইপিংয়ের ভুল এবং UI-এর ত্রুটি খুঁজে বের করে AI ইমেজ শনাক্ত করার যুগের আকস্মিক অবসান ঘটেছে।
APPSO অবিলম্বে সবচেয়ে কঠিন চীনা পরিস্থিতি এবং ব্যবসায়িক চাহিদা ব্যবহার করে এটির উপর স্ট্রেস টেস্ট পরিচালনা করে। কোনো কার্ড না তুলেই, প্রতিটি কার্ড আশ্চর্যজনকভাবে ভালো প্রমাণিত হয়।

GPT Image 2 ব্যবহার করতে, ChatGPT খুলুন, "+" চিহ্নে ক্লিক করুন, "Create Image" নির্বাচন করুন, অথবা ডানদিকের সাইডবারে "Images" খুঁজুন। বর্তমানে, বিনামূল্যে ব্যবহারকারীসহ যেকোনো সাবস্ক্রিপশন প্ল্যানের ব্যবহারকারীরা এটি সরাসরি ব্যবহার করতে পারবেন।
গণিত পরীক্ষার প্রশ্নপত্র জাল করা যায়; চীনা অনুবাদই এখন নতুন রাজা।
ন্যানো ব্যানানা তার টেক্সট রেন্ডারিং ক্ষমতার জন্য প্রাথমিকভাবে এআই-জেনারেটেড টেক্সট রেন্ডারিংয়ের ক্ষেত্রে এক 'দেবতা' হিসেবে খ্যাতি লাভ করেছিল। তবে, অন্যান্য মডেলের তুলনায় এর টেক্সট প্রসেসিং উন্নত হওয়া সত্ত্বেও, অতিরিক্ত পরিমাণে টেক্সটের ক্ষেত্রে ন্যানো ব্যানানাতে এখনও কিছুটা টেক্সট মিসঅ্যালাইনমেন্ট এবং টেক্সট লেআউট কিছুটা অনমনীয় দেখা যায়।
এখন, জিপিটি ইমেজ ২-এর আবির্ভাব এই পরিস্থিতিকে পুরোপুরি বদলে দিয়েছে। এটি শুধু চীনা অক্ষরই বোঝে না, বরং অত্যন্ত জটিল চীনা টাইপসেটিংও বুঝতে পারে।
GPT Image 2 ব্যবহার করলে, অতিরিক্ত জটিল নির্দেশনারও প্রয়োজন হয় না; আমাদের পরীক্ষাগুলোতে কেবল এক বা দুটি বাক্যে ছবির সহজ বর্ণনা ছিল।
উদাহরণস্বরূপ, এটি গুয়াংঝৌ-এর জন্য একটি প্রাথমিক বিদ্যালয়ের গণিত পরীক্ষার প্রশ্নপত্র তৈরি করতে ব্যবহার করা যেতে পারে।

▲ নির্দেশ: গুয়াংজু প্রাথমিক বিদ্যালয়ের গণিত পরীক্ষার প্রশ্নপত্র তৈরি করুন
ফলাফলটা ছিল বেশ চমকপ্রদ। শিরোনাম, দাগ দেওয়া শূন্যস্থান পূরণ প্রশ্নগুলো, জ্যামিতিক চিত্রগুলো, এমনকি পরীক্ষার প্রশ্নপত্রের স্বতন্ত্র সং/কাই ফন্টের বিন্যাস—সবকিছুই নিখুঁতভাবে ফুটিয়ে তোলা হয়েছিল। প্রথম দর্শনে, এটিকে হুবহু আসল পরীক্ষার প্রশ্নপত্রের ওপর মোবাইল ফোনে তোলা একটি ছবির মতো লাগছিল।
একটি প্রমিত ফন্ট ব্যবহার করাই যদি যথেষ্ট কঠিন না হয়, তবে আমরা ঐতিহ্যবাহী চীনা ক্যালিগ্রাফি ব্যবহার করে একে চ্যালেঞ্জ করার চেষ্টা করতে পারি।

▲ নির্দেশ: মূল "শু-এর পথ কঠিন" ক্যালিগ্রাফিটির একটি ছবি তৈরি করুন।
জিপিটি ইমেজ ২ বলছে, এটা এখনও আমার জন্য কোনো চ্যালেঞ্জ নয়। খাঁটি ক্যালিগ্রাফির তৈরি হওয়া ছবিগুলো শুধু লেখার দিক থেকেই নির্ভুল নয়, বরং একটি ক্যালিগ্রাফিক কাজে যে সাবলীল রেখা এবং বলিষ্ঠ টান থাকা উচিত, তাও এতে ফুটে উঠেছে। এমনকি কাগজের পুরোনো ভাব এবং কিছু সীলমোহরও নিখুঁত।
কিছু গ্রাফিক ও টেক্সট-সমৃদ্ধ লেআউট পরীক্ষায়, GPT Image 2 নিখুঁতভাবে কাজ করেছে, যেখানে কোনো টেক্সট বিকৃত হয়নি বা ফন্ট একে অপরের উপর উঠে যায়নি। 
▲ নির্দেশক: আজকের এআই ইভনিং নিউজের একটি হলদে হয়ে যাওয়া কপি, তারিখ ২১শে এপ্রিল, ২০৪৯।
যখন একটি এআই মডেল বাস্তবসম্মতভাবে প্রশ্নসহ পরীক্ষার প্রশ্নপত্র তৈরি করতে এবং চীনা ক্যালেন্ডার নিখুঁতভাবে ফুটিয়ে তুলতে পারে, তখন ‘চোখে দেখাই বিশ্বাস’—এই পুরোনো প্রবাদটি সত্যিই এবং সম্পূর্ণরূপে ভেঙে যায়।
আমার বিশ্বাস, আপনি যদি চতুর্থ শ্রেণির ওই পরীক্ষার খাতাটি কোনো প্রাথমিক বিদ্যালয়ের শিক্ষার্থীকে দেখান, তাহলে সে সত্যিই কোনো ভুল খুঁজে পাবে না।
পাঠ্যের সাথে একত্রিত করে সমগ্র ডিজিটাল বিশ্বকে ১:১ অনুপাতে পুনর্নির্মাণ করা সম্ভব।
চীনা উপস্থাপনাটি কেবল মৌলিক বিষয়গুলোর একটি পরিপূরক; জিপিটি চিত্র ২-এর আরও আশ্চর্যজনক দিকটি হলো এটি বিশ্ব জ্ঞানের যে গভীরতা উন্মোচন করে।
সাম্প্রতিক GPT Image 2 ফাঁসের মাধ্যমে ভাইরাল হওয়া ছবিগুলোসহ, যেমন টিকটকে মাস্কের লাও গান মা চিলি সস কেনা এবং প্ল্যাটফর্মটির সাথে আলট্রাম্যানের প্রতিযোগিতা—এই সবকিছুই GPT Image 2-এর শক্তিশালী টেক্সট রেন্ডারিং ক্ষমতা এবং বিশ্ব জ্ঞানের উপর ভিত্তি করে তৈরি।
ন্যানো ব্যানানা ভাইরাল হওয়ার পর 'বিশ্ব জ্ঞান' ধারণাটি জনপ্রিয় হয়ে ওঠে। এর মানে হলো, এমনকি সাধারণ ইমেজ মডেলগুলোরও সাধারণ মডেল সম্পর্কে জ্ঞান থাকে, তারা অনলাইনে অনুসন্ধান করতে পারে এবং চিন্তা করতে পারে। আমরা প্রতিদিন যে স্ক্রিনের দিকে তাকিয়ে থাকি, যে গেমগুলো খেলি এবং যে লাইভ স্ট্রিমগুলো দেখি, সেগুলো আসলে দেখতে কেমন, তা এটি সত্যিই জানে।
আমরা দৈবক্রমে এমন একটি পরিস্থিতিতে প্রবেশ করলাম যা ইন্টারনেটের একটি অত্যন্ত বৈশিষ্ট্যপূর্ণ দিক।

▲ প্রম্পট: একজন সুন্দরী নারী লাইভ স্ট্রিমার ডুইয়িনে সম্প্রচার করছেন।
ফলস্বরূপ ছবিটিতে শুধু মানুষই ছিল না, বরং আরও উদ্বেগজনকভাবে, এটি ডুইন (টিকটক)-এর ইউআই (UI) হুবহু নকল করেছিল। নিচের বাম কোণার মন্তব্য বিভাগ, ডানদিকে লাইক ও শেয়ার বাটন, দর্শকের সংখ্যা এবং উপরের প্রধান চিহ্ন—সমস্ত ইন্টারঅ্যাক্টিভ উপাদানের স্তরবিন্যাসগত যুক্তি সঠিক ছিল।
গেমাররা হয়তো বিষয়টি আরও গভীরভাবে অনুভব করবেন। যখন আমরা এটিকে ‘লিগ অফ লেজেন্ডস’-এর একটি টিম ফাইটের দৃশ্য পুনরায় তৈরি করতে বলেছিলাম, তখন এটি শুধু ‘রিফট’-এর ভূখণ্ডই আঁকেনি, বরং হিরোদের মাথার উপরের হেলথ বার, স্কিল ইফেক্টের আলো-ছায়া এবং মিনিম্যাপের UI ফ্রেমও নিখুঁতভাবে ফুটিয়ে তুলেছে।

▲ইঙ্গিত: লীগ অফ লেজেন্ডস গেম স্ক্রিন, সামোনার'স রিফট ম্যাপ, ক্লাসিক আইসোমেট্রিক টপ-ডাউন ভিউ, বেশ কয়েকজন হিরো একটি ভয়ানক দলগত লড়াইয়ে লিপ্ত।
এমনকি প্রযুক্তি জগতের সবচেয়ে বিখ্যাত মুহূর্তগুলোও এটি হাতের তালুর মতো চেনে। শুধু একটি বাক্য দিয়েই এটি নির্ভুলভাবে স্যাম অল্টম্যানের মুখের গড়ন, ওপেনএআই-এর সাদামাটা মঞ্চের আলো এবং ভিডিও প্লেয়ারের ছদ্মবেশে থাকা লাইভ স্ট্রিমিং ইন্টারফেসটি ফুটিয়ে তুলতে পারে।

▲ইঙ্গিত: স্যাম অল্টম্যানকে নিয়ে GPT-Image-2 উৎক্ষেপণ অনুষ্ঠানের লাইভ স্ট্রিম ফুটেজ।
ডিজিটাল জগতের দৃশ্যগত নিয়মকানুন সম্পর্কে জিপিটি ইমেজ ২-এর ধারণা আমাদের কল্পনার চেয়েও গভীর।
XX is Dead, আবারও ডিজাইন, মার্কেটিং এবং বিজ্ঞাপনে বিপ্লব ঘটাচ্ছে…
প্রযুক্তির দ্রুত অগ্রগতির পেছনে রয়েছে বহু পুরোনো কর্মপ্রক্রিয়ার অবসান।
এআই টেক্সট এবং ইউআই-এর বাধা অতিক্রম করেছে, এবং র ইমেজ তৈরি করা 'শৈল্পিক সৃষ্টি'-র জগৎকে পুরোপুরি ছাড়িয়ে একটি মূল বাণিজ্যিক প্রোডাক্টিভিটি টুলে পরিণত হয়েছে। এই ব্যবহারিক পরীক্ষায়, GPT Image 2-এর বাণিজ্যিক প্রয়োগের সক্ষমতা অনেক ডিজাইনারকে অস্থির করে তোলার জন্য যথেষ্ট।
শিল্প ও পণ্য নকশার ক্ষেত্রে, জটিল যান্ত্রিক কাঠামো এবং মডেলিং করতে প্রায়শই অনেক সময় লাগে, কিন্তু এখন এতে মাত্র কয়েক সেকেন্ড সময় লাগে।

▲ নির্দেশ: ‘ঝাং শুয়ে মোটরসাইকেলস’-এর মোটরসাইকেলগুলোর জন্য একটি আকর্ষণীয় প্রোডাক্ট ব্রেকডাউন ডায়াগ্রাম ডিজাইন করুন।
যন্ত্রাংশগুলোর ভাসমান বিন্যাস এবং অত্যন্ত উন্নত প্রযুক্তিগত আলো ও ছায়ার ব্যবহার এমন ছবির জন্য তাৎক্ষণিকভাবে উচ্চ-মানের প্রোটোটাইপ রেফারেন্স প্রদান করতে পারে, যা তৈরি করতে আগে থ্রিডি মডেলারদের দিনের পর দিন কাজ করতে হতো।

▲ ছবির উৎস: X@ hx831126
ই-কমার্স এবং বিজ্ঞাপনের ভিজ্যুয়ালের ক্ষেত্রে, এটি অ্যাপল পণ্যের আকর্ষণীয় ও অভিজাত ভাব, কিংবা ই-কমার্স প্ল্যাটফর্মগুলোর জন্য প্রয়োজনীয় চীনা প্রচারমূলক কপি সহ উচ্চ স্যাচুরেশন ও ইন্টারনেট-বান্ধব ছবি—সবকিছুই অনায়াসে সামলে নেয়।

▲ প্রম্পট: আইফোন ১৬ প্রো ম্যাক্স-এর একটি উচ্চমানের বাণিজ্যিক বিজ্ঞাপন

▲মূলশব্দ: পণ্যের বিজ্ঞাপনের ছবি, একটি সাঁতারের রিং, আকর্ষণীয়, উচ্চ ক্লিক-থ্রু রেট, ১৬:৯ অ্যাসপেক্ট রেশিও, চীনা ভাষায়।
মার্কেটিং এবং আইপি তৈরির ক্ষেত্রে, জিপিটি ইমেজ ২ চমৎকার লেআউট লজিক এবং ফিচার এক্সট্র্যাকশনেরও প্রদর্শন করে। এতে সরাসরি চীনা ফন্ট ব্যবহার করা যায়, স্টোরিবোর্ডের লজিক সুস্পষ্ট, এবং এমনকি বিভিন্ন বড় মডেলের লোগোর ফিচারগুলোকেও শক্তিশালী ইন্টারনেট অনুভূতিসম্পন্ন আইপি এক্সটেনশনে পরিণত করা সম্ভব।

▲ নির্দেশনা: "দ্য রেসকিউ প্ল্যান" সিনেমার জন্য একটি ল্যান্ডস্কেপ পোস্টার ডিজাইন করুন (যদিও তিনি গসলিং-এর উদ্ধার পরিকল্পনা সম্পর্কে জানতেন না, তার বেছে নেওয়া অভিনেতারা নিঃসন্দেহে বড় বাজেটের সিনেমার তারকা ছিলেন)।

▲ইঙ্গিত: ক্লাসিক কমিক বইয়ের পৃষ্ঠা, যার মধ্যে রয়েছে প্যানেলের বিন্যাস, চরিত্রের অ্যানিমেশন এবং স্পিচ বাবল।

▲ নির্দেশ: ইমোজি ডিজাইনের জন্য বিভিন্ন ধরনের এআই লার্জ ল্যাঙ্গুয়েজ মডেল (যেমন: Gemini, deepseek, ChatGPT, Claude, Grok, ইত্যাদি) তৈরি করুন।
অতীতে, ডিজাইনাররা যখন প্রয়োজনীয়তাগুলো বুঝে কাজ করতেন, তখন তাঁরা বিভিন্ন রেফারেন্স খুঁজতেন, জটিল ডিজাইন ফ্রেমওয়ার্ক তৈরি করতেন এবং লেআউট ও টাইপোগ্রাফি পরিপাটি করতেন। এখন, একটি স্পষ্ট ও সহজ নির্দেশনাই এমন একটি সম্পূর্ণ কাজ তৈরি করতে পারে যা সরাসরি ব্যবসায়িক প্রস্তাব, ই-কমার্স ক্যাম্পেইন, বা এমনকি ব্যাপক উৎপাদনের জন্যও ব্যবহার করা যায়।
আমাদের পরীক্ষার সময়, প্লাস এবং ফ্রি উভয় অ্যাকাউন্ট থেকেই GPT ইমেজ ২ অ্যাক্সেস করা গেছে। আপনি আপনার ChatGPT চ্যাট উইন্ডোতে এটি পরীক্ষা করে দেখতে পারেন।
তবে, একটি রেট লিমিট সতর্কতা তখনও থাকবে। যখন আমরা ছবি তৈরি করার জন্য ChatGPT-কে ঘন ঘন অনুরোধ পাঠাই, তখন এটি সরাসরি একটি ত্রুটি কোড সহ উত্তর দেয়, যেখানে লেখা থাকে: "আপনার ছবিটি খুব দ্রুত তৈরি হচ্ছে। সকলের জন্য সেরা অভিজ্ঞতা নিশ্চিত করতে, আমাদের একটি রেট লিমিট রয়েছে। অনুগ্রহ করে ১৩ মিনিটের মধ্যে তৈরি করুন।"

এটা বলতেই হয় যে, যখনই আমরা ভাবি ওপেনএআই স্থবির হয়ে পড়েছে, ঠিক তখনই তারা অপ্রত্যাশিতভাবে নতুন কিছু একটা করে বসে।
গত কয়েক মাস ধরে, এটি খণ্ড খণ্ডভাবে নতুন মডেল প্রকাশ করা, সোরা (Sora) বন্ধ করে দেওয়া এবং চ্যাটজিপিটি অ্যাটলাস (ChatGPT Atlas) ব্রাউজারটি প্রভাবিত করতে ব্যর্থ হওয়ার জন্য সমালোচিত হয়েছে, যেন একসময়ের অপরাজেয় এই এআই দৈত্যটি সত্যিই অযোগ্য হয়ে পড়েছে।
আজ জিপিটি ইমেজ ২-এর আবির্ভাবকে এই হতাশাবাদীদের প্রতি একটি শক্তিশালী জবাব হিসেবে দেখা যেতে পারে।

যখন কোনো মডেল বাস্তবের সাথে হুবহু মিলে যায় এমনভাবে গণিত পরীক্ষার প্রশ্নপত্র তৈরি করতে পারে এবং একটি টিকটক লাইভ স্ট্রিমের ইন্টারফেসকে পুরোপুরি নকল করতে পারে, তখন এক নজরে বলা কঠিন যে 'এটি কৃত্রিম বুদ্ধিমত্তা দিয়ে করা হয়েছে'।
‘একটি ছবি হাজার শব্দের সমান’—এই যুগ সত্যিই চিরতরে শেষ হয়ে গেছে।
iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট iFanr (WeChat ID: ifanr) ফলো করুন, যেখানে যত তাড়াতাড়ি সম্ভব আপনার জন্য আরও আকর্ষণীয় কন্টেন্ট উপস্থাপন করা হবে।
