OpenAI এর রহস্যময় হার্ডওয়্যারের বিবরণ প্রকাশিত হয়েছে, আমি আসল মেশিন পুনরুদ্ধার করতে AI ব্যবহার করেছি এবং অ্যাপলের ডিজাইনের আত্মাকে ইনজেকশন দিয়েছি

সম্প্রতি, একটি রহস্যময় এআই হার্ডওয়্যার রয়েছে যা নেটিজেনদের ক্ষুধা জাগিয়েছে – এর ব্যবহারের পরিস্থিতি এবং ফ্রিকোয়েন্সি আইফোন এবং ম্যাকবুকের সাথে তুলনীয়, তবে এটির একটি স্ক্রিন নেই, এবং এটি এআই চশমা, এআই হেডফোন, এআই পিন বা আইপড নয়… এর পিছনের বস এমনকি "10 মিলিয়ন ইউনিট" তৈরি করার প্রতিশ্রুতি দিয়েছিলেন।"

ওপেনএআই সিইও অল্টম্যান এবং অ্যাপলের প্রাক্তন চিফ ডিজাইন অফিসার আইভ এর সাথে টিঙ্কার করার জন্য AI ব্যবহার করেছেন এর সহ-প্রতিষ্ঠিত io কোম্পানিটি কী ধরনের "হার্ডওয়্যার সরঞ্জাম যা নতুন ট্র্যাকগুলি খুলে দেয়" তা অনুমান করা কঠিন!

অতএব, যদিও আল্ট্রাম্যান পরের বছরের শেষে আনুষ্ঠানিকভাবে পণ্যটি প্রকাশ করার পরিকল্পনা প্রকাশ করেছে, অনেক X নেটিজেন ইতিমধ্যেই ছবি "অনুমান" করার জন্য AI ব্যবহার করার কথা ভাবতে শুরু করেছে৷ যদি এটি কিছু "অভ্যন্তরীণ তথ্য" জানে, তাই না?

io এর প্রথম হার্ডওয়্যার ডিভাইসের বিশদ বিবরণ নিম্নরূপ:

  1. স্ক্রিন নেই, বাহ্যিক পরিবেশের সাথে মিথস্ক্রিয়া অন্তর্নির্মিত ক্যামেরা এবং মাইক্রোফোনের মাধ্যমে অর্জন করা হয়
  2. ডিজাইনটি আইপড শাফলের মতো
  3. এটি এআই চশমা, স্মার্টফোন, হেডফোন এবং অন্যান্য জনপ্রিয় এআই হার্ডওয়্যার ফর্ম ব্যবহার করে না।
  4. AI পিনের চেয়ে বড়
  5. সঙ্গে হল্টার নেক ডিজাইন
  6. স্মার্টফোন এবং পিসির সাথে সংযুক্ত করা যেতে পারে

আর কোনো ঝামেলা ছাড়াই, আসুন X-এ AI ক্রিয়েশন ব্লগার বেন গেসকিনের পোস্ট করা "io পণ্যের ছবি" দেখে নেওয়া যাক। প্রায় 9,000 X নেটিজেন দেখতে এসেছেন।

সংক্ষেপে, উপরের ছবিটি শুধুমাত্র এই মূল উদ্ঘাটনগুলিকে কভার করে না, বরং এটির পৃষ্ঠপোষক OpenAI-এর লোগোও প্রিন্ট করে, এবং AI হার্ডওয়্যারের একটি অস্বাভাবিক রূপও ডিজাইন করে – সর্বোপরি, এটি আরও সাধারণ রেজার, ম্যাসাজার এবং পাওয়ার ব্যাঙ্কগুলির সাথে কিছুটা সাদৃশ্যপূর্ণ…

বেন গেসকিন এই পোস্টের মন্তব্য বিভাগে, অন্যান্য X নেটিজেনরা "io পণ্যের ছবি" এর অন্যান্য শৈলী পোস্ট করতে পালা করে।

"অ্যাপল ওয়াচের জিপিটি সংস্করণ" OpenAI-এর ChatGPT দ্বারা তৈরি:

এআই চশমা এবং হেডফোনগুলিতে কি বিল্ট-ইন ক্যামেরা নেই, তাই কি এটি অনুসরণ করে যে স্মার্ট ঘড়িতে ক্যামেরা রয়েছে? যে অর্থে তোলে.

"পোর্টেবল ডেস্কটপ এআই ক্যামেরা" xAI এর Grok দ্বারা উত্পন্ন:

গুগল, যেটি গ্রহের সবচেয়ে শক্তিশালী ভিডিও মডেলের মালিক, Veo 3, কীভাবে এমন একটি অনুষ্ঠানে অনুপস্থিত থাকতে পারে? তাহলে, গুগলের টেক্সট-ভিত্তিক গ্রাফ মডেল ইমেজেন 4-এর সর্বশেষ সংস্করণ কীভাবে কাজ করে? প্রথমে মিথুনকে দেখে নেওয়া যাক।

iFanr ইমেজেন 4 দিয়ে সজ্জিত জেমিনিকে, GPT-4o দিয়ে সজ্জিত ChatGPT এবং Grok-3 দিয়ে সজ্জিত Grok-কে "প্রেডিক্ট io প্রোডাক্ট পিকচার" প্রম্পটের একই সেট ছুঁড়ে দিয়েছে, এবং তারপর তারা প্রত্যেকে নিম্নলিখিত সিমুলেটেড পণ্যের ছবি দিয়েছে।

প্রজন্মের এই একক রাউন্ডের ফলাফল থেকে বিচার করে, তিনটিই মূলত ফাঁস হওয়া তথ্যে পণ্য ডিজাইনের উপাদানগুলিকে কভার করে। তাদের মধ্যে, জেমিনি এবং চ্যাটজিপিটি পণ্যের চিত্রগুলি গলায় ঝুলতে সক্ষম হওয়ার নকশার সাথে আরও বেশি সামঞ্জস্যপূর্ণ। দুটির সাথে তুলনা করে, মিথুন দ্বারা তৈরি পণ্যের চিত্রগুলি ভিজ্যুয়াল টেক্সচারে কিছুটা ভাল।

গুগলের অফিসিয়াল বিবৃতি অনুসারে, ইমেজেন 4 আরও স্পষ্টভাবে চিত্রের বিবরণ যেমন ত্বক, চুল এবং জটিল টেক্সচার উপস্থাপন করতে পারে এবং এটি "ফটো-লেভেল" এবং "বাস্তববাদী" এআই ইমেজ তৈরিতেও ভালো। একই সময়ে, এটি দাবি করে যে Imagen 4 দ্বারা উত্পন্ন AI চিত্রগুলি বিভিন্ন অনুপাতকে সমর্থন করে এবং 2K পর্যন্ত রেজোলিউশন রয়েছে।

কিন্তু সত্যি কথা বলতে, জেমিনি দ্বারা ডিজাইন করা এই আইও পণ্যটি "একটু ভিড়ের মতো দেখায়"। আপনি এটিকে যত বেশি দেখবেন, ততই এটি অ্যাপল ওয়াচ + এআই পিন + পর্বতারোহণ ব্যাগ ল্যানিয়ার্ডের সংমিশ্রণের মতো দেখায়…

এছাড়াও, জেমিনি একটি পরিকল্পিত চিত্রও প্রদান করে যা "নতুন আইও পণ্য এবং স্মার্টফোন এবং পিসি ডিভাইসের মধ্যে দূরবর্তী সংযোগ" প্রতিফলিত করতে পারে।

এছাড়াও, Imagen 4 কিছু বিমূর্ত AI ইমেজ তৈরির চাহিদাও পূরণ করতে পারে।

এছাড়াও, এআই মডেলটি বানান এবং টাইপসেটিং এর ক্ষেত্রে আউটপুট গুণমানকে আরও আপগ্রেড করে এবং শুভেচ্ছা কার্ড, পোস্টার, কমিকস এবং অন্যান্য দৃশ্যের AI তৈরিকে অপ্টিমাইজ করতে পারে

ডিমের বাক্সের বাইরের প্যাকেজিংয়ে মুদ্রিত ইংরেজি বিষয়বস্তু পরিষ্কার, নির্ভুল এবং সুন্দর:

মাল্টি-ফ্রেম কমিক্সে, গল্পটি অবিচ্ছিন্ন, ছবি এবং পাঠ্য একে অপরের সাথে মিলে যায় এবং দূরত্ব, মাঝারি এবং ঘনিষ্ঠ শটগুলি বিবেচনায় নেওয়া হয়:

সম্প্রতি ইন্টারনেটে জনপ্রিয় হওয়া পিক্সেল-স্টাইলের কমিকগুলিও ধরা যেতে পারে:

ইমেজেন 4 এখন জেমিনি অ্যাপ, হুইস্ক, ভার্টেক্স এআই এবং ওয়ার্কস্পেসের পিপিটি, ভিডিও, ডক এবং অন্যান্য পণ্যগুলিতে উপলব্ধ।

Google I/O কনফারেন্স অনুযায়ী, Imagen 4 একটি দ্রুত সংস্করণ পরবর্তীতে লঞ্চ করবে, এবং এর AI ইমেজ জেনারেশনের গতি হবে আগের প্রজন্মের Imagen 3 এর চেয়ে 10 গুণ । আসুন অপেক্ষা করুন এবং দেখুন।

বিস্তারিত জন্য একটি তীক্ষ্ণ চোখ সঙ্গে একজন ফটোগ্রাফার

প্রম্পট কীওয়ার্ডের পুনরুদ্ধার এবং ছবির মূল বিষয়বস্তুর সম্পূর্ণতার পরিপ্রেক্ষিতে, বাজারে মূলধারার সাহিত্যিক ইমেজ মডেলগুলি এখন "গোলমাল এবং চোখ" অর্জন করতে পারে – সামগ্রিক স্তরটি খুব বেশি আলাদা নয়।

তাই, ইমেজ জেনারেশন কোয়ালিটির পরিপ্রেক্ষিতে, Google বিশদ বিবরণে যেতে শুরু করেছে, দাবি করেছে যে Imagen 4 এর "আরো সূক্ষ্ম রং" এবং "সূক্ষ্ম বিবরণ" রয়েছে। এটি খুব বাস্তবসম্মত শোনাচ্ছে না, তাই আমাদের এখনও "ছবিটিকে নিজের জন্য কথা বলতে দিতে হবে"।

প্রম্পট শব্দের একই সেটের উপর ভিত্তি করে:

একটি গোল্ডেন রিট্রিভার সমুদ্র সৈকতে শেল খুঁজে বের করছে

iFanr ইমেজেন 4 মডেল, ইমেজেন 4 এর আগের প্রজন্মের মডেল ইমেজেন 3 এবং ডুবাও সিডরিম3.0 দ্বারা প্রদত্ত ইমেজ ইফেক্টের তুলনা করেছে।

Imagen 3 দ্বারা উত্পন্ন এই AI ছবিতে, সোনালি পুনরুদ্ধারের অভিব্যক্তি, খোলসের টেক্সচার, সমুদ্র সৈকতে কুকুরের পায়ের চিহ্ন এবং নীল আকাশ এবং সাদা মেঘ এবং পটভূমিতে স্নেহপূর্ণ তরঙ্গ সবই খুব স্পষ্ট এবং বাস্তবসম্মত।

তদুপরি, যদি আপনি ঘনিষ্ঠভাবে লক্ষ্য করেন তবে সোনালি পুনরুদ্ধারের চুলগুলি সমুদ্রের জলে ভেজা বলে মনে হয় এবং এটি গুঁড়ো অবস্থায় রয়েছে।

প্রকৃতপক্ষে, যখন আমি প্রথম ইমেজেন 3 দ্বারা তৈরি করা মাস্টারপিসগুলি দেখেছিলাম, তখন আমি একটু চিন্তিত ছিলাম যে ইমেজেন 4 জিততে সক্ষম নাও হতে পারে।

যাইহোক, পরেরটি হতাশ হয়নি এবং "মসৃণ এবং উজ্জ্বল" এর অর্থ কী তা বাস্তব শক্তির সাথে প্রদর্শন করেছে।

প্রথমত, সামগ্রিক দৃষ্টিকোণ থেকে, ইমেজেন 4 দ্বারা উত্পন্ন চিত্রগুলিতে নরম টোন এবং আরও প্রাকৃতিক রঙ রয়েছে, যেমন আকাশ নীলের গ্রেডিয়েন্ট সহ আকাশ এবং গভীর দূরত্ব এবং অগভীরতা কাছাকাছি সমুদ্র।

তদুপরি, স্থানীয় দৃষ্টিকোণ থেকে, সোনালী পুনরুদ্ধারের চুল বিশদ বিবরণে পূর্ণ। এটি কেবল আরও চকচকে নয় এবং আলো এবং ছায়ার বিতরণ আরও সমান, তবে এটি তুলতুলে অনুভূতি পুনরুদ্ধার করে, এটি পোষা প্রাণীদের কাছে খুব ভাল দেখায়।

আরেকটি বিশদ যা খুব নজরকাড়া তা হল কুকুরের চোখ । ছবিতে সোনালী পুনরুদ্ধারকারী সমুদ্র সৈকতে শঙ্খের দিকে তাকিয়ে আছে, যা প্রম্পটে "অনুসন্ধান" এর সাথে মিলে যায়।

তুলনামূলক রেফারেন্স হিসাবে, Doubao- এর কর্মক্ষমতাও খুব শক্তিশালী। যদিও নীচের ছবির সামগ্রিক রঙটি গাঢ়, তবে ছবিটিও বিশদ বিবরণে খুব সমৃদ্ধ, যেমন সমুদ্রের বাতাস দ্বারা আলোড়িত তরঙ্গ, সমুদ্রের বাতাসে উড়িয়ে দেওয়া কুকুরের চুলগুলি স্পষ্টভাবে দৃশ্যমান, এবং গোল্ডেন রিট্রিভারের পাঞ্জাগুলি খোল খনন করার পরে প্রচুর বালির সাথে আটকে আছে…

একমাত্র অপূর্ণতা হল এই তিনটি ছবিতেই একই রকম সমস্যা রয়েছে – ব্যাকগ্রাউন্ড এবং এর ব্লার এফেক্ট এখনও একটি ভারী AI ফ্লেভার রয়েছে

Google দ্বারা প্রদত্ত উদাহরণে, Imagen 4 এমনকি "বিস্তারিত নিয়ন্ত্রণ" অর্জন করতে পারে "আপনি যা ইঙ্গিত করেন তা আঁকতে"। ক্যাপিবারার সংক্ষিপ্ত, শক্ত পশম, একটি তৈলচিত্রের ব্রাশস্ট্রোক, বুদবুদের আলো এবং ছায়া এবং একটি স্ফটিকের পৃষ্ঠের গঠন সবই সঠিকভাবে ধরা যায়।

একই সময়ে, ইমেজ টেক্সচার এবং 2K স্বচ্ছতার ক্ষেত্রে, Imagen 4 এর কিছু সমাপ্ত পণ্য এমনকি পেশাদার ফটোগ্রাফিক কাজের প্রতিদ্বন্দ্বিতা করতে পারে।

উচ্চ নন্দনতত্ব সঙ্গে একজন ডিজাইনার

যখন iFanr জেমিনিকে, যেটি সর্বশেষ জেমিনি 2.5 ফ্ল্যাশ সংস্করণ চালাচ্ছিল, "বড়, মাঝারি এবং ছোট আকারে উপলব্ধ একটি ইলেকট্রনিক স্ক্রিন সহ একটি ক্যানভাস ব্যাগ ডিজাইন করতে" জিজ্ঞাসা করেছিল, তখন মাল্টিমোডাল এআই সহকারী নিম্নলিখিত নকশাটি তৈরি করতে প্রায় 10 সেকেন্ড সময় নেয়।

নকশা অঙ্কন স্বজ্ঞাতভাবে "ক্যানভাস ব্যাগ" এবং "ইলেক্ট্রনিক স্ক্রীন" এর দুটি নকশা উপাদান প্রদর্শন করে এবং বড়, মাঝারি এবং ছোট শব্দগুলি বাম কলামে চিহ্নিত করা হয়েছে। আকারের পার্থক্য প্রতিফলিত করতে ডান এলাকা কিছু রেফারেন্স বস্তু যেমন "ওয়াটার কাপ" এবং "ব্রাশ" ব্যবহার করে।

এটিও উল্লেখ করার মতো যে এর বাহ্যিক নকশার সামগ্রিক রেখাগুলি মসৃণ এবং শক্ত নয় এবং এটি কিছু "হাতে আঁকা" অনুভূতিও ধরে রাখে।

তারপর, iFanr আরও জেমিনিকে ইলেকট্রনিক স্ক্রিন ক্যানভাস ব্যাগের নির্দিষ্ট আকার নির্দিষ্ট করতে বলেছে। উৎপন্ন ফলাফল থেকে বিচার করলে, প্রধান ইংরেজি শব্দ এবং রোমান সংখ্যা তুলনামূলকভাবে পরিষ্কার এবং সঠিকভাবে বানান করা হয়, কিন্তু ইংরেজি একক এবং বিরাম চিহ্ন যুক্ত অংশগুলি বিকৃত করা হয়।

আপনি যদি জেনারেট করা ফলাফলে সন্তুষ্ট না হন, তাহলে UI চ্যাট বক্স ইন্টারফেসে "আপডেট" বিকল্পে ক্লিক করুন, জেমিনি এই জেনারেট করা ফলাফলকে মুছে ফেলবে এবং নতুন প্রবেশ করা প্রম্পট অনুযায়ী আউটপুট পুনরায় কার্যকর করবে।

পণ্য নকশা অঙ্কন প্রস্তুত, কিন্তু কি অনুপস্থিত একটি পণ্য নাম. জেমিনি একটি সহজ এবং সরল নাম "ক্যানভাস কানেক্ট" নিয়ে আসতে সাহায্য করেছে৷

উপরের ধাপগুলির প্রকৃত উৎপন্ন ফলাফলগুলি প্রম্পট শব্দগুলির থেকে খুব বেশি আলাদা নয় এবং অনেক জায়গায় পুনরায় ডিবাগ করার প্রয়োজন নেই৷

যাইহোক, যখন সংশ্লিষ্ট পোস্টার এবং আমন্ত্রণগুলি ডিজাইন করার কথা আসে, যদি প্রম্পটগুলিতে অস্পষ্ট অর্থ থাকে, তাহলে মিথুন তাদের ভুল বোঝার সম্ভাবনা রয়েছে।

ইলেকট্রনিক স্ক্রীন ক্যানভাস ব্যাগ "ক্যানভাস কানেক্ট" এর প্রোডাক্ট ডিজাইন অঙ্কনের উপর ভিত্তি করে জেমিনি প্রথমে বাম দিকে পণ্যের পোস্টার প্রদান করে। এর পরে, প্রম্পট এটিকে পোস্টারের রঙের স্কিম পরিবর্তন করতে বলে। প্রধান রং বাদামী এবং সবুজ, এবং বাকি অপরিবর্তিত থাকে।

যাইহোক, যেহেতু প্রম্পটে উল্লেখ করা হয়নি যে "ক্যানভাস ব্যাগের" রঙ অপরিবর্তিত রয়েছে, তাই জেমিনি পোস্টারের পটভূমির রঙ পরিবর্তন করার সময় ক্যানভাস ব্যাগের রঙ পরিবর্তন করেছিলেন, যেমনটি বাম ছবিতে দেখানো হয়েছে।

এই প্রম্পটটি পুনরায় লেখার পরে, জেমিনি শুধুমাত্র পণ্যের পরিবর্তে পোস্টারের রঙ পরিবর্তন করেছে এবং থিমের রঙ গোলাপী থেকে সবুজে পরিবর্তিত হয়েছে। প্রম্পটের পিছনে ব্যবহারকারীর প্রয়োজনীয়তাগুলি সম্পর্কে চিন্তা করা থেকে, ম্যাচিং প্রয়োজনীয়তাগুলি বোঝার জন্য এবং তারপরে AI চিত্র তৈরি করতে এটি প্রায় 10 সেকেন্ড সময় নেয়।

তদুপরি, ইলেকট্রনিক স্ক্রিনে চিত্রগুলিতে, বাস্তব জীবনের মডেলগুলির গতিবিধি এবং অভিব্যক্তি বা পাঠ্য বিষয়বস্তুতে কোনও স্পষ্ট পরিবর্তন নেই। এই কেসটি ব্যাপকভাবে প্রতিফলিত করে যে ইমেজেন 4 মডেলের টেক্সট ইমেজে শক্তিশালী নিয়ন্ত্রণযোগ্যতা, সুন্দর টেক্সট লেআউট রয়েছে এবং এটি সাধারণত পুনঃব্যবহারযোগ্য।

দুর্ভাগ্যবশত, কিছু অনুচ্ছেদ বা টেক্সট বিষয়বস্তুর অংশগুলিকে এখনও ডিবাগিং নিয়ন্ত্রণ করতে সূক্ষ্ম প্রম্পটের উপর নির্ভর করতে হবে।

মিথুন: বাবা, ডিজাইনের 10086 তম খসড়া আপলোড করা হয়েছে। আমি কি এখন ঘড়ি বন্ধ করতে পারি?

চিন্তা করবেন না, ইমেজেন 4-এ এখনও অনেক ডিজাইন বৈশিষ্ট্য রয়েছে যা নেটিজেনদের অন্বেষণের জন্য অপেক্ষা করছে।

iFanr এটি চেষ্টা করে দেখেছে যে এটি পোস্টারে বাস্তব-জীবনের মডেলটিকে একটি কার্টুন চরিত্রের সাথে প্রতিস্থাপন করতে পারে যার চুলের স্টাইল, সাজসরঞ্জাম এবং চলাফেরা আরও একই রকম, যা উপরের ছবির একেবারে ডানদিকে পোস্টার। আপনি যখন তাদের সুন্দর করার জন্য খুব অলস হন তখন ছবি তোলার কথা ভাবারও এটি একটি উপায়।

যাইহোক, যদি কোন নির্দিষ্ট অনুরোধ না করা হয়, পোস্টারের মূল বিন্যাস পরিবর্তন করা হবে। এটি বর্তমানে প্রম্পট অংশে আরো প্রচেষ্টা প্রয়োজন.

অথবা আপনি একটি ইলেকট্রনিক আমন্ত্রণ চয়ন করতে পারেন যা "প্রাণবন্ত এবং শৈলীতে আকর্ষণীয়", "বিষয়বস্তুতে ধারণামূলক", এবং "সোশ্যাল মিডিয়ার জন্য উপযুক্ত"।

সবশেষে, জেমিনীকে ইমোজি এবং ট্যাগ এন্ট্রি সহ একটি প্রচারমূলক অনুলিপি নিয়ে আসতে বলতে ভুলবেন না, "একসাথে নতুন ক্যানভাস কানেক্ট পণ্যের লঞ্চের সাক্ষী হতে আপনাকে আমন্ত্রণ জানাই।"  #টেকস্টাইল"।

#iFanr: iFanr (WeChat ID: ifanr) এর অফিসিয়াল WeChat পাবলিক অ্যাকাউন্ট অনুসরণ করতে স্বাগতম, যেখানে যত তাড়াতাড়ি সম্ভব আরও উত্তেজনাপূর্ণ বিষয়বস্তু আপনার কাছে উপস্থাপন করা হবে।

iFanr | মূল লিঙ্ক · মন্তব্য দেখুন · সিনা ওয়েইবো