আমি ChatGPT-এর নতুন ফাংশন ব্যবহার করে একটি ছবি এডিট করে মোমেন্টে পাঠালাম, কিন্তু সমস্ত ব্যক্তিগত বার্তা আমাকে জিজ্ঞেস করল আমি এটা কিভাবে করেছি?

ওপেনএআই আজ সকালে ভিনসেন্টিয়ান গ্রাফ ফাংশনের নতুন প্রজন্ম প্রকাশ করলে, সবাই এর শক্তি সম্পর্কে খুব স্পষ্ট ছিল না। তারা ভেবেছিল যে এটি মিথুনকে অনুসরণ করছে এবং কিছু দেরীতে আপগ্রেড আনছে।

জিপিটি কিছুই বলে নি, তবে কেবল তার ব্যবহারকারীর ক্ষেত্রে দর্শকদের হতবাক করেছে।

এর সর্বশেষ পুনরাবৃত্তিতে, OpenAI যুগান্তকারী নির্দেশনা সম্মতি এবং ভিনসেন্টিয়ান গ্রাফ কার্যকারিতাতে সামঞ্জস্যপূর্ণ কর্মক্ষমতা নিয়ে আসে। সহজতম টেক্সট প্রম্পটের সাহায্যে, আপনি ছবির বিশদ বিবরণের উচ্চ-নির্ভুল সূক্ষ্ম-টিউনিং অর্জন করতে পারেন – সমস্ত পরিবর্তনগুলি শুধুমাত্র সেশনে করা দরকার , কোনো অতিরিক্ত অপারেশন যেমন বোতাম বা ব্রাশ ছাড়াই।

ম্যাজিকের জন্য ব্রাশের প্রয়োজন হয় না, কেবল মন্ত্র

Gemini-এর মতো, এই OpenAI আপডেটের ফোকাস ছবিগুলি কতটা বাস্তবসম্মত এবং জটিল হতে পারে তার উপর নয়, বরং নির্দেশের সম্মতি এবং সামঞ্জস্যের উপর, এবং এটি শুধুমাত্র প্রাকৃতিক ভাষা নির্দেশাবলী ব্যবহার করার ভিত্তির অধীনে।

আসুন প্রথমে এন্ট্রি-লেভেল ফুড ফটোগুলির একটি সেট দেখি। প্রম্পটটিও খুব সহজ: কফি এবং রুটির একটি চিত্র তৈরি করুন।

পরে, আসল ছবির উপর ভিত্তি করে, আমি এটিকে আইসড কফিতে পরিবর্তন করে জ্যাম ছড়িয়ে দেওয়ার অনুরোধ করেছিলাম।

কাপ হ্যান্ডেল ব্যতীত, আমি যা যোগ করা দরকার তা যোগ করেছি এবং যা ছেড়ে দেওয়া দরকার তা রেখেছি এবং নির্দেশাবলী খুব ভালভাবে অনুসরণ করা হয়েছিল।

প্রতিকৃতি জড়িত ছবি এছাড়াও স্থিতিশীল কর্মক্ষমতা আছে.

আপনি যদি মনোযোগ সহকারে দেখেন তবে এখনও কিছু ছোট পরিবর্তন রয়েছে, তবে সবচেয়ে সমালোচনামূলক মানবদেহের নড়াচড়া, জামাকাপড়ের বলি এবং অভিব্যক্তি সবই ত্রুটিহীন।

ছবির এই সেটটি তৈরি করার সময়, আমি বিষয়বস্তু ঝুঁকি নিয়ন্ত্রণের সম্মুখীন হয়েছি এবং একটি ত্রুটি পেয়েছি যে এটি নীতির প্রয়োজনীয়তা পূরণ করে না। যাইহোক, এটি মূল নির্দেশের উদ্দেশ্য এবং প্রস্তাবিত পরিবর্তনগুলি বুঝতে পেরেছিল।

এই শেষটিও সেরা এবং সবচেয়ে প্রাকৃতিক প্রভাবের সাথে এক।

সাধারণ স্ক্রীনের বিষয়বস্তু সহ কাজগুলি স্বাভাবিকভাবেই উপলব্ধি করা সহজ, কিন্তু আরও জটিল বিষয়গুলির কী হবে?

পূর্ববর্তী জেমিনি ফটো পরীক্ষায়, আমরা একটি শহরের রাস্তার দৃশ্য তৈরি করেছি এবং প্রভাবটি ছিল আশ্চর্যজনক। আবার দেখুন:

একই প্রম্পট ChatGPT-তে কার্যকর করা হয়েছিল, কিন্তু ছবির প্রভাব কিছুটা খারাপ ছিল, বিশেষ করে রাতে, যেখানে ভিড়ের বিবরণ প্রায় অদৃশ্য ছিল।

অবশ্যই, এই সমস্যাটি নান্দনিক পার্থক্য সম্পর্কে বেশি। মূল উপাদান চিহ্নিত করতে কোন সমস্যা নেই। এটি এমনকি "সুতায়া বুকস্টোর" এর মতো ছোট বিবরণ ক্যাপচার করতে পারে এবং ফন্ট জেনারেশনও বেশ স্থিতিশীল।

এটি সরাসরি পাঠ্যের সাথে তৈরি করার পাশাপাশি, আপনি পরিবর্তনের জন্য ছবিও আপলোড করতে পারেন – এখানে সবচেয়ে জঘন্য পর্বটি আসে।

পিএনজি ফরম্যাটে APPSO লোগো আপলোড করার পরে, প্রথম ধাপ হল এটিকে 3D তে পরিবর্তন করা।

প্রভাব ঠিক আছে, ছায়া দিক অসামঞ্জস্যপূর্ণ, কিন্তু এটি আলো নিজেই মেলে। এর পরে, কিছু সমন্বয় করুন।

মর্মান্তিক ! এই দুটি সামঞ্জস্যের জন্য প্রম্পট মাত্র বিশটি শব্দ।

(এমনকি ডিফল্ট ডিজিটাল পণ্যগুলি অ্যাপল থেকে, এবং কিছু উল্লেখ না করা গুণাবলী সত্যিই লুকানো আছে।)

ছোট কোণে পরবর্তী ফাইন-টিউনিংও খুব সঠিক।

▲ প্রম্পট: কোণটি সামঞ্জস্য করুন যাতে লাল লোগোটি সামনের দিকে পরিণত হয়, বাকিগুলি অপরিবর্তিত থাকে

বিস্তারিত ফাইন-টিউনিং এই আপডেটের একটি খুব বড় হাইলাইট, যা সঠিকভাবে স্থানীয় পরিবর্তনগুলি সম্পূর্ণ করার জন্য সংশ্লিষ্ট বিবরণের সাথে নির্দেশাবলীর সাথে যুক্ত করতে পারে।

▲ প্রম্পট: কোণটি সামঞ্জস্য করুন, লেন্সটি সামনের ডান দিক থেকে শুট করে, সামগ্রিক আলো ম্লান হয়, শক্তিশালী আলোর একটি রশ্মি ডান দিক থেকে মেশিনের অংশকে আলোকিত করে, এর পাশে কফি বিন সহ

নির্দেশাবলী যেমন আলো প্রভাব, ক্যামেরা কোণ, এবং উপাদান সংযোজন হিসাবে মূল বিষয়বস্তু অন্তর্ভুক্ত. মডেলটি সঠিকভাবে চিহ্নিত এবং সামগ্রিকভাবে সামঞ্জস্য করা যেতে পারে। কোন চারটি শব্দ পাল্টাবো সে কথা বলতে বলতে আমি ক্লান্ত।

এই আপডেটের সবচেয়ে আশ্চর্যজনক জিনিসটি একই সেশনে কাঁচা ছবি এবং কাঁচা পাঠ্যের মধ্যে দ্রুত পরিবর্তন করার ক্ষমতা হওয়া উচিত।

উদাহরণস্বরূপ, নীচের ছবিতে, একটি উপহার মোড়ানো গাইড তৈরি করার প্রথম নির্দেশনা।

প্রথম যে জিনিসটি দেওয়া হয়েছিল তা ছিল একটি ছবি এবং পাঠ্য সংস্করণ – যা কোনও ভুল নয়। আমি একটি ছবি এবং পাঠ্য সংস্করণ বা একটি পাঠ্য সংস্করণ করতে চাই কিনা তা উল্লেখ করিনি। নির্দেশ খুব অস্পষ্ট ছিল.

পাঠ্য সংস্করণ তৈরি করার পরে, ChatGPT সক্রিয়ভাবে জিজ্ঞাসা করেছিল যে এটি একটি গ্রাফিক সংস্করণ তৈরি করতে চায় কিনা। একটি নিশ্চিতকরণ উত্তর প্রাপ্তির পরে, এটি একটি গ্রাফিক সংস্করণ প্রদান করে।

এর মানে হল যে মডেলের সঠিক প্রতিক্রিয়া শুধুমাত্র একটি একক নির্দেশ বোঝার মধ্যেই প্রতিফলিত হয় না, বরং ব্যবহারকারীর সম্ভাব্য উদ্দেশ্য বোঝা এবং ব্যবহারকারীর চেয়ে "এক ধাপ বেশি চিন্তা করা" ।

প্রকৃতপক্ষে, এটি ডিপ রিসার্চ দ্বারা প্রদর্শিত ক্ষমতাও যখন এটি আগে প্রকাশিত হয়েছিল। OpenAI এর গভীর অনুসন্ধান কয়েকটি মডেলের মধ্যে একটি যা সক্রিয়ভাবে ব্যবহারকারীদের টাস্ক এক্সিকিউশনের বিশদ ব্যাখ্যা করতে বলে।

অনুরূপ ক্ষমতা এই সময় কাঁচা ইমেজ স্থানান্তরিত করা হয়েছে. ব্যবহারকারীর অভিজ্ঞতার পরিপ্রেক্ষিতে, তারা গভীর গবেষণার তুলনায় আরও স্বজ্ঞাত এবং উপলব্ধিযোগ্য।

উদাহরণস্বরূপ, এটি প্রতিদিনের নোটিশ এবং নির্দেশাবলী তৈরি করতে ব্যবহার করা যেতে পারে, ছবি এবং পাঠ্য সব এক জায়গায়।

সামগ্রিকভাবে, এই সময়ের সবচেয়ে আশ্চর্যজনক জিনিসটি অবশ্যই ধারাবাহিকতা এবং নির্দেশনা অনুসরণের সিঙ্ক্রোনাইজেশন হতে হবে।

যথারীতি, প্রতিটি পর্যালোচনায় কিছু "ব্যবহার নির্দেশিকা" থাকা উচিত – আমি এই সময়ে সত্যিই কোনো সতর্কতা খুঁজে পাইনি। আপনাকে যা করতে হবে তা হল আপনার নিজস্ব ধারণাগুলি অনুসরণ করুন, কীবোর্ডে আলতো চাপুন এবং পাঠ্য লিখুন৷ কোন "ঠাট" বা "কৌশল" নেই।

প্রম্পটের মাধ্যমে অঙ্কন তৈরি এবং পরিবর্তনের ধারাবাহিকতা ভিনসেন্ট অঙ্কনের একটি অত্যন্ত গুরুত্বপূর্ণ বিষয়। এটি মডেল ক্ষমতা এবং প্রকৌশল ক্ষমতা উভয়ের সাথে সম্পর্কিত। নির্দেশের সম্মতি এবং ধারাবাহিকতা এত বড় অগ্রগতির আগে, এটি প্রধানত প্রম্পটিংয়ের মাধ্যমে সমাধান করা হয়েছিল, এবং চাপ ছিল ব্যবহারকারীর দিকে ।

অতএব, "মডেলের সাথে মোকাবিলা করতে" আপনাকে শেখানোর জন্য বিভিন্ন প্রম্পট টেমপ্লেট এবং কৌশল থাকবে। কিন্তু এটি এমন নয় যে স্বাভাবিক ভাষা মিথস্ক্রিয়া হওয়া উচিত৷ যখন মডেলটি লোকেদের মুখোমুখি হয়, তখন এটি শুধুমাত্র ব্যবহারকারীর কাছ থেকে সরাসরি নির্দেশনা গ্রহণ করে – লোকেদের প্রথমে কীভাবে প্রম্পট লিখতে হয় তা শিখতে দেয়, যা সত্যিই নিরুৎসাহিতকর৷

জেমিনি এবং ওপেনএআই-এর সাম্প্রতিক আপডেটগুলি ফটো-জেনারেটিং ট্র্যাক, যা কম জনপ্রিয় হয়ে উঠেছে, আবার প্রাণবন্ত হয়ে উঠেছে। তারা একই জিনিসটি সাধারণভাবেও দেখায়: সেই দিনগুলি চলে গেছে যখন কিছু চিত্র পরিবর্তন পণ্যগুলি মডেলের বিভ্রম মোকাবেলায় বোতাম এবং প্রবেশদ্বার যুক্ত করে কাঁচা চিত্রগুলির নিয়ন্ত্রণযোগ্যতা বৃদ্ধি করে ৷

সামঞ্জস্যের সমস্যাটি কেবল ইমেজ তৈরির সমস্যাই নয়, "ইমেজ জেনারেশন ফাংশন ব্যবহার করে" প্রক্রিয়ার ছোটখাটো সমস্যাও সমাধান করে। এক অর্থে, এটি একটি ইঞ্জিনিয়ারিং স্তরের অপ্টিমাইজেশনও।

টেক্সট নির্দেশাবলীর মডেলের সঠিক বোধগম্যতা ব্যবহার করে পরিবর্তন এবং প্রজন্ম অর্জন করা যেতে পারে – এই স্তরে, "মডেল হল পণ্য" এখনও সত্য।

# aifaner এর অফিসিয়াল WeChat পাবলিক অ্যাকাউন্ট অনুসরণ করতে স্বাগতম: aifaner (WeChat ID: ifanr)। যত তাড়াতাড়ি সম্ভব আপনাকে আরও উত্তেজনাপূর্ণ সামগ্রী সরবরাহ করা হবে।

অই ফানার | মূল লিঙ্ক · মন্তব্য দেখুন · সিনা ওয়েইবো