অ্যাপল কীভাবে আপনার আইফোনকে চিরতরে পরিবর্তন করতে পারে তা এখানে

একটি iPhone 15 Pro Max এর পিছনে শুয়ে আছে, এর হোম স্ক্রীন দেখাচ্ছে।
জো মারিং / ডিজিটাল ট্রেন্ডস

গত কয়েক মাস ধরে, অ্যাপল জেনারেটিভ এআই-এর সাথে তার কাজের বিবরণ দিয়ে গবেষণাপত্রের একটি স্থির প্রবাহ প্রকাশ করেছে। এখনও অবধি, অ্যাপল তার গবেষণা ল্যাবে ঠিক কী রান্না করছে সে সম্পর্কে আঁটসাঁট কথা বলেছে, যখন গুজব ছড়িয়েছে যে অ্যাপল আইফোনের জন্য তার জেমিনি এআই লাইসেন্স করার জন্য গুগলের সাথে আলোচনা করছে

তবে আমরা যা আশা করতে পারি তার কয়েকটি টিজার রয়েছে। ফেব্রুয়ারিতে, অ্যাপলের একটি গবেষণা পত্র MLLM-গাইডেড ইমেজ এডিটিং (MGIE) নামে একটি ওপেন-সোর্স মডেলের বিশদ বিবরণ দিয়েছে যা ব্যবহারকারীদের কাছ থেকে প্রাকৃতিক ভাষা নির্দেশাবলী ব্যবহার করে মিডিয়া সম্পাদনা করতে সক্ষম। এখন, Ferret UI এর উপর আরেকটি গবেষণা পত্র এআই সম্প্রদায়কে একটি উন্মাদনায় পাঠিয়েছে।

একটি মোবাইল ব্যবহারকারী ইন্টারফেসের উপাদানগুলিকে আরও ভালভাবে বোঝার জন্য একটি মাল্টিমোডাল AI (যেটি পাঠ্যের পাশাপাশি মাল্টিমিডিয়া সম্পদগুলি বোঝে) স্থাপন করার ধারণাটি। – এবং সবচেয়ে গুরুত্বপূর্ণভাবে, কার্যকরী টিপস প্রদান করা। বর্তমান "পার্লার ট্রিক" স্ট্যাটাসের তুলনায় একজন গড় স্মার্টফোন ব্যবহারকারীর জন্য এআইকে আরও বেশি উপযোগী করে তোলার জন্য ইঞ্জিনিয়ারদের দৌড়ে এটি একটি গুরুত্বপূর্ণ গোলপোস্ট।

সেই দিকে, সবচেয়ে বড় চাপ হল ক্লাউড থেকে জেনারেটিভ AI ক্ষমতাগুলিকে আনপ্লাগ করা, ইন্টারনেট সংযোগের প্রয়োজনীয়তা শেষ করা এবং ডিভাইসে প্রতিটি কাজ স্থাপন করা যাতে এটি দ্রুত এবং নিরাপদ হয়। উদাহরণ স্বরূপ, Google-এর Gemini ধরুন, যেটি Google Pixel এবং Samsung Galaxy S24 সিরিজের ফোনে স্থানীয়ভাবে চলছে – এবং শীঘ্রই, OnePlus ফোন – এবং সারসংক্ষেপ এবং অনুবাদের মতো কাজগুলি সম্পাদন করছে৷

Apple এর Ferret UI কি?

Apple Ferret UI বৈশিষ্ট্য কার্ড.
আপেল

Ferret-UI এর সাথে, Apple আপাতদৃষ্টিতে iOS এর সাথে একটি মাল্টিমডাল এআই মডেলের স্মার্টগুলিকে একত্রিত করার লক্ষ্য রাখে। এই মুহুর্তে, ফোকাস আরও "প্রাথমিক" কাজের উপর রয়েছে যেমন "আইকন স্বীকৃতি, পাঠ্য খুঁজুন এবং উইজেট তালিকা।" যাইহোক, এটি শুধুমাত্র একটি আইফোনের স্ক্রিনে কী প্রদর্শিত হচ্ছে তা বোঝার জন্য নয়, বরং এটি যুক্তিযুক্তভাবে বোঝা এবং এর যুক্তির ক্ষমতার মাধ্যমে ব্যবহারকারীদের দ্বারা উত্থাপিত প্রাসঙ্গিক প্রশ্নের উত্তর দেওয়া।

Ferret UI এর ক্ষমতা বর্ণনা করার সবচেয়ে সহজ উপায় হল AI দ্বারা চালিত একটি বুদ্ধিমান অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) সিস্টেম। "কিউরেটেড ডেটাসেটগুলিতে প্রশিক্ষণের পরে, ফেরেট-ইউআই ইউআই স্ক্রীনগুলির অসামান্য বোধগম্যতা এবং খোলামেলা নির্দেশাবলী কার্যকর করার ক্ষমতা প্রদর্শন করে," গবেষণাপত্রটি নোট করে৷ Ferret UI এর পিছনে থাকা দলটি "যেকোনো রেজোলিউশন" মিটমাট করার জন্য এটিকে টিউন করেছে।

আপনি প্রশ্ন করতে পারেন যেমন "এই অ্যাপটি কি আমার 12 বছরের বাচ্চার জন্য নিরাপদ?" অ্যাপ স্টোরের মাধ্যমে সার্ফিং করার সময়। এই ধরনের পরিস্থিতিতে, AI অ্যাপটির বয়স রেটিং পড়বে এবং সেই অনুযায়ী উত্তর দেবে। কীভাবে উত্তর দেওয়া হবে – পাঠ্য বা অডিও – নির্দিষ্ট করা নেই, কারণ কাগজটিতে সিরি বা কোনও ভার্চুয়াল সহকারীর উল্লেখ নেই, এই বিষয়ে।

আপেল জিপিটি গাছ থেকে খুব বেশি দূরে পড়েনি

অ্যাপল ফেরেট UI ওভারভিউ।
আপেল

কিন্তু ধারণাগুলো অনেক বেশি প্যানোরামিক এবং স্মার্ট। এটিকে জিজ্ঞাসা করুন "আমি কীভাবে একজন বন্ধুর সাথে অ্যাপটি ভাগ করতে পারি?" এবং AI স্ক্রিনে "শেয়ার" আইকনটিকে হাইলাইট করবে। অবশ্যই, এটি আপনাকে স্ক্রিনে কী ফ্ল্যাশ করছে তার একটি সংক্ষিপ্ত বিবরণ দেবে, কিন্তু একই সময়ে, এটি যৌক্তিকভাবে স্ক্রিনের ভিজ্যুয়াল সম্পদগুলিকে বিশ্লেষণ করবে — যেমন বাক্স, বোতাম, ছবি, আইকন এবং আরও অনেক কিছু। এটি একটি বিশাল অ্যাক্সেসিবিলিটি জয়।

আপনি যদি প্রযুক্তিগত পদ শুনতে চান, ভাল, কাগজটি এই ক্ষমতাগুলিকে "উপলব্ধি কথোপকথন," "কার্যকরী অনুমান," এবং "ইন্টার্যাকশন কথোপকথন" হিসাবে উল্লেখ করে। রিসার্চ পেপারের বর্ণনাগুলির মধ্যে একটি প্রকৃতপক্ষে ফেরেট UI সম্ভাবনাগুলিকে নিখুঁতভাবে যোগ করে, এটিকে বর্ণনা করে "প্রথম MLLM যা UI স্ক্রিনের জন্য নির্দিষ্ট সুনির্দিষ্ট রেফারিং এবং গ্রাউন্ডিং কাজগুলি সম্পাদন করার জন্য ডিজাইন করা হয়েছে, যখন নিখুঁতভাবে ব্যাখ্যা করা এবং খোলা-সম্পন্ন ভাষার নির্দেশাবলীর উপর কাজ করা হয়েছে।"

Apple Ferret UI স্ক্রীন-সচেতন প্রশ্নের উত্তর দিচ্ছে।
আপেল

ফলস্বরূপ, এটি স্ক্রিনশটগুলি বর্ণনা করতে পারে, ট্যাপ করার সময় একটি নির্দিষ্ট সম্পদ কী করে তা বলতে পারে এবং স্ক্রিনে কিছু স্পর্শ ইনপুটগুলির সাথে ইন্টারেক্টিভ কিনা তা নির্ধারণ করতে পারে। Ferret UI শুধুমাত্র একটি ইন-হাউস প্রকল্প নয়। পরিবর্তে, যুক্তি এবং বর্ণনা অংশের জন্য, এটি OpenAI-এর GPT-4 প্রযুক্তির উপর নির্ভর করে, যা ChatGPT-কে ক্ষমতা দেয়, সাথে অন্যান্য কথোপকথনমূলক পণ্যগুলির একটি সম্পূর্ণ গুচ্ছ সহ।

উল্লেখযোগ্যভাবে, কাগজে প্রস্তাবিত বিশেষ সংস্করণটি একাধিক আকৃতির অনুপাতের জন্য উপযুক্ত। এর অন-স্ক্রীন বিশ্লেষণ এবং যুক্তির ক্ষমতা ছাড়াও, গবেষণা পত্রটি কয়েকটি উন্নত ক্ষমতার বর্ণনা করে যা কল্পনা করা বেশ আশ্চর্যজনক। উদাহরণস্বরূপ, নীচের স্ক্রিনশটটিতে, এটি কেবল হাতে লেখা পাঠ্য বিশ্লেষণ করতে সক্ষম বলে মনে হচ্ছে না, তবে ব্যবহারকারীর ভুল বানান স্ক্রাইবল থেকে সঠিক সংস্করণের ভবিষ্যদ্বাণীও করতে পারে৷

Apple Ferret UI পাঠ্য শনাক্তকরণ।
আপেল

এমআইটি সঠিকভাবে পাঠ্য পড়তে সক্ষম যা উপরের বা নীচের প্রান্তে কাটা হয় এবং অন্যথায় একটি উল্লম্ব স্ক্রোল প্রয়োজন হয়। যাইহোক, এটি নিখুঁত নয়। কখনও কখনও, এটি একটি ট্যাব হিসাবে একটি বোতামকে ভুল শনাক্ত করে এবং একটি একক ব্লকে চিত্র এবং পাঠ্যকে একত্রিত করে এমন সম্পদগুলিকে ভুলভাবে পড়ে।

OpenAI-এর GPT-4V মডেলের বিপরীতে, যখন অন-স্ক্রীন বিষয়বস্তু সম্পর্কিত প্রশ্ন জিজ্ঞাসা করা হয় তখন Ferret UI কথোপকথনের ইন্টারঅ্যাকশন আউটপুটগুলির একটি চিত্তাকর্ষক স্তর সরবরাহ করে। নীচের ছবিতে দেখা যায়, Ferret UI আরও সংক্ষিপ্ত এবং সহজবোধ্য উত্তর পছন্দ করে, যখন GPT-4V আরও বিস্তারিত প্রতিক্রিয়া লেখে।

পছন্দটি সাবজেক্টিভ, কিন্তু যদি আমি একটি AI কে জিজ্ঞাসা করি, "স্ক্রীনে প্রদর্শিত স্লিপারটি আমি কীভাবে কিনব," আমি যতটা সম্ভব কম শব্দে সঠিক পদক্ষেপগুলি দিতে পছন্দ করব। কিন্তু Ferret UI শুধুমাত্র জিনিসগুলিকে সংক্ষিপ্ত রাখার জন্য নয়, নির্ভুলতায়ও প্রশংসনীয়ভাবে পারফর্ম করেছে। উপরে উল্লিখিত টাস্কে, কথোপকথনের আউটপুটগুলিতে Ferret UI 91.7% স্কোর করেছে, যখন GPT-4V 93.4% নির্ভুলতার সাথে সামান্য এগিয়ে ছিল।

আকর্ষণীয় সম্ভাবনার একটি মহাবিশ্ব

Apple Ferret UI শর্টকাট
আপেল

Ferret UI AI এর একটি চিত্তাকর্ষক আত্মপ্রকাশকে চিহ্নিত করে যা অন-স্ক্রিন ক্রিয়াকলাপকে বোঝাতে পারে। এখন, আমরা এখানে সম্ভাবনাগুলি সম্পর্কে খুব উত্তেজিত হওয়ার আগে, আমরা নিশ্চিত নই যে অ্যাপল এটিকে iOS-এর সাথে একীভূত করার লক্ষ্যে ঠিক কতটা লক্ষ্য করে, বা একাধিক কারণে এটি আদৌ বাস্তবায়িত হবে কিনা। ব্লুমবার্গ সম্প্রতি রিপোর্ট করেছে যে অ্যাপল এআই রেসে পিছিয়ে থাকার বিষয়ে সচেতন ছিল এবং অ্যাপল ইকোসিস্টেমে নেটিভ জেনারেটিভ এআই পণ্যের অভাব দ্বারা এটি বেশ স্পষ্ট।

প্রথমত, অ্যাপলের গুজব এমনকি গুগল বা ওপেনএআই-এর সাথে জেমিনি লাইসেন্সিং চুক্তির কথা বিবেচনা করা একটি লক্ষণ যে অ্যাপলের নিজস্ব কাজ প্রতিযোগিতার মতো একই স্তরে নয়। এইরকম পরিস্থিতিতে, Google ইতিমধ্যেই জেমিনি (যা এখন ফোনে Google অ্যাসিস্ট্যান্ট প্রতিস্থাপন করার চেষ্টা করছে) এর সাথে কাজ করেছে তা আইফোন এবং আইপ্যাডে হাফ-বেকড এআই পণ্য ঠেলে দেওয়ার চেয়ে বুদ্ধিমানের কাজ হবে।

অ্যাপলের স্পষ্টভাবে উচ্চাভিলাষী ধারনা রয়েছে এবং সেগুলির উপর কাজ চালিয়ে যাচ্ছে, যেমনটি একাধিক গবেষণা পত্র জুড়ে বিশদ পরীক্ষা দ্বারা প্রদর্শিত হয়েছে। যাইহোক, এমনকি যদি Apple iOS-এর মধ্যে Ferret UI-এর প্রতিশ্রুতিগুলি পূরণ করতে সক্ষম হয়, তবুও এটি অন-ডিভাইস জেনারেটিভ AI-এর উপরিভাগ বাস্তবায়নের সমান হবে।

Apple Ferret UI অন-স্ক্রীন সামগ্রী পড়ছে।
আপেল

যাইহোক, কার্যকরী ইন্টিগ্রেশন, এমনকি যদি সেগুলি শুধুমাত্র ইন-হাউস প্রি-ইন্সটল করা অ্যাপের মধ্যে সীমাবদ্ধ থাকে, তা আশ্চর্যজনক ফলাফল দিতে পারে। উদাহরণস্বরূপ, ধরা যাক আপনি একটি ইমেল পড়ছেন যখন AI ইতিমধ্যেই ব্যাকগ্রাউন্ডে অন-স্ক্রীন সামগ্রী মূল্যায়ন করেছে। আপনি যখন মেল অ্যাপে বার্তাটি পড়ছেন, আপনি ভয়েস কমান্ডের মাধ্যমে এআই-কে এটি থেকে একটি ক্যালেন্ডার এন্ট্রি করতে এবং এটি আপনার সময়সূচীতে সংরক্ষণ করতে বলতে পারেন।

এটি অগত্যা একটি সুপার-জটিল মাল্টিস্টেপ কাজ হতে হবে না যাতে একাধিক অ্যাপ জড়িত থাকে। বলুন আপনি একটি রেস্তোরাঁর Google অনুসন্ধান জ্ঞান পৃষ্ঠাটি দেখছেন, এবং কেবল "স্থানে কল করুন" বলার মাধ্যমে AI অন-স্ক্রীন ফোন নম্বরটি পড়ে, এটি ডায়লারে অনুলিপি করে এবং একটি কল শুরু করে৷

অথবা, ধরুন আপনি 6 এপ্রিল প্রকাশিত একটি ফিল্ম সম্পর্কে একটি টুইট পড়ছেন এবং আপনি AI কে ফান্ডাঙ্গো অ্যাপে নির্দেশিত একটি শর্টকাট তৈরি করতে বলেছেন। অথবা, ভিয়েতনামের একটি সমুদ্র সৈকতের একটি পোস্ট আপনার পরবর্তী একক ভ্রমণকে অনুপ্রাণিত করে, এবং একটি সাধারণ "আমাকে কন ডাই-এর জন্য একটি টিকিট বুক করুন" আপনাকে স্কাইস্ক্যানার অ্যাপে নিয়ে যাবে যেখানে আপনার সমস্ত এন্ট্রি ইতিমধ্যেই পূরণ করা হয়েছে৷

আরে সিরি
নাদিম সারোয়ার/ডিজিটাল ট্রেন্ডস

কিন্তু এই সব করা সহজ এবং একাধিক ভেরিয়েবলের উপর নির্ভর করে, যার মধ্যে কিছু অ্যাপলের নিয়ন্ত্রণের বাইরে হতে পারে। উদাহরণস্বরূপ, পপ-আপ এবং অনুপ্রবেশকারী বিজ্ঞাপনে ধাঁধাঁযুক্ত ওয়েবপৃষ্ঠাগুলি Ferret UI-এর পক্ষে তার কাজটি করা প্রায় অসম্ভব করে তুলবে৷ কিন্তু ইতিবাচক দিক থেকে, আইওএস ডেভেলপাররা অ্যাপল দ্বারা নির্ধারিত ডিজাইন নির্দেশিকাগুলি কঠোরভাবে মেনে চলে, তাই সম্ভবত ফেরেট ইউআই আইফোন অ্যাপগুলিতে আরও দক্ষতার সাথে তার যাদু করবে।

এটি এখনও একটি চিত্তাকর্ষক জয় হবে। এবং যেহেতু আমরা OS স্তরে শক্তভাবে বেক করা অন-ডিভাইস বাস্তবায়নের কথা বলছি, তাই এটি অসম্ভাব্য যে অ্যাপল সুবিধার জন্য চার্জ করবে, মূলধারার জেনারেটিভ এআই পণ্য যেমন ChatGPT Plus বা Microsoft Copilot Pro এর বিপরীতে। iOS 18 শেষ পর্যন্ত কি আমাদের AI স্মার্টগুলিতে সুপারচার্জ করা একটি নতুন কল্পনা করা iOS-এর আভাস দেবে ? আমাদের জানার জন্য অ্যাপলের ওয়ার্ল্ডওয়াইড ডেভেলপারস কনফারেন্স 2024 পর্যন্ত অপেক্ষা করতে হবে।