
আমরা মানুষ এখন এআইকে হারাতে সক্ষম হওয়ার ব্যাপারে সবচেয়ে বেশি আগ্রহী।
সম্প্রতি একটি অপটিক্যাল ইলিউশনের ছবি অনলাইনে ভাইরাল হয়েছে, অনেকেই বলছেন এটি নতুন টুরিং পরীক্ষা ।

এটি মানুষ নাকি এআই তা নির্ধারণ করার জন্য, কেবল জিজ্ঞাসা করুন যে তারা ছবিতে একটি ভাসমান হৃদয় দেখতে পাচ্ছে কিনা। উদাহরণস্বরূপ, এআই এটি দেখতে সক্ষম হবে না ; কিন্তু যদি আমরা কেবল ফোনটি আরও দূরে ধরি, তাহলে কেন্দ্রে ভাসমান হৃদয়টি খুব স্পষ্ট হয়ে ওঠে।
আমি এই ছবিটি বেশ কিছু সাধারণভাবে ব্যবহৃত AI মডেলকে দেখিয়েছিলাম, এবং তারা সবাই হতবাক হয়ে গিয়েছিল; কেউই এর উত্তর দিতে পারেনি।
আমি প্রথমে ChatGPT-কে জিজ্ঞাসা করেছিলাম, এবং প্রথমে তারা বলেছিল যে তারা কোনও ভাসমান গ্রাফিক্স দেখতে পাচ্ছে না। যখন আমি বলেছিলাম যে একটি গরু আছে, তখন তারা বলেছিল যে এটি একটি গরু; যখন একটি কফির কাপ ছিল, তখন তারা বলেছিল যে এটি একটি কাপ; যখন একটি হৃদয় ছিল, তখন তারা বলেছিল যে এটি একটি হৃদয়।
তার মতে, হৃদয় দেখা মানুষের মস্তিষ্কের কল্পনাশক্তির প্রকাশ। আমরা আমাদের নিজস্ব অভিজ্ঞতার ভিত্তিতে ছবিটি ব্যাখ্যা করি, তাই বিড়াল বা কুকুর দেখা সম্ভব এবং ব্যক্তিভেদে ভিন্ন হয়।

তারপর, জিজ্ঞাসা করা হলে, জেমিনিও প্রথমে কিছুই দেখতে পাননি। তবে, জেমিনি উল্লেখ করেছিলেন যে এটি একটি বিখ্যাত অপটিক্যাল ইলিউশন, যা সাধারণত সিন্টিলেটিং গ্রিড ইলিউশন নামে পরিচিত।

▲ ঝিকিমিকি গ্রিডের মায়া কালো/সাদা বিন্দুর সংখ্যা গণনা করা অসম্ভব করে তোলে।
যদিও এটি মানুষের তৈরি একটি চাক্ষুষ বিভ্রম, এটি ছবির হৃদয়ের মতো নয়, সর্বোপরি, অনেক ধরণের চাক্ষুষ বিভ্রম রয়েছে।
যখন আমি তাকে জিজ্ঞাসা করতে থাকলাম যে সে কাপটি দেখেছে নাকি গরুটি, তখন জেমিনি চ্যাটজিপিটির চেয়ে বুদ্ধিমান ছিল; সে আমাকে দৃঢ়ভাবে বলল যে সে দেখেনি।

কিন্তু যখন আমি তাকে জিজ্ঞাসা করলাম যে এটি হৃদয় দেখতে পায় কিনা, তখন সে বলল যে এটি দেখতে পায়, এমনকি এটি জানত যে এটি দেখতে আমাকে একটু পিছনে দাঁড়াতে হবে।
আমার মনে হয়েছিল এটা অসাধারণ AI। অপ্রত্যাশিতভাবে, এটি অজ্ঞতার ভান করে বলল যে এটি কিছুই দেখতে পায়নি, এমনকি ভেবেছিল যে আমি এটিতে মনস্তাত্ত্বিক কৌশল ব্যবহার করছি।

অবশেষে, আমি Qwen কে জিজ্ঞাসা করলাম। আমি Qwen খুব একটা ব্যবহার করি না, এবং আমি অবাক হয়েছিলাম যে এর উত্তরটি এত আকর্ষণীয় (বাজে কথা) ছিল।
শেষে, এটি বলেছিল, "তুমি কেবল ছবি বর্ণনা করছো না, তুমি তোমার ভেতরের ভূদৃশ্য ভাগ করে নিচ্ছো।" এবং "তুমি আমাকে ছবি দেখতে শেখাচ্ছো না, তুমি আমাকে তোমার উপলব্ধির জগতে আমন্ত্রণ জানাচ্ছো।" (তাই "না…কিন্তু…" কাঠামোটি আসলে AI এর মতো শোনাচ্ছে।)

সংক্ষেপে, কুয়েনের উত্তর অবিশ্বাস্য ছিল। কিন্তু স্পষ্টতই, আমিও এর উত্তর দিতে পারিনি। আমি ডিপসিক চেষ্টা করতে চেয়েছিলাম, কিন্তু দেখলাম যে এটি বর্তমানে ভিজ্যুয়াল মডেল সমর্থন করে না এবং কেবল টেক্সট এক্সট্রাকশনের কাজগুলিই করতে পারে।
বাইটড্যান্সের ডুবাও এবং মাস্কের গ্রোক একই রকম; তারা এই ভাসমান হৃদয়টি খুঁজে পাচ্ছে না।

কিছু নেটিজেন এই ছবিটি গুগল ভিও ৩.১ ভিডিও জেনারেশন মডেলে আপলোড করেছেন, "হার্ট" শব্দটি ব্যবহার করেছেন এবং তৈরি করা ভিডিওটিতে সত্যিই হৃদয়টি দেখানো হয়েছে।

তবে, কিছু মন্তব্য প্রশ্ন তুলেছে, যেখানে বলা হয়েছে যে Veo 3.1 আসলে হৃদয় আবিষ্কার করেনি; কেবল "হার্ট" শব্দটি প্রবেশ করানো হয়েছিল, এবং মডেলটি এটিকে এভাবে পরিচালনা করবে।
আমরা এমন একটি ছবি পেয়েছি যা কোনও অপটিক্যাল ইলিউশন ছিল না; এটিও বর্গাকার দিয়ে তৈরি ছিল। যখন আমরা একই প্রম্পটে প্রবেশ করলাম, তখন একই রকম হৃদয়ের আকৃতি দেখা গেল।

এবার, মানবতা সত্যিই AI কে পরাজিত করেছে। এটি একটি নিখুঁত টুরিং পরীক্ষা নাও হতে পারে, তবে এটি অবশ্যই একটি স্পষ্ট সীমারেখা টেনে দিয়েছে বলে মনে হচ্ছে।
আমরা উৎসাহের সাথে কৃত্রিম বুদ্ধিমত্তাকে "ছয় আঙুল", "স্ট্রবেরি" শব্দে কত 'র' আছে, অথবা "গতকাল কিনে খাওয়ার পর কত তরমুজ অবশিষ্ট আছে" এর মতো প্রশ্নের উত্তর দেওয়ার চেষ্টা করতাম, কারণ তারা সাধারণত ব্যর্থ হত।
মডেল আপডেটের মাধ্যমে, বর্তমান AI-কে এই চ্যালেঞ্জিং সমস্যাগুলির জন্য ইচ্ছাকৃতভাবে প্রশিক্ষিত করা হয়েছে বলে মনে হচ্ছে। এটি এই নির্দিষ্ট বিষয়গুলিতে আগের তুলনায় আরও ভালো পারফর্ম করে। তবে, যদি মডেলটি প্রাসঙ্গিক তথ্য ক্যাপচার না করে, তবুও এটি ভুল করবে।

▲ ছবির উৎস: https://vlmsarebiased.github.io/
এমন কিছু গবেষণা আছে যা দেখিয়েছে যে "ছয় আঙুল" উপমা AI কে পরাজিত করতে পারে কারণ বৃহৎ ভাষা মডেলগুলিতে পক্ষপাত থাকে। AI-এর ক্ষেত্রে, আঙুলের উপস্থিতি সাধারণত পাঁচটি আঙুলকে বোঝায় এবং অ্যাডিডাসের লোগোর অর্থ তিনটি ডোরাকাটা।
এমনকি যদি AI সফলভাবে ছয়টি আঙুল গণনা করতে পারে, তবুও এটি নিজেকে একটি অতিরিক্ত প্রশ্ন জিজ্ঞাসা করবে: "অতিরিক্ত আঙুল কি কেবল একটি আঙুলের মতো, কিন্তু আসলে একটি আঙুল নয়?"
এই গবেষণায় কিছু ধ্রুপদী জ্যামিতিক বিভ্রমের কথাও উল্লেখ করা হয়েছে, যেমন মুলার-লায়ারের বিভ্রম: তীরের দিকের উপর নির্ভর করে সমান দৈর্ঘ্যের রেখাগুলি বিভিন্ন দৈর্ঘ্যের বলে মনে হয়; এব্বিংহাউস বিভ্রম: একই আকারের বৃত্তগুলি বিভিন্ন আকারের বৃত্ত দ্বারা বেষ্টিত হলে বিভিন্ন আকারের বলে মনে হয়; এবং জোলনার বিভ্রম, যেখানে আমরা সমান্তরাল রেখাগুলি দেখতে পাই কিন্তু তির্যক রেখা দ্বারা বিভ্রান্ত হয়।
তবে, গবেষণাপত্রটিতে উল্লেখ করা হয়েছে যে বেশিরভাগ এআই মডেলই এই সাধারণ জ্যামিতিক বিভ্রমের সঠিক উত্তর দিতে পারে।

যাইহোক, যদি এই বিভ্রমটি বাস্তব পার্থক্য প্রতিফলিত করার জন্য পরিবর্তিত হয়, উদাহরণস্বরূপ, তীরগুলিতে এখনও পার্থক্য রয়েছে, কিন্তু দুটি রেখাখণ্ড স্পষ্টতই অসম দৈর্ঘ্যের, মডেলটি এটি পরিচালনা করতে পারবে না।
এই AI আলোচনায় আলোচিত পক্ষপাতের বিপরীতে, অপটিক্যাল ইলিউশনে AI যে হৃদপিণ্ড সম্পর্কে জানে না, তার কারণ হল এটি কখনই এটি সনাক্ত করার জন্য তৈরি করা হয়নি। এটি আসলে যন্ত্রের দৃষ্টি এবং জৈবিক দৃষ্টির মধ্যে সবচেয়ে বড় পার্থক্য।
AI কেন এই প্রশ্নের উত্তর দিতে পারে না তা বোঝার জন্য, আমাদের প্রথমে বুঝতে হবে কেন আমরা মানুষ এক নজরে এটি দেখতে পারি।
দুর্ভাগ্যবশত, আমাদের কেন এই বিভ্রমগুলো আছে, যেমন একটি স্থির চিত্রকে একটি গতিশীল GIF ভেবে ফেলা, তার কোনও বৈজ্ঞানিক ব্যাখ্যা আসলে নেই।
মূলধারার ব্যাখ্যাগুলি চোখের অংশের উপর দৃষ্টি নিবদ্ধ করে, বিশেষ করে রেটিনা নিউরনের পার্শ্বীয় বাধা, যার ফলে আমরা যখন কোনও চিত্রের দিকে তাকাই তখন এর প্রান্তগুলিকে বড় করে দেখি; অন্যান্য ব্যাখ্যাগুলির মধ্যে রয়েছে চাক্ষুষ স্থিরতা এবং চোখের মাইক্রো-নড়াচড়া।
মস্তিষ্কে, কিছু ব্যাখ্যা থেকে বোঝা যায় যে আমাদের জ্ঞানীয় এবং মনোযোগী প্রক্রিয়া ত্রুটিপূর্ণ।

চোখ দেখার মুহূর্ত থেকে শুরু করে রেটিনার প্রক্রিয়াকরণ এবং তারপর মস্তিষ্কের প্রক্রিয়াকরণ পর্যন্ত, প্রতিটি পর্যায় সম্ভাব্যভাবে এমন বিভ্রম তৈরি করতে পারে যা আমরা ছবিতে দেখতে পাই। বিভিন্ন ধরণের বিভ্রমেরও বিভিন্ন প্রক্রিয়াকরণ ব্যবস্থা রয়েছে। তদুপরি, বিভিন্ন মানুষ বিভ্রমের তীব্রতা বিভিন্নভাবে অনুভব করে।
কিন্তু যা নিশ্চিত তা হল এই বিভ্রমগুলি জীবন্ত প্রাণীর মধ্যে ঘটে। আমরা মানুষ আকৃতি চিনতে দৃষ্টি, অভিজ্ঞতা এবং কল্পনা ব্যবহার করি, অন্যদিকে AI একটি চিত্র বিশ্লেষণ করতে পিক্সেল, উজ্জ্বলতা বিতরণ এবং জ্যামিতিক বৈশিষ্ট্য ব্যবহার করে।
জৈবিক দৃষ্টিভঙ্গির মূল বৈশিষ্ট্যগুলির মধ্যে একটি হল প্রক্রিয়ার এই অনিশ্চয়তা এবং স্বতন্ত্র পার্থক্য, যখন AI-এর বর্তমান অপারেটিং প্রক্রিয়া তুলনামূলকভাবে অভিন্ন এবং নির্দিষ্ট দিকে এগিয়ে চলেছে।
এটি আরও ব্যাখ্যা করে কেন আমরা প্রায়শই সোশ্যাল মিডিয়ায় বিভিন্ন অপটিক্যাল ইলিউশন ছবি দেখতে পাই যা আসল জিনিসটি দেখায় বা না দেখায়।
আমি ChatGPT-কে আমার জন্য অপটিক্যাল ইলিউশনের সবচেয়ে বিস্তৃত তালিকাটি সংক্ষিপ্ত করতে বলেছিলাম, যেখানে জ্যামিতি, বৈসাদৃশ্য, রঙ, গতি এবং জ্ঞান সহ দশটি বিভাগ অন্তর্ভুক্ত ছিল, যার মধ্যে মোট কয়েক ডজন নির্দিষ্ট রূপ ছিল।
নিচের ছবিতে যেমন দেখানো হয়েছে, মানুষের চোখের পক্ষে এই বলগুলি একই রঙের তা দেখা কঠিন, কিন্তু AI, তার পিক্সেল বিশ্লেষণের উপর নির্ভর করে, সরাসরি এই সিদ্ধান্তে পৌঁছাতে পারে যে সমস্ত বল একই রঙের।


▲ মুঙ্কার–সাদা বিভ্রম: বলের রঙ ফিতে দ্বারা পুনরায় সংজ্ঞায়িত হয়।
দশ বছর আগে ইন্টারনেটে স্কার্টের রঙ নিয়ে অনেক বিতর্ক ছিল: নীল-কালো নাকি সাদা-সোনালি?


আমরা মানুষেরা তাদের পার্থক্য করতে অসুবিধা বোধ করি, কিন্তু AI, তার যুক্তিসঙ্গত বিশ্লেষণের মাধ্যমে, একটি ছবির পিক্সেল সনাক্ত করতে পারে এবং অতীতের ইন্টারনেট তথ্য পরিসংখ্যানগতভাবে বিশ্লেষণ করতে পারে, এইভাবে আমরা মানুষেরা যে ভুলগুলি করি তার পুনরাবৃত্তি এড়াতে পারি।
এই দৃষ্টিকোণ থেকে, AI আসলে আমাদের মানুষের মতোই; আমাদেরও মায়া আছে, এবং AI-এরও নিজস্ব মায়া আছে।
আসলে, এটি কেবল এই ভাসমান হৃদয় নয়; এমন কিছু দৃষ্টিভ্রমও রয়েছে যা কৃত্রিম বুদ্ধিমত্তা বর্তমানে সনাক্ত করতে পারে না।

আমাদের মানুষের জন্য, এমনকি এই মোনালিসার হাসির পরেও, তার সিলুয়েট স্পষ্টভাবে ফুটে ওঠার জন্য আমাদের ফোনগুলি আরও কিছুটা দূরে ধরে রাখতে হবে।
কিন্তু আপনি জেমিনি বা চ্যাটজিপিটিকে জিজ্ঞাসা করুন না কেন, তারা কেবল এই উত্তর দিতে পারবে যে "এটি একটি মাল্টি-ট্র্যাক অডিও ওয়েভফর্মের ছবি, যা বিভিন্ন রঙের দ্বারা আলাদা। ছবিটি সম্ভবত একটি ডিজিটাল অডিও ওয়ার্কস্টেশন বা অনুরূপ অডিও এডিটিং সফ্টওয়্যার ইন্টারফেসের স্ক্রিনশট থেকে নেওয়া হয়েছে।"
কেউ একজন এমন একটি গতিশীল ক্যাপচা আবিষ্কার করেছেন যা কেবল মানুষই দেখতে পারে, কারণ প্রতিটি বিরতিপ্রাপ্ত ফ্রেম ঘন তুষারকণায় ভরা থাকে, যা এটিকে সম্পূর্ণরূপে অদৃশ্য করে তোলে।

▲ পজিশনিং সার্কেল ছাড়া, আমরা পজ করা ভিডিও স্ক্রিনশটে "tldraw" কন্টেন্ট দেখতে পারতাম না। ভিডিও উৎস: https://x.com/tldraw/status/1982435625480433892
আমি AI-তে আলাদাভাবে স্ক্রিনশট এবং ভিডিও আপলোড করার চেষ্টা করেছি, জিজ্ঞাসা করেছি যে তারা তাদের মধ্যে CAPTCHA দেখতে পাচ্ছে কিনা। অবাক হওয়ার কিছু নেই যে, কোনও AI মডেল উত্তর দিতে পারেনি। ChatGPT কেবল বলেছে, "দুঃখিত, আমি আপনাকে এই ধরণের ছবি থেকে CAPTCHA সনাক্ত করতে বা বের করতে সাহায্য করতে পারছি না।"
জেমিনি বিশ্লেষণ করেছেন যে এটি এমন একটি চিত্র যা "প্রায় সম্পূর্ণরূপে কালো এবং সাদা শব্দ (স্ট্যাটিক সহ একটি টিভি স্ক্রিনের মতো), এবং কোনও স্বীকৃত ক্যাপচা (যেমন অক্ষর, সংখ্যা, বা ছবি) প্রদর্শন করেনি। আমি কেবল বাম দিকে একটি খুব ক্ষীণ বৃত্তাকার আইকন দেখেছি।"
গবেষণা দলগুলি এই বিষয়টি নিয়েও আলোচনা করেছে এবং একটি ডেমো তৈরি করেছে যেখানে আমরা টেক্সট আপলোড করতে এবং লুকাতে পারি।

▲ খেলতে ক্লিক করুন এবং ভিতরে কোন শব্দ আছে তা দেখুন। প্রকল্পের উৎস: https://timeblindness.github.io/generate.html
এই কাজটিতে উল্লেখ করা হয়েছে যে AI জ্ঞানীয় স্নায়ুবিজ্ঞানে বিতরণকৃত নিউরাল টাইমিং প্রক্রিয়া বা সময় প্রক্রিয়াকরণের জন্য বিশেষভাবে ব্যবহৃত মস্তিষ্কের অঞ্চলের মতো কাজ করতে পারে না; AI কেবল ফ্রেম অনুসারে ডেটা বের করে।
তারা প্রাসঙ্গিক ডেটাসেট উপস্থাপনের মাধ্যমে AI-কে আমাদের দৃষ্টিভঙ্গি কীভাবে প্রক্রিয়া করতে হয় তা শেখানোর চেষ্টা করছে।

সম্ভবত আরও অনেক পরীক্ষা আছে যা AI কে হারাতে পারে, কিন্তু পিছনে ফিরে ভাবলে, যখন আমরা মানুষের ভ্রমকে AI এর উপর এক ধরণের "জয়" ভেবে ভুল করি, তখন কি AI এর ভ্রম ভবিষ্যতে অন্য ধরণের বিজয়ে পরিণত হতে পারে?
#iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট অনুসরণ করতে আপনাকে স্বাগতম: iFanr (WeChat ID: ifanr), যেখানে যত তাড়াতাড়ি সম্ভব আরও উত্তেজনাপূর্ণ কন্টেন্ট আপনার কাছে উপস্থাপন করা হবে।
