মাইক্রোসফ্ট এআই এর ডায়াগনস্টিক নির্ভুলতা মানব ডাক্তারদের তুলনায় 4 গুণ বেশি। ভবিষ্যতে একজন ডাক্তারের সাথে দেখা করার আগে আমাদের কি এটি জিজ্ঞাসা করা উচিত?

চারবার, এআই ডাক্তারের ডায়াগনস্টিক নির্ভুলতা মানুষের ডাক্তারদের চেয়ে অনেক বেশি।

এটি বিশ্বাস করা একটু কঠিন হতে পারে, তবে মাইক্রোসফ্ট কৃত্রিম বুদ্ধিমত্তা দল সম্প্রতি একটি AI ডায়াগনস্টিক সমন্বয় সিস্টেম MAI-DxO (MAI ডায়াগনস্টিক অর্কেস্ট্রেটর) প্রকাশ করেছে, যা সত্যিই এটি করে।

এটি নিউ ইংল্যান্ড জার্নাল অফ মেডিসিনে সাপ্তাহিক প্রকাশিত 304 টি বাস্তব জটিল ক্ষেত্রে বেঞ্চমার্ক করা হয়েছিল। পরীক্ষার ফলাফল 85.5% এর নির্ভুলতার হার দেখিয়েছে।

এই মানদণ্ডটি আর একটি পরীক্ষামূলক কাগজ নয় যা একা মুখস্থ করে সম্পন্ন করা যেতে পারে, তবে মাইক্রোসফ্ট দ্বারা তৈরি একটি একেবারে নতুন মূল্যায়ন মান, "সিকুয়েন্সিয়াল ডায়াগনসিস বেঞ্চ" (এসডি বেঞ্চ)। এটি প্রকৃত রোগ নির্ণয় এবং চিকিত্সা প্রক্রিয়ার ইন্টারেক্টিভ চ্যালেঞ্জগুলিকে অত্যন্ত পুনরুদ্ধার করে:

  1. রোগীর লক্ষণগুলির প্রাথমিক বর্ণনা দিয়ে শুরু করুন।
  2. একাধিক রাউন্ড প্রশ্ন এবং বিভিন্ন পরীক্ষা-নিরীক্ষার মাধ্যমে রোগীর অবস্থার তথ্য ধীরে ধীরে সংগ্রহ করা হয়।
  3. প্রতিটি পরিদর্শনের জন্য, পরিদর্শন আইটেমের খরচ রেকর্ড করুন; প্রয়োজনীয়তা এবং খরচ মূল্যায়ন.
  4. একটি চূড়ান্ত রোগ নির্ণয় দিন।

একই 304টি জটিল মামলার মুখোমুখি হয়ে, মাইক্রোসফ্ট মার্কিন যুক্তরাষ্ট্র এবং যুক্তরাজ্য থেকে 5 থেকে 20 বছরের ক্লিনিকাল অভিজ্ঞতার সাথে আরও 21 জন অনুশীলনকারী ডাক্তারকে বেছে নিয়েছে। পরীক্ষার ফলাফল দেখিয়েছে যে প্রকৃত ডাক্তারদের গড় নির্ভুলতা ছিল মাত্র 20%, যা "AI ডাক্তারদের" ব্যবধানের চারগুণ।

একই সময়ে, মানব ডাক্তারদের সাথে তুলনা করে, এই "AI ডাক্তার" কম অপ্রয়োজনীয় পরীক্ষার আদেশ দিয়েছেন, 20%-70% দ্বারা ডায়াগনস্টিক খরচ কমিয়েছেন।

একটি অনুক্রমিক ডায়াগনস্টিক বেঞ্চমার্ক পরীক্ষার একটি চিত্র, যেখানে দারোয়ান ডায়াগনস্টিক এজেন্টদের কাছ থেকে তথ্যের অনুরোধে সাড়া দেয় এবং মূল্যায়ন মডেল ডায়গনিস্টিক এজেন্টদের চূড়ান্ত রোগ নির্ণয় এবং কেস রিপোর্টের নির্ভুলতা মূল্যায়ন করে।

▲ক্রমিক ডায়গনিস্টিক বেঞ্চমার্ক পরীক্ষার ভূমিকা ডায়াগ্রাম। "দারোয়ান" ডায়াগনস্টিক এজেন্টদের কাছ থেকে তথ্যের অনুরোধে সাড়া দেয় এবং মূল্যায়ন মডেল ডায়াগনস্টিক এজেন্টের চূড়ান্ত রোগ নির্ণয় এবং কেস রিপোর্টের নির্ভুলতা মূল্যায়ন করে।

কিভাবে MAI-DxO মানুষের ডাক্তারদের তুলনায় চারগুণ বেশি নির্ভুলতার হার অর্জন করে? এটি একটি নতুন উদীয়মান বৃহৎ ভাষার মডেল নয়, বা এটি একটি একক মডেলের উপর নির্ভর করে না।

MAI-DxO হল এমন একটি সিস্টেম যা বাস্তবে একাধিক ডাক্তারের সহযোগিতামূলক রোগ নির্ণয়ের প্রক্রিয়াকে অনুকরণ করে। বর্তমান বৃহৎ ভাষার মডেলের ক্রমাগত বিকাশের জন্য ধন্যবাদ, MAI-DxO সিস্টেমে, পাঁচটি ভিন্ন চিকিৎসা ভূমিকা পালন করার জন্য বিভিন্ন ভাষার মডেল রয়েছে।

এই চিকিৎসার ভূমিকার মধ্যে রয়েছে হাইপোথিসিস চিকিত্সক যিনি বিভিন্ন ফলাফলের উপর অনুমান করেন, নির্বাচন চিকিত্সক, চ্যালেঞ্জ চিকিত্সক যিনি বর্তমান ডায়াগনস্টিক অনুমান নিয়ে প্রশ্ন করেন, খরচ ব্যবস্থাপনা চিকিত্সক যিনি অপ্রয়োজনীয় পরীক্ষাগুলি এড়িয়ে যান এবং চেকলিস্ট চিকিত্সক যিনি নিশ্চিত করেন যে ডায়াগনস্টিক পদক্ষেপ এবং নির্বাচনের যুক্তি সামঞ্জস্যপূর্ণ।

এই "চিকিৎসকরা" সহযোগিতামূলকভাবে কাজ করে, একটি মানব মেডিক্যাল টিমের কর্মপ্রবাহকে সম্পূর্ণরূপে অনুকরণ করে এবং একটি একক এআই মডেলের জটিল রোগ নির্ণয়ের ক্ষেত্রে যে ত্রুটিগুলি থাকতে পারে তা পূরণ করে।

MAI-DxO সিস্টেম ওভারভিউ

▲MAI-DxO সিস্টেম ওভারভিউ

উপরে বর্ণিত সিস্টেম ওভারভিউ ডায়াগ্রামে যেমন দেখানো হয়েছে, MAI-DxO ডাক্তারকে দেখতে হাসপাতালে যাওয়ার প্রক্রিয়াটিকে সম্পূর্ণভাবে অনুকরণ করে।

  1. পরামর্শের সাথে শুরু করে, MAIN-DxO একটি সংক্ষিপ্ত ক্লিনিকাল গল্প পাবে, সাধারণত 2-3টি বাক্য, যার মধ্যে মামলার প্রাথমিক বিবরণ রয়েছে।
  2. এর পরে, MAI-DxO রোগীর প্রধান দাবিগুলিকে সংক্ষিপ্ত করতে শুরু করবে এবং পরবর্তী পদক্ষেপটি বেছে নেবে, রোগীর কাছে প্রশ্ন জিজ্ঞাসা করা চালিয়ে যাওয়া বা একটি পরীক্ষার অনুরোধ করা।
  3. প্রতিটি পরীক্ষার খরচ গণনা করা হয়, এবং চূড়ান্ত নির্ণয় দেওয়া না হওয়া পর্যন্ত একাধিক রাউন্ড ইন্টারঅ্যাকশন চলতে থাকে।

পরীক্ষার প্রক্রিয়া চলাকালীন, MAI-DxO একটি "দারোয়ান" সেট করার জন্য o4-মিনি এবং পেশাদার ডাক্তারদের ব্যবহার করেছিল যাতে সিস্টেমটি এআইকে যে তথ্য দেয় তা সাধারণ ডাক্তাররা পরামর্শ এবং ক্লিনিকাল অনুশীলনের সময় যে তথ্য পেতে পারে তা নিশ্চিত করার জন্য।

MAI-DxO-এর আবির্ভাব চিকিৎসা নির্ণয়ের ক্ষেত্রে বৃহৎ ভাষার মডেলের কর্মক্ষমতাকে উল্লেখযোগ্যভাবে উন্নত করেছে। Microsoft OpenAI, Gemini, Claude, Grok, DeepSeek এবং Llama সিরিজের বিভিন্ন মডেল পরীক্ষা করেছে এবং পারফরম্যান্স শুধুমাত্র একটি একক AI মডেল ব্যবহার করার চেয়ে ভালো ছিল। সেরা পারফরম্যান্সের সমন্বয় ছিল MAI-DxO এবং OpenAI এর o3 জুটি।

যেহেতু এটি বৃহৎ ভাষার মডেলের দ্বারা সীমাবদ্ধ নয়, তাই MAI-DxO ভবিষ্যতে আরও ভালো মডেল উপলব্ধ হলে সিঙ্ক্রোনাসভাবে মানিয়ে নিতে পারে।

বিভিন্ন এআই মডেলের নির্ভুলতার তুলনা এবং প্রতি ক্ষেত্রে ডায়াগনস্টিক পরীক্ষার গড় খরচ

▲বিভিন্ন কৃত্রিম বুদ্ধিমত্তা মডেলের নির্ভুলতার তুলনা এবং প্রতি ক্ষেত্রে গড় ডায়াগনস্টিক পরীক্ষার খরচ

যদিও মনে হচ্ছে "AI ডাক্তার" রূপ নিয়েছে, AI এর পক্ষে একজন ভাল ডাক্তার হওয়া সহজ নয়।

মাইক্রোসফ্ট প্রজেক্ট পেপারের শেষে উল্লেখ করেছে যে এই গবেষণায় উল্লেখযোগ্য সীমাবদ্ধতা রয়েছে, যার মধ্যে রয়েছে যে 21 জন ডাক্তার তুলনামূলক পরীক্ষায় অংশ নিয়েছিলেন তাদের সহকর্মী আলোচনা সহায়তা, রেফারেন্স বই, জেনারেটিভ এআই এবং অন্যান্য সংস্থানগুলিতে অ্যাক্সেস ছিল না। উপরন্তু, মাইক্রোসফটের পরীক্ষায় শুধুমাত্র সবচেয়ে চ্যালেঞ্জিং কেস সমস্যা নিয়ে আলোচনা করা হয়েছে, এবং আমাদের সাধারণ দৈনন্দিন রোগ নির্ণয়ের উপর আরও পরীক্ষা করা হয়নি।

মাইক্রোসফ্ট জোর দেয় যে AI ডাক্তারদের প্রতিস্থাপন করবে না, তবে ডাক্তার এবং রোগী উভয়েরই সহকারী হয়ে উঠবে।

কিন্তু ডাক্তার এবং রোগীদের জন্য এই সহকারী সারা বিশ্ব থেকে মনোযোগ আকর্ষণ করে চলেছে। এই বছরের মার্চের প্রথম দিকে, মাইক্রোসফ্ট ক্লিনিকাল ওয়ার্কফ্লোগুলির জন্য চিকিৎসা শিল্পের প্রথম এআই সহকারী, মাইক্রোসফ্ট ড্রাগন কপিলট প্রকাশ করেছে, যা ডাক্তারদের ক্লিনিকাল কেস ফাইলগুলিকে আরও ভালভাবে সংগঠিত করতে সহায়তা করতে পারে।

IBM-এর IBM Watson Health চিকিৎসা কৃত্রিম বুদ্ধিমত্তা প্ল্যাটফর্ম, Google-এর DeepMind, এবং NVIDIA-এর NVIDIA Clara সবই চিকিৎসা নির্দেশিকা, পরামর্শ এবং প্যাথলজির মতো চিকিৎসা পরিস্থিতিগুলিতে নতুন পরিবর্তন আনছে।

কিছু সময় আগে, আলিবাবা ড্যামো একাডেমি গ্যাস্ট্রিক ক্যান্সার ইমেজিং স্ক্রীনিংয়ের জন্য বিশ্বের প্রথম AI মডেল, DAMO GRAPEও প্রকাশ করেছে, যা প্রথমবারের মতো প্রাথমিক গ্যাস্ট্রিক ক্যান্সারের ক্ষত সনাক্ত করতে গভীর শিক্ষার সাথে মিলিত প্লেইন স্ক্যান সিটি ইমেজ ব্যবহার করেছে।

Huawei এই বছর শুধুমাত্র তার চিকিৎসা ও স্বাস্থ্য কর্পস প্রতিষ্ঠা করেছে এবং গত সপ্তাহে, রুইজিন হাসপাতালের সহযোগিতায়, ওপেন সোর্স রুইপথ প্যাথলজি মডেল ঘোষণা করেছে, যার ক্লিনিকাল যাচাইকরণ ক্ষমতা রয়েছে এবং ফুসফুসের ক্যান্সার সহ সাতটি সাধারণ ক্যান্সারকে কভার করে।

ওষুধের জন্য অত্যন্ত উচ্চ নির্ভুলতা প্রয়োজন, এবং একটি 0.01% ত্রুটি গুরুতর পরিণতি হতে পারে। প্রোগ্রামাররা যখন কোড লেখে তখন যে বাগগুলি দেখা যায় তার থেকে এটি সম্পূর্ণ আলাদা।

MAI-DxO বাস্তব চিকিৎসা পরামর্শের প্রক্রিয়াকে অনুকরণ করে, এবং মনে হচ্ছে এআই চিকিৎসা সেবার পথ আরও পরিষ্কার এবং পরিষ্কার হচ্ছে।

Baidu পরামর্শ থেকে শুরু করে ChatGPT পরামর্শ পর্যন্ত, আমি মনে করি ভবিষ্যতে, সাধারণ হাসপাতালের পরীক্ষার ফলাফল পাওয়ার পাশাপাশি, হাসপাতালের র‌্যাঙ্কিং চেক করা এবং অনলাইনে ডাক্তারদের জিজ্ঞাসা করার জন্য অর্থ প্রদান করা ছাড়াও, আপনি প্রথমে এই "AI ডাক্তার" কে দেখে নিতে পারেন।

#iFanr: iFanr (WeChat ID: ifanr) এর অফিসিয়াল WeChat পাবলিক অ্যাকাউন্ট অনুসরণ করতে স্বাগতম, যেখানে যত তাড়াতাড়ি সম্ভব আরও উত্তেজনাপূর্ণ বিষয়বস্তু আপনার কাছে উপস্থাপন করা হবে।

iFanr | মূল লিঙ্ক · মন্তব্য দেখুন · সিনা ওয়েইবো