নীরব চিপের ত্রুটি আধুনিক কম্পিউটারের ডেটা দূষিত করতে পারে

কম্পিউটিং প্রায়শই তার নির্ভুলতা এবং গতির জন্য প্রশংসিত হয়। কিন্তু গবেষকরা এবং হাইপারস্কেল ডেটা সেন্টার অপারেটররা ক্রমবর্ধমান হুমকির বিষয়ে সতর্ক করছেন যা কম্পিউটিংয়ের অন্যতম প্রধান প্রতিশ্রুতি: সঠিকতাকে চ্যালেঞ্জ করে। এই সমস্যাটি নীরব ডেটা করাপশন (SDC) নামে পরিচিত – এমন একটি ঘটনা যেখানে হার্ডওয়্যার ত্রুটির কারণে প্রোগ্রামগুলি ক্র্যাশ না করে, ত্রুটি ট্রিগার না করে বা কোনও দৃশ্যমান চিহ্ন না রেখে ভুল ফলাফল তৈরি করে।

আধুনিক চিপসের ভেতরে অদৃশ্য হুমকি

উদ্বেগের কেন্দ্রবিন্দুতে রয়েছে সিপিইউ, জিপিইউ এবং এআই অ্যাক্সিলারেটরের সিলিকন ত্রুটি। এই ত্রুটিগুলি চিপ ডিজাইন, উৎপাদনের সময় উদ্ভূত হতে পারে, এমনকি বার্ধক্য বা পরিবেশগত কারণের কারণে পরেও বিকশিত হতে পারে। যদিও নির্মাতারা বেশিরভাগ ত্রুটির জন্য পরীক্ষা করে, এমনকি সবচেয়ে কঠোর উৎপাদন পরীক্ষাও মডেল করা ত্রুটিগুলির আনুমানিক 95% থেকে 99% ধরতে পারে। কিছু ত্রুটিপূর্ণ চিপ অনিবার্যভাবে ক্ষেত্রের মধ্যে প্রবেশ করে।

কিছু ক্ষেত্রে, এই ত্রুটিগুলি দৃশ্যমান ব্যর্থতার দিকে পরিচালিত করে যেমন সিস্টেম ক্র্যাশ। তবে আরও সমস্যা হল নীরব ত্রুটি। এখানে, একটি ত্রুটিপূর্ণ লজিক গেট বা গাণিতিক ইউনিট কার্যকর করার সময় একটি ভুল মান তৈরি করতে পারে। যদি সেই মানটি সনাক্তকরণ প্রক্রিয়া ট্রিগার না করেই প্রোগ্রামের মাধ্যমে ছড়িয়ে পড়ে, তাহলে সিস্টেমটি কাজটি সম্পন্ন করে এবং একটি ভুল আউটপুট প্রদান করে – কোনও ইঙ্গিত ছাড়াই যে কোনও কিছু ভুল হয়েছে।

কয়েক দশক ধরে, অনেকেই বিশ্বাস করতেন যে SDC গুলি বিরল, প্রায় কাল্পনিক ঘটনা। তবে, মেটা, গুগল এবং আলিবাবার মতো প্রধান হাইপারস্কেল অপারেটররা প্রকাশ করেছে যে তাদের বহরে থাকা প্রায় ১,০০০ সিপিইউর মধ্যে একটি নির্দিষ্ট পরিস্থিতিতে নীরব দুর্নীতি তৈরি করতে পারে। GPU এবং AI অ্যাক্সিলারেটরের ক্ষেত্রেও একই রকম উদ্বেগের খবর পাওয়া গেছে।

সঠিকতা কম্পিউটিংয়ের একটি মৌলিক বৈশিষ্ট্য। আর্থিক লেনদেন প্রক্রিয়াকরণ, AI অনুমান পরিচালনা, অথবা অবকাঠামো পরিচালনা, যাই হোক না কেন, সিস্টেমগুলি কঠোর সময়সীমার মধ্যে সঠিক ফলাফল প্রদান করবে বলে আশা করা হয়।

নীরব দুর্নীতি সেই আস্থাকে দুর্বল করে দেয়। ক্র্যাশগুলি, যা তাৎক্ষণিকভাবে দৃশ্যমান এবং দ্রুত তদন্তের মাধ্যমে করা হয়, তার বিপরীতে, SDCগুলি নীরবে আউটপুট পরিবর্তন করে। লক্ষ লক্ষ কোর পরিচালিত ডেটা সেন্টারগুলিতে, এমনকি একটি ছোট ত্রুটির হারও প্রতিদিন শত শত ভুল প্রোগ্রাম ফলাফলের দিকে নিয়ে যেতে পারে।

আধুনিক কম্পিউটিংয়ের মাত্রা সমস্যাটিকে আরও তীব্র করে তোলে

জিপিইউ এবং এআই অ্যাক্সিলারেটরের মতো বিশাল সমান্তরাল আর্কিটেকচারে হাজার হাজার গাণিতিক ইউনিট থাকে। একটি সিস্টেমে যত বেশি উপাদান থাকবে, পরিসংখ্যানগতভাবে কিছু ত্রুটিপূর্ণ হওয়ার সম্ভাবনা তত বেশি।

SDC গুলি সরাসরি পরিমাপ করা প্রায় অসম্ভব – সংজ্ঞা অনুসারে, তারা নীরব। তাই শিল্পকে তাদের হার অনুমান করতে হবে এবং প্রতিরোধের খরচ বিবেচনা করতে হবে। সনাক্তকরণ এবং সংশোধন ব্যবস্থা বিদ্যমান, তবে তারা সিলিকন এলাকা, শক্তি খরচ এবং কর্মক্ষমতা ওভারহেড উল্লেখযোগ্যভাবে বৃদ্ধি করতে পারে।

গবেষকরা বহু-স্তরীয় সমাধানের আহ্বান জানাচ্ছেন, যার মধ্যে রয়েছে উন্নত উৎপাদন পরীক্ষা, ডেটা সেন্টারে ফ্লিট-লেভেল মনিটরিং, আরও স্মার্ট ফল্ট অ্যাস্টিমেশন মডেল এবং হার্ডওয়্যার-সফ্টওয়্যার কো-ডিজাইন পদ্ধতি যা ত্রুটি ছড়িয়ে পড়ার আগেই ধারণ করে।

কম্পিউটিং সিস্টেমগুলি যত বড় এবং দ্রুততর হচ্ছে, চ্যালেঞ্জটি স্পষ্ট: অস্থিতিশীল খরচ ছাড়াই গতি এবং সঠিকতা উভয়ই বজায় রাখা। কেউ কেউ যাকে "জটিলতার স্বর্ণযুগ" হিসাবে বর্ণনা করেন, সেখানে কম্পিউটিং নির্ভরযোগ্য থাকে তা নিশ্চিত করা শিল্পের অন্যতম গুরুত্বপূর্ণ প্রকৌশল যুদ্ধ হয়ে উঠতে পারে।

"নীরব চিপের ত্রুটি আধুনিক কম্পিউটারে ডেটা দূষিত করতে পারে" পোস্টটি প্রথম প্রকাশিত হয়েছিল ডিজিটাল ট্রেন্ডস- এ।