মানবজাতির বৃহত্তম জ্ঞানভাণ্ডারকে “পাতিত” করেছে নৃতাত্ত্বিক।

২০২৪ সালের গোড়ার দিকে, মার্কিন যুক্তরাষ্ট্রের কোথাও একটি গুদামে, শ্রমিকরা এমন কিছু করছিল যা দেখতে বেশ অদ্ভুত লাগছিল: একটি মেশিনে একের পর এক বই খাওয়ানো, তাদের কাঁটা কেটে ফেলা, স্ক্যান করা এবং তারপর অবশিষ্ট কাগজ পুনর্ব্যবহারের জন্য পাঠানো।

এই বইগুলো সবেমাত্র কেনা হয়েছে, কিছু বই একেবারে নতুনও। কেউ এগুলো পড়বে না; এগুলোর একমাত্র উদ্দেশ্য হলো ধ্বংস করা।

যে কোম্পানিটি এটি অর্ডার করেছিল, সেটি ছিল অ্যানথ্রপিক নামক একটি এআই কোম্পানি।

তাদের অভ্যন্তরীণ নথিতে, প্রকল্পটির কোডনাম ছিল "প্রজেক্ট পানামা"। একটি পরিকল্পনা নথিতে স্পষ্টভাবে বলা হয়েছে: "এটি আমাদের পরিকল্পনা যা বিশ্বের সমস্ত বই ধ্বংসাত্মকভাবে স্ক্যান করার জন্য, এবং আমরা চাই না যে বাইরের বিশ্ব জানুক যে আমরা এটি করছি।"

অবশেষে, লোকেরা এটি সম্পর্কে জানতে পারে।

গত বছর, একজন ফেডারেল বিচারক একটি কপিরাইট মামলার সাথে সম্পর্কিত নথির একটি ব্যাচ খুলে দেন, মোট ৪,০০০ পৃষ্ঠারও বেশি। বহির্বিশ্ব যা দেখেছিল তা কেবল একটি কোম্পানির গোপনীয়তা নয়, বরং ডেটা যুদ্ধে সমগ্র এআই শিল্পের আসল চেহারা।

বড় মডেলদের দ্বারা "খেয়ে নেওয়া" ভৌত বই

কেন এই অত্যাধুনিক প্রযুক্তি জায়ান্টরা মুদ্রিত বইগুলিকে এত আদিম এবং এমনকি নিষ্ঠুরভাবে ব্যবহার করবে? এর উত্তর হল উচ্চমানের ডেটার জন্য কৃত্রিম বুদ্ধিমত্তার চরম তৃষ্ণা।

অ্যানথ্রপিক প্রথম দিকে বুঝতে পেরেছিল যে শুধুমাত্র অনলাইন কন্টেন্টই এআই মডেলদের প্রশিক্ষণের জন্য যথেষ্ট নয়।

দ্য ওয়াশিংটন পোস্টের মতে, একজন অ্যানথ্রপিক সহ-প্রতিষ্ঠাতা ২০২৩ সালের জানুয়ারীতে একটি নথিতে লিখেছিলেন যে বই দিয়ে প্রশিক্ষণ দেওয়া মডেলগুলি কেবল অসঙ্গত অনলাইন ভাষা অনুকরণ করার পরিবর্তে "কীভাবে আরও ভাল লিখতে হয়" তা এআই শেখাতে পারে।

বইটি কঠোর সম্পাদনা এবং প্রুফরিডিংয়ের মধ্য দিয়ে গেছে, এবং এর বিষয়বস্তুর কাঠামো স্পষ্ট। এটি একটি উচ্চমানের সংগ্রহ যা অনলাইন পাঠ্য দিয়ে প্রতিস্থাপন করা কঠিন।

যুক্তিটি বোঝা কঠিন নয়, কিন্তু সমস্যা হল, যদি বইয়ের মূল্য স্বীকার করা হয়, তাহলে কেন তাদের জন্য অর্থ প্রদান করা হবে না? কারণ হল প্রকাশক এবং লেখকদের সাথে পৃথকভাবে লাইসেন্সিং নিয়ে আলোচনা করা সময়সাপেক্ষ, শ্রমসাধ্য এবং ব্যয়বহুল। এইভাবে, অ্যানথ্রপিক "পানামা প্রকল্প" চালু করে। "আমরা চাই না বাইরের বিশ্ব জানুক" এই বিবৃতিটি ইঙ্গিত দেয় যে এটিও জানে যে এই যুক্তিটি অগ্রহণযোগ্য।

"পানামা প্রকল্প" চালু হওয়ার আগেই, অ্যানথ্রপিক ইতিমধ্যেই অন্য একটি পদ্ধতির মাধ্যমে বই অর্জনের চেষ্টা করেছিল।

আদালতের নথিপত্র থেকে দেখা যায় যে কোম্পানির সহ-প্রতিষ্ঠাতা বেন মান ২০২১ সালের জুন মাসে ১১ দিনের মধ্যে LibGen নামক একটি ওয়েবসাইট থেকে প্রচুর সংখ্যক উপন্যাস এবং নন-ফিকশন বই ডাউনলোড করেছেন। LibGen হল একটি "ছায়া গ্রন্থাগার" যেখানে বেশিরভাগ সম্পদ কপিরাইট লঙ্ঘনের সন্দেহ করা হয়। নথিপত্রের সাথে সংযুক্ত ব্রাউজারের স্ক্রিনশটগুলি থেকে দেখা যায় যে তিনি এই ডাউনলোডগুলি সম্পূর্ণ করার জন্য ফাইল-শেয়ারিং সফ্টওয়্যার ব্যবহার করেছিলেন।

এক বছর পর, ২০২২ সালের জুলাই মাসে আরেকটি ওয়েবসাইট, পাইরেট লাইব্রেরি মিরর, চালু হয়, যেখানে প্রকাশ্যে ঘোষণা করা হয় যে এটি "বেশিরভাগ দেশের কপিরাইট আইন ইচ্ছাকৃতভাবে লঙ্ঘন করে।" মান এই ওয়েবসাইটের লিঙ্কটি অন্যান্য অ্যানথ্রোপিক কর্মীদের কাছে পাঠিয়ে মন্তব্য করেন, "নিখুঁত সময়!!!"

এই বিস্ময়বোধক চিহ্নের পিছনে লুকিয়ে আছে একজন কোম্পানির নির্বাহীর প্রকৃত মনোভাব, একটি জলদস্যু ওয়েবসাইটের প্রতি, যে ওয়েবসাইটটি প্রকাশ্যে আইন লঙ্ঘনের কথা স্বীকার করে।

অ্যানথ্রপিক পরে বলেছে যে কোম্পানিটি তাদের আনুষ্ঠানিকভাবে প্রকাশিত বাণিজ্যিক মডেলকে প্রশিক্ষণ দেওয়ার জন্য এই তথ্য কখনও ব্যবহার করেনি। তবে, এই ব্যাখ্যাটি কিছুটা দুর্বল। তারা এটি ডাউনলোড করে সংরক্ষণ করেছে, কিন্তু "অফিসিয়াল মডেলে এটি ব্যবহার করেনি।" ঠিক কোথায় সেই রেখা টানা হয়েছে তা সম্ভবত অ্যানথ্রপিকের কাছেও স্পষ্ট নয়।

"পানামা প্রজেক্ট"-এর জন্য, অ্যানথ্রপিক বিশেষভাবে টম টার্ভেকে এই কাজের নেতৃত্ব দেওয়ার জন্য নিয়োগ করেছিল। টার্ভে এর আগে গুগল বুকস প্রজেক্ট তৈরিতে জড়িত ছিলেন, যা বইয়ের ব্যাপক স্ক্যানিংয়ের কারণে বছরের পর বছর ধরে কপিরাইট বিরোধের জন্ম দিয়েছিল। এই প্রজেক্টের নেতৃত্ব দেওয়ার জন্য অ্যানথ্রপিকের তাকে বেছে নেওয়াটা যে কাকতালীয় ছিল তা বলা কঠিন।

পরিশেষে, অ্যানথ্রপিক মূলত বাল্ক সরবরাহের জন্য দুটি বই বিক্রেতার উপর নির্ভর করেছিল:

আমেরিকান সেকেন্ডহ্যান্ড বইয়ের খুচরা বিক্রেতা বেটার ওয়ার্ল্ড বুকস এবং যুক্তরাজ্য-ভিত্তিক ওয়ার্ল্ড অফ বুকস প্রায়শই একসাথে কয়েক হাজার বই কিনে। অভ্যন্তরীণ নথিতে আরও দেখা গেছে যে কর্মীরা নিউ ইয়র্ক পাবলিক লাইব্রেরির সাথে যোগাযোগ করার বিষয়ে আলোচনা করেছিলেন এবং এমনকি দীর্ঘমেয়াদী স্বল্প তহবিলযুক্ত একটি নতুন লাইব্রেরির সাহায্য নেওয়ার কথাও উল্লেখ করেছিলেন।

ক্রয় সম্পন্ন হওয়ার পর, পুরো স্ক্যানিং প্রক্রিয়াটি একটি শিল্প সমাবেশ লাইনের মতো দেখাচ্ছিল।

সরবরাহকারীরা বইয়ের কাঁটা পরিষ্কারভাবে ছাঁটাই করার জন্য একটি হাইড্রোলিক কাটার ব্যবহার করেছিল এবং আলগা পৃষ্ঠাগুলিকে একটি উচ্চ-গতির শিল্প স্ক্যানারে ঢোকানো হয়েছিল। স্ক্যান করার পরে, অবশিষ্ট কাগজটি একটি পুনর্ব্যবহারকারী সংস্থার কাছে হস্তান্তর করা হয়েছিল। দরপত্র জমা দেওয়া স্ক্যানিং পরিষেবা প্রদানকারীদের মধ্যে একটি তাদের প্রস্তাবে লিখেছিল যে অ্যানথ্রপিক ছয় মাসের মধ্যে ৫০০,০০০ থেকে ২০ লক্ষ বইয়ের ডিজিটাইজেশন সম্পন্ন করার আশা করেছিল।

অ্যানথ্রপিকের ডেপুটি জেনারেল কাউন্সেল, অপর্ণা শ্রীধর, প্রতিক্রিয়া জানিয়েছিলেন যে আদালত রায় দিয়েছে যে এআই প্রশিক্ষণ "প্রকৃতিতে রূপান্তরকারী", এবং অ্যানথ্রপিকের নিষ্পত্তির সিদ্ধান্ত "কিছু উপাদান কীভাবে প্রাপ্ত হয়েছিল তার দিক থেকে সমস্যাযুক্ত ছিল, আমরা সেই উপাদানটি ব্যবহার করতে পারি কিনা তা নয়।"

এই যুক্তিটি আইনত টিকে থাকতে পারে, কিন্তু এটি একটি জিনিসও প্রকাশ করে: কোম্পানিটি কখনও বিশ্বাস করেনি যে তারা কোনও ভুল করেছে, কেবল তাদের কিছু পদ্ধতি যথেষ্ট পরিষ্কার ছিল না।

তারা প্রশিক্ষণের জন্য তোমার বই ব্যবহার করবে, এবং তারপর তোমার চাকরি চুরি করবে।

অন্যান্য কোম্পানির ক্ষেত্রেও একই ঘটনা ঘটছে, এবং কিছু বিবরণ আরও নাটকীয়।

মেটার বিরুদ্ধে মামলার নথি থেকে দেখা যায় যে, ২০২৩ সালে একজন কর্মচারী সরাসরি লিখেছিলেন: "টরেন্ট ডাউনলোডের জন্য কোম্পানির ল্যাপটপ ব্যবহার করা ঠিক মনে হয় না।" পরে তিনি বিশেষভাবে আইনি দলের কাছে এই বিষয়টি উত্থাপন করেন, বলেন যে টরেন্ট সাইট ব্যবহার করার অর্থ অন্যদের কাছে পাইরেটেড কাজ বিতরণ করা হতে পারে, "যা আইনত অনুমোদিত নাও হতে পারে।"

কিন্তু এই উদ্বেগগুলি শেষ পর্যন্ত কোনও পরিবর্তন আনেনি।

২০২৩ সালের ডিসেম্বরের একটি অভ্যন্তরীণ ইমেল থেকে জানা যায় যে, "এমজেড-এ রিপোর্ট করার পর" লিবজেনের ব্যবহার অনুমোদিত হয়েছে, যা সিইও মার্ক জুকারবার্গের কথা উল্লেখ করে। ইমেলটিতে তারা যে ঝুঁকিগুলি সম্পর্কে সচেতন ছিলেন তাও স্পষ্টভাবে উল্লেখ করা হয়েছে: "যদি মিডিয়া রিপোর্টগুলি ইঙ্গিত দেয় যে আমরা পাইরেটেড বলে পরিচিত ডেটাসেট ব্যবহার করেছি, তাহলে এটি নিয়ন্ত্রক বিষয়গুলিতে আমাদের আলোচনার অবস্থানকে দুর্বল করে দিতে পারে।"

অন্য কথায়, তারা জানত না যে তারা যা করছে তা ভুল; তারা কেবল ধরা পড়ার মূল্য বিবেচনা করছিল। এই ঝুঁকি কমাতে, কর্মীরা ইচ্ছাকৃতভাবে টরেন্ট ডাউনলোডের জন্য মেটার নিজস্ব সার্ভারের পরিবর্তে অ্যামাজনের সার্ভার ভাড়া করেছিল, যাতে মেটার সাথে তাদের যোগাযোগ না হয়।

ওপেনএআই এবং মাইক্রোসফ্ট উভয়ই বই লেখকদের কাছ থেকে কপিরাইট অভিযোগের সম্মুখীন। ওপেনএআই এমনকি লিবজেন ডাউনলোড করার কথা স্বীকার করেছে, কিন্তু দাবি করেছে যে চ্যাটজিপিটি প্রকাশের আগেই তারা ফাইলগুলি সরিয়ে ফেলেছে।

এআই কোম্পানি এবং স্রষ্টাদের মধ্যে কপিরাইট দ্বন্দ্ব অ্যানথ্রপিক দিয়ে শুরু হয়নি।

২০০০ সালের গোড়ার দিকে, গুগল লাইব্রেরি সংগ্রহের একটি বৃহৎ পরিসরে স্ক্যান পরিচালনা করে, যা এক দশক ধরে মামলার সূত্রপাত করে। অবশেষে, আদালত রায় দেয় যে গুগলের পদক্ষেপগুলি "ন্যায্য ব্যবহার" হিসাবে বিবেচিত হয় কারণ এটি কেবল পাঠকদের বইয়ের দিকে পরিচালিত করার উদ্দেশ্যে উদ্ধৃতাংশ সরবরাহ করে, সেগুলি প্রতিস্থাপন করার পরিবর্তে।

এই রায়টি তখন যুক্তিসঙ্গত বলে মনে হয়েছিল, কিন্তু বিশ বছর পরে এটি সমগ্র কৃত্রিম বুদ্ধিমত্তা শিল্পের জন্য একটি ঢাল হিসেবে কাজ করেছে।

গুগল বুকস একটি ইনডেক্সিং টুল, যেখানে জেনারেটিভ এআই সরাসরি বইয়ের বিষয়বস্তু হজম করে এবং টেক্সট আউটপুট করে, কখনও কখনও সরাসরি লেখকদের সাথে প্রতিযোগিতা করে। প্রকৃতি পরিবর্তিত হয়েছে, কিন্তু এটি যে আইনি যুক্তি ব্যবহার করে তা একই রয়ে গেছে, যা নিজেই বিবেচনা করার মতো।

গত জুনে, ফেডারেল বিচারক উইলিয়াম আলসুপ রায় দেন যে, কৃত্রিম বুদ্ধিমত্তা (এআই) প্রশিক্ষণের জন্য অ্যানথ্রপিকের বই ব্যবহার বৈধ, এই প্রক্রিয়াটিকে একজন শিক্ষকের "ছাত্রদের ভালো প্রবন্ধ লেখার প্রশিক্ষণ" দেওয়ার সাথে তুলনা করেন। যদিও এই উপমাটি হালকা শোনাচ্ছে, বাস্তবে, শিক্ষকরা একই সাথে লক্ষ লক্ষ শিক্ষার্থীকে প্রশিক্ষণ দেন না, এবং তারা তাদের কাছ থেকে কোটি কোটি ডলারও আয় করেন না।

অবশেষে, অ্যানথ্রপিক AI কপিরাইট মামলার ইতিহাসে রেকর্ড-ব্রেকিং $1.5 বিলিয়ন নিষ্পত্তির সিদ্ধান্ত নিয়েছে। তবে, ঘনিষ্ঠভাবে পরীক্ষা করার পর, আর্থিক ফলাফলটি খারাপ চুক্তি ছিল না। মার্কিন কপিরাইট আইনের অধীনে, প্রতিটি কাজের জন্য আইনগত ক্ষতিপূরণের সীমা $150,000, যেখানে এই নিষ্পত্তি প্রতি বইয়ের জন্য প্রায় $3,000, যা সীমার মাত্র 2%।

লেখক এবং প্রকাশকের মধ্যে ক্ষতিপূরণ সমানভাবে ভাগ করে দেওয়া হয়েছিল, কিন্তু এই ব্যবস্থা স্রষ্টা সম্প্রদায়ের মধ্যে বিতর্কের জন্ম দেয়।

অনেক লেখক বিশ্বাস করেন যে প্রকাশকরা তাদের কাজগুলিকে AI দ্বারা অপব্যবহার থেকে রক্ষা করার জন্য যথাসাধ্য চেষ্টা করেননি, তবুও তারা ক্ষতিপূরণের অর্ধেক পেয়েছেন। আরও গুরুত্বপূর্ণ বিষয় হল, নিষ্পত্তি চুক্তিতে অ্যানথ্রপিককে কোনও অবৈধ আচরণ স্বীকার করতে হবে না এবং আদালতের "AI প্রশিক্ষণ ন্যায্য ব্যবহার গঠন করে" এই সিদ্ধান্ত বৈধ রয়ে গেছে।

অন্য কথায়, অ্যানথ্রপিক ১.৫ বিলিয়ন ডলারে যা কিনেছে তা কেবল একটি নিষ্পত্তি ছিল না, বরং একটি অনুমোদনও ছিল: আমরা এটি চালিয়ে যেতে পারি। কিছু বিশ্লেষক উল্লেখ করেছেন যে এই নজির প্রতিষ্ঠিত হওয়ার সাথে সাথে, কপিরাইট লঙ্ঘন আর এআই কোম্পানিগুলির জন্য একটি লাল রেখা নয়, বরং একটি "টোল" যা আগে থেকেই খরচের সাথে যুক্ত করা যেতে পারে।

অনেক লেখকের কাছে এর অর্থ কেবল একটি চেকের চেয়ে অনেক বেশি। একজন আমেরিকান লেখকের গড় বার্ষিক আয় প্রায় $20,000, যেখানে শত শত বিলিয়ন ডলার মূল্যের কৃত্রিম বুদ্ধিমত্তা কোম্পানিগুলি অনুমোদন ছাড়াই তাদের কাজ ব্যাপকভাবে ব্যবহার করে এবং পরে তারা যে ক্ষতিপূরণ পায় তা আইনি সীমার অনেক কম।

আরও উদ্বেগের বিষয় হল, AI ব্যাপকভাবে টেক্সট কন্টেন্ট তৈরি করছে। বাজারে কম খরচের টেক্সটের এই আগমন লেখার মাধ্যমে জীবিকা নির্বাহ করা আরও কঠিন করে তুলছে। মানুষের লেখা বই ব্যবহার করে AI-কে প্রশিক্ষণ দেওয়া হয়, কিন্তু AI-এর তৈরি কন্টেন্ট মানুষের বই লেখার জায়গা সঙ্কুচিত করে দিচ্ছে, যার ফলে একটি দুষ্টচক্র তৈরি হচ্ছে।

সমর্থকদের নিজস্ব যুক্তি আছে: কৃত্রিম বুদ্ধিমত্তা বইয়ের বিষয়বস্তু সংরক্ষণ করে না, বরং ভাষাগত ধরণ বের করে, যা অনেকটা এমন একজন ব্যক্তির মতো যা ব্যাপকভাবে পড়ার পরে তাদের নিজস্ব অভিব্যক্তি বিকাশ করে। এই উপমাটি সম্পূর্ণরূপে যোগ্যতার বাইরে নয়, তবে এটি একটি গুরুত্বপূর্ণ পার্থক্য বাদ দেয়:

একজন মানুষ একটি বই পড়ে, কিন্তু লক্ষ লক্ষ বই পড়ে না; অন্যদিকে কৃত্রিম বুদ্ধিমত্তা কয়েক মাসের মধ্যেই মানুষের লেখার দশকের পর দশক ধরে হজম করে, এবং তারপর অসীমভাবে তা প্রতিলিপি করে অত্যন্ত কম প্রান্তিক খরচে প্রকাশ করে। স্কেল প্রকৃতিকে পরিবর্তন করে, তাই দুটি জিনিসকে সমান করা যুক্তিসঙ্গত নয়।

লক্ষ লক্ষ বই কেটে, স্ক্যান করে এবং পুনর্ব্যবহার করা হয়েছিল, যার ফলে শেষ পর্যন্ত একটি নিষ্পত্তি চুক্তি হয়েছিল। সেই বইগুলি অনেক আগেই বিলুপ্ত হয়ে গেছে। ইতিমধ্যে, AI লেখা চালিয়ে যাচ্ছে, এবং ক্রমবর্ধমান গতিতে। এটি সম্ভবত পুরো ঘটনার সবচেয়ে অস্থির দিক: AI প্রশিক্ষণের জন্য বই ধ্বংস এবং নির্বিচারে ব্যবহারের জন্য কেউই সত্যিকার অর্থে মূল্য দেয়নি।

রেফারেন্স ঠিকানা সংযুক্ত:
https://www.washingtonpost.com/technology/2026/01/27/anthropic-ai-scan-destroy-books/

#iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট অনুসরণ করতে আপনাকে স্বাগতম: iFanr (WeChat ID: ifanr), যেখানে যত তাড়াতাড়ি সম্ভব আরও উত্তেজনাপূর্ণ কন্টেন্ট আপনার কাছে উপস্থাপন করা হবে।

ifanr | মূল লিঙ্ক · মন্তব্য দেখুন · সিনা ওয়েইবো