
সম্প্রতি প্রকাশিত বিভিন্ন বর্ষশেষ পর্যালোচনার সাথে, OpenAI-এর প্রাক্তন সহ-প্রতিষ্ঠাতা আন্দ্রেজ কার্পাথিও তার বর্ষশেষের বৃহৎ মডেলগুলির সারসংক্ষেপ ভাগ করে নিয়েছেন।
এই বছরের শুরুতে, YC তে তার বক্তৃতা ভাইরাল হয়ে যায়, অনেক নতুন দৃষ্টিভঙ্গি উপস্থাপন করে:
- সফটওয়্যার ৩.০ এসেছে: প্রাথমিক মানব-লিখিত কোড (১.০) থেকে শুরু করে মডেলগুলিকে প্রশিক্ষণের জন্য ডেটা ফিডিং (২.০), আমরা এখন মডেলটিকে সরাসরি "প্ররোচিত" করার ৩.০ যুগে প্রবেশ করেছি।
- এলএলএম একটি নতুন অপারেটিং সিস্টেম: এটি ট্যাপের পানির মতো কোনও সাধারণ পণ্য নয়, বরং একটি জটিল অপারেটিং সিস্টেম যা মেমরি (কনটেক্সট উইন্ডো) এবং সিপিইউ (ইনফারেন্স কম্পিউটিং পাওয়ার) নির্ধারণের জন্য দায়ী।
- এজেন্টদের জন্য এক দশক: এআই এজেন্টরা এক বছরের মধ্যে পরিণত হবে বলে আশা করবেন না। ৯৯% থেকে ৯৯.৯৯৯% নির্ভরযোগ্যতায় পৌঁছাতে আমাদের এক দশক সময় লাগবে।
২০২৫ সালের শেষের দিকের তার সারাংশে, কার্প্যাথি আবারও আমাদের জন্য বিশ্লেষণ করেছেন যে এই বছর কী ধরণের "মস্তিষ্ক" AI বিকশিত হয়েছে।
কার্প্যাথির বার্ষিক সারাংশের একটি সংক্ষিপ্ত অনুবাদ নিচে দেওয়া হল, যেখানে APPSO মূল অর্থ পরিবর্তন না করেই আরও সহজলভ্য ব্যাখ্যা প্রদান করেছে।
মূল প্রবন্ধটি পড়তে, অনুগ্রহ করে এখানে ক্লিক করুন।
https://karpathy.bearblog.dev/year-in-review-2025/
২০২৫ সাল হবে এলএলএম (বৃহৎ ভাষা মডেল) এর জন্য শক্তিশালী প্রবৃদ্ধি এবং বিরাট অনিশ্চয়তার বছর। নীচে কয়েকটি "দৃষ্টান্তমূলক পরিবর্তন" দেওয়া হল যা আমার মনে হয় উল্লেখযোগ্য এবং কিছুটা আশ্চর্যজনক – এমন পরিবর্তন যা কেবল শিল্পের ভূদৃশ্যকেই নতুন রূপ দিয়েছে তা নয়, ধারণাগুলি সম্পর্কে আমার বোধগম্যতার উপরও গভীর প্রভাব ফেলেছে।
TL;DR সংস্করণ:
২০২৫ সালটি একই সাথে উত্তেজনাপূর্ণ এবং কিছুটা অবাক করার মতো।
এলএলএম এক নতুন ধরণের বুদ্ধিমত্তা হিসেবে আবির্ভূত হচ্ছে, যা আমার প্রত্যাশার চেয়ে অনেক বেশি বুদ্ধিমান এবং অনেক বেশি বোকা।
যাই হোক, এগুলো অত্যন্ত কার্যকর। আমার বিশ্বাস বর্তমান সক্ষমতা থাকা সত্ত্বেও, শিল্পটি তার সম্ভাবনার ১০%ও কাজে লাগাতে পারেনি। একই সাথে, এখনও অনেক ধারণা অন্বেষণ করার আছে, এবং ধারণাগতভাবে, ক্ষেত্রটি এখনও বিশাল বলে মনে হয়। যেমনটি আমি এই বছরের শুরুতে উল্লেখ করেছি, আমিও (আপাতদৃষ্টিতে বিপরীতভাবে) বিশ্বাস করি যে আমরা দ্রুত অগ্রগতি অব্যাহত দেখতে পাব, তবে সামনে এখনও অনেক কঠোর পরিশ্রম বাকি আছে।
সিটবেল্ট বেঁধে নাও, আমরা রওনা হতে যাচ্ছি।
১. আরএলভিআর: অলিম্পিয়াড গণিত সমস্যা সমাধানের মতো এআইকে "চিন্তা" করতে শেখানো
এই জটিল মৌলিক ধারণাটি ব্যাখ্যা করার আগে, আসুন দেখি কিভাবে বৃহৎ মডেল প্রশিক্ষণ দেওয়া হত।
২০২৫ সালের গোড়ার দিকে, প্রধান পরীক্ষাগারগুলিতে এলএলএমদের প্রশিক্ষণের জন্য "পুরাতন তিনটি" সূত্র খুবই স্থিতিশীল ছিল:
১. প্রাক-প্রশিক্ষণ : GPT-3 এর মতো, AI-কে পুরো ইন্টারনেট থেকে নিবন্ধ পড়তে দিন এবং কথা বলতে শিখুন।
২. তত্ত্বাবধানে থাকা ফাইন-টিউনিং (SFT): কাউকে স্ট্যান্ডার্ড উত্তর লিখতে বলুন এবং AI-কে প্রশ্নের উত্তর কীভাবে দিতে হয় তা শেখান।
৩. হিউম্যান ফিডব্যাক রিইনফোর্সমেন্ট লার্নিং (RLHF): AI কে বেশ কয়েকটি উত্তর তৈরি করতে দিন, এবং মানুষকে সেগুলি স্কোর করতে দিন, এটিকে আরও পছন্দনীয় হতে শেখান।
এখন কী কী পরিবর্তন এসেছে?
২০২৫ সালে, আমরা এই সূত্রে একটি শক্তিশালী উপাদান যুক্ত করেছি: RLVR (যাচাইযোগ্য পুরষ্কার থেকে শক্তিবৃদ্ধি শিক্ষা)।
এর মানে কি?
সহজ কথায় বলতে গেলে, এর অর্থ হল আর মানুষের স্কোর করা (মানুষ খুব ধীর এবং বিষয়ভিত্তিক) নয়, বরং AI-কে "মানক উত্তর" দিয়ে কাজ করতে হবে, যেমন গণিত সমস্যা বা কোড লেখা। সঠিক মানে সঠিক, এবং ভুল মানে ভুল; মেশিনটি স্বয়ংক্রিয়ভাবে যাচাই করতে পারে।
লক্ষ লক্ষ স্ব-খেলা এবং ট্রায়াল অ্যান্ড এররের মাধ্যমে, মডেলগুলি স্বতঃস্ফূর্তভাবে এমন কৌশলগুলি তৈরি করেছে যা "যুক্তি" বলে মনে হয় । তারা বড় সমস্যাগুলিকে ছোট ছোট ধাপে বিভক্ত করতে শিখেছে এবং এমনকি "চেক করতে ফিরে যাওয়া" (ডিপসিক R1 পেপার দেখুন) এর মতো উন্নত কৌশলগুলিও শিখেছে।
মূল তুলনা:
- পুরাতন দৃষ্টান্ত (RLHF) হলো একটি শিশুকে একটি প্রবন্ধ লিখতে শেখানোর মতো। যেহেতু কোনও আদর্শ উত্তর নেই, তাই AI বুঝতে পারে না যে কোন ধাপটি ভুল এবং এটি কেবল মানুষের সুর অনুকরণ করতে পারে।
- নতুন দৃষ্টান্ত (RLVR) হলো AI কে একটি উন্নত গণিত প্রশিক্ষণ শিবিরে রাখার মতো। আপনাকে এটিকে নির্দিষ্টভাবে চিন্তা করতে শেখানোর দরকার নেই; কেবল এটিকে পর্যাপ্ত সমস্যা এবং উত্তরগুলির উপর প্রতিক্রিয়া জানান, এবং এটি নিজেই সমস্যা সমাধানের ধরণগুলি বের করে ফেলবে।
এই কৌশলটি এতটাই কার্যকর ছিল যে ২০২৫ সালের মধ্যে, বেশিরভাগ কম্পিউটিং শক্তি এই "অর্থ-গ্রাসকারী প্রাণী" দ্বারা গ্রাস করা হয়েছিল। ফলস্বরূপ, মডেলটি বড় হয়নি, তবে প্রশিক্ষণের সময় বেড়েছে । আমরা একটি নতুন হাতিয়ারও পেয়েছি: AI কে দীর্ঘ সময় চিন্তা করার অনুমতি দেওয়া । OpenAI এর o1 ছিল শুরু, যখন o3 ছিল আসল মোড়।
২. ভূত বনাম প্রাণী: এআই কোনও "ডিজিটাল পোষা প্রাণী" নয়।
২০২৫ সালে, আমি এবং পুরো শিল্প অবশেষে স্বজ্ঞাতভাবে এলএলএম বুদ্ধিমত্তার "আকৃতি" বুঝতে পেরেছিলাম।
একটি ভীতিকর উপমা: আমরা পোষা প্রাণীর মতো "প্রাণীদের বিকশিত/পালন" করছি না; আমরা "ভূতদের ডেকে আনছি"।
আমি কেন এটা বলছি?
কারণ AI সম্পর্কে সবকিছুই জীবন্ত প্রাণীর থেকে আলাদা। মানুষের মস্তিষ্ক জঙ্গলে বেঁচে থাকার এবং প্রজননের জন্য অপ্টিমাইজ করা হয়েছে; অন্যদিকে LLM মস্তিষ্ক মানুষের ভাষা অনুকরণ, গণিত সমস্যায় উচ্চ নম্বর অর্জন এবং প্রতিযোগিতামূলক ক্ষেত্রে পছন্দ অর্জনের জন্য অপ্টিমাইজ করা হয়েছে।
জ্যাগড ইন্টেলিজেন্স:
RLVR (যাচাইযোগ্য পুরষ্কার এবং পুরষ্কার) এর অস্তিত্বের কারণেই কিছু ক্ষেত্রে (যেমন গণিত এবং প্রোগ্রামিং) AI এর ক্ষমতা হঠাৎ করে নাটকীয়ভাবে বৃদ্ধি পেতে পারে। এর ফলে একটি অত্যন্ত হাস্যকর ঘটনা ঘটে:
- তিনি একজন অতুলনীয় প্রতিভা (সেকেন্ডের মধ্যে উন্নত গণিতের সমস্যা সমাধান করতে সক্ষম);
- আরেকজন মানসিকভাবে প্রতিবন্ধী প্রাথমিক বিদ্যালয়ের ছাত্র (যাকে সহজ যুক্তির ফাঁদে সহজেই বোকা বানানো যায়)।

▲এখানে, কার্প্যাথি একটি মিম ব্যবহার করেছে: মানুষের বুদ্ধিমত্তা হল একটি মসৃণ নীল বৃত্ত, অন্যদিকে AI বুদ্ধিমত্তা হল একটি লাল আকৃতি যা কাঁটা দিয়ে ঢাকা, সমুদ্রের অর্চিনের মতো। এটি বেশ উপযুক্ত।
এটিই ব্যাখ্যা করে কেন আমি বর্তমান বেঞ্চমার্ক র্যাঙ্কিংয়ের উপর বিশ্বাস হারিয়ে ফেলেছি।
"র্যাঙ্কিং ম্যানিপুলেশন" এর সারমর্ম কী?
যেহেতু লিডারবোর্ড যাচাইযোগ্য, তাই লক্ষ্যবস্তু প্রশিক্ষণের জন্য RLVR ব্যবহার করা যেতে পারে। আধুনিক ল্যাবগুলি মূলত "পরীক্ষা-ভিত্তিক শিক্ষা" অনুশীলন করছে, বিশেষ করে পরীক্ষার প্রশ্নগুলির সাথে মানানসই করার জন্য AI-এর ক্ষমতাগুলিকে লক্ষ্য করে। "পরীক্ষার সেটে প্রশিক্ষণ" কেবল নকল করার চেয়েও বেশি কিছু হয়ে উঠেছে; এটি একটি নতুন শিল্প রূপে পরিণত হয়েছে।
৩. কার্সার: কেবল একজন সম্পাদকের চেয়েও বেশি কিছু, এটি একটি "ঠিকাদার"

এই বছর কার্সরের বিস্ফোরক জনপ্রিয়তা একটি নতুন সত্য প্রকাশ করেছে: LLM-এর প্রয়োগ স্তরটি আমাদের ধারণার চেয়েও পুরু।
মানুষ "চিকিৎসা ক্ষেত্রের জন্য কার্সার" এবং "আইনি ক্ষেত্রের জন্য কার্সার" নিয়ে কথা বলতে শুরু করেছে। এই অ্যাপগুলি ঠিক কী করে?
- "প্রসঙ্গ প্রকৌশলী": আপনাকে AI-তে ফিড করার জন্য সমস্ত পটভূমি তথ্য সংগঠিত করতে সহায়তা করে।
- "ফোরম্যান": গোপনে একাধিক এলএলএম-কে পর্দার আড়ালে কাজ করার নির্দেশ দেওয়া, জটিল কাজগুলি ভেঙে ফেলা এবং অর্থ সাশ্রয় করতে সহায়তা করা।
- "রিমোট কন্ট্রোল": এটি আপনাকে "স্বায়ত্তশাসন" সামঞ্জস্য করার জন্য একটি স্লাইডার দেয় এবং AI কতটা করতে পারে তা নির্ধারণ করে।
ভবিষ্যদ্বাণী: বৃহৎ মডেল ল্যাবগুলি (যেমন OpenAI) "জেনারালিস্ট শিক্ষার্থীদের" প্রশিক্ষণের জন্য দায়ী থাকবে; অন্যদিকে অ্যাপ্লিকেশন ডেভেলপাররা (যেমন কার্সার) এই শিক্ষার্থীদের ব্যক্তিগত তথ্য এবং সরঞ্জাম সরবরাহ করার জন্য দায়ী থাকবে, তাদের "পেশাদার নির্মাণ দল" গঠন করবে ।
৪. ক্লড কোড: আপনার কম্পিউটারে বসবাসকারী "সাইবার ভূত"

ক্লড কোড (CC) এর আবির্ভাব ছিল একটি উদ্ঘাটন। এটি কেবল একজন এজেন্ট (বুদ্ধিমান এজেন্ট) নয় যে কোড লিখতে পারে; আরও গুরুত্বপূর্ণ বিষয় হল, এটি আপনার কম্পিউটারের ভিতরেই থাকে ।
তুলনা করলে, আমার মনে হয় OpenAI ভুল পথে চলে গেছে।
OpenAI-এর প্রাথমিক এজেন্টরা সবাই ক্লাউডে (ChatGPT) কাজ করত, যা বাস্তব জগতের পরিবেশ থেকে অনেক দূরে ছিল। যদিও ক্লাউড-ভিত্তিক বুদ্ধিমান এজেন্টগুলি AGI-এর শেষ খেলা বলে মনে হচ্ছে, বর্তমান অসম রূপান্তর পর্যায়ে, স্থানীয়ই হল পথ।
স্থানীয় অবস্থান কেন গুরুত্বপূর্ণ?
কারণ তোমার কোড, তোমার কনফিগারেশন, তোমার কী, তোমার অগোছালো পরিবেশ সবকিছুই স্থানীয়। অ্যানথ্রপিক (ক্লদের মূল কোম্পানি) সঠিক অগ্রাধিকার দিয়েছে; তারা AI কে একটি ক্ষুদ্র কমান্ড-লাইন ইন্টারফেসে (CLI) ঢেলে দিয়েছে।
এটি এখন আর আপনার ব্রাউজারে (গুগলের মতো) কেবল একটি ওয়েবপেজ নয়; এটি আপনার কম্পিউটারে বসবাসকারী একটি "সাইবার ভূত" হয়ে উঠেছে, যে কোনও সময় আপনার কাজ করার জন্য প্রস্তুত। ভবিষ্যতের এআই ইন্টারঅ্যাকশনটি এমনই হওয়া উচিত।
৫. ভাইব কোডিং
ভাইব কোডিং কী?
এই শব্দটি আমি টুইটারে তৈরি করেছি (এবং এটি আসলে ভাইরাল হয়ে গেছে): এর অর্থ হল কোড লেখার জন্য আর আপনাকে আসলে বাক্য গঠন বুঝতে হবে না; আপনাকে কেবল আপনার "উদ্দেশ্য" এবং "অনুভূতি" ইংরেজিতে বর্ণনা করতে হবে এবং বাকিটা AI-এর উপর ছেড়ে দিতে হবে।
এর ফলে কী কী পরিবর্তন এসেছে?
- সাধারণ মানুষের জন্য: প্রোগ্রামিংয়ে প্রবেশের বাধা সম্পূর্ণরূপে অদৃশ্য হয়ে গেছে।
- বিশেষজ্ঞদের জন্য: কোড টিস্যু পেপারের মতোই "সস্তা, নিষ্পত্তিযোগ্য এবং পুনর্ব্যবহারযোগ্য" হয়ে উঠেছে।
উদাহরণস্বরূপ, একটি বাগ খুঁজে বের করার জন্য, আমি AI-কে পরীক্ষার জন্য একটি ডেডিকেটেড অ্যাপ লিখতে বলতে পারি, এবং তারপর এটি মুছে ফেলতে পারি। অতীতে, শুধুমাত্র একটি বাগ খুঁজে বের করার জন্য একটি অ্যাপ লেখা হত? পাগলাটে! কিন্তু 2025 সালে, কোড বিনামূল্যে হবে।
ভাইব কোডিং সফটওয়্যার শিল্পকে সম্পূর্ণরূপে নতুন রূপ দেবে এবং প্রোগ্রামারদের জন্য কাজের বিবরণ পুনর্লিখন করবে।
৬. ন্যানো কলা: অবশেষে এআই-এর নিজস্ব "মুখ" তৈরি হল

বর্তমান কৃত্রিম বুদ্ধিমত্তার মিথস্ক্রিয়া এত মানবতাবিরোধী কেন?
চ্যাটজিপিটি হোক বা ক্লড, আমরা এখনও "টাইপিং" করে তাদের সাথে চ্যাট করছি। এটা অনেকটা ১৯৮০-এর দশকে সাদা-কালো ডস কমান্ড লাইন ব্যবহার করার মতো।
সত্যটা হল: কম্পিউটার টেক্সট ভালোবাসে, কিন্তু মানুষ টেক্সট পড়তে ঘৃণা করে। মানুষ দৃশ্যমান প্রাণী; আমরা ছবি, টেবিল এবং ভিডিও দেখতে উপভোগ করি।
গুগল জেমিনি ন্যানো কলা (একটি কাল্পনিক মডেল কোডনাম যা এক ধরণের মাল্টিমোডাল ইন্টারঅ্যাকশন মডেলকে নির্দেশ করে) ২০২৫ সালে আরেকটি দৃষ্টান্তমূলক পরিবর্তন । এটি ভবিষ্যতের এলএলএম জিইউআই (গ্রাফিক্যাল ইউজার ইন্টারফেস) কেমন হবে তার ইঙ্গিত দেয় ।
ভবিষ্যতের এআই কেবল একগুচ্ছ লেখা প্রকাশ করবে না; এটি সরাসরি একটি ছবি আঁকবে, একটি ওয়েবপেজ তৈরি করবে, অথবা একটি ইন্টারেক্টিভ প্যানেল পপ আপ করবে। এটি কেবল "অঙ্কন" করার চেয়েও বেশি কিছু; এটি একটি হাইব্রিড ক্ষমতা যা পাঠ্য তৈরি, যৌক্তিক যুক্তি এবং দৃশ্যমান অভিব্যক্তিকে একত্রিত করে।
#iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট অনুসরণ করতে আপনাকে স্বাগতম: iFanr (WeChat ID: ifanr), যেখানে যত তাড়াতাড়ি সম্ভব আরও উত্তেজনাপূর্ণ কন্টেন্ট আপনার কাছে উপস্থাপন করা হবে।
