লি ফেইফেইয়ের সর্বশেষ দীর্ঘ প্রবন্ধটি ভাইরাল হয়েছে, যেখানে যুক্তি দেওয়া হয়েছে যে আগামী দশকে AI-এর সবচেয়ে বেশি যা প্রয়োজন তা হল বড় মডেল নয়।

যখন ChatGPT বিশ্বকে চমকে দিয়েছিল, তখন আমরা ভেবেছিলাম AI যথেষ্ট স্মার্ট। কিন্তু এটি এখনও একটি কাজ করতে পারে না: আপনার কফি কাপের প্রান্ত এবং টেবিলের প্রান্তের মধ্যে আপনার আঙ্গুলগুলি কত সেন্টিমিটার তা সঠিকভাবে নির্ধারণ করুন যখন আপনি এটির জন্য হাত বাড়ান।

আজ, বিখ্যাত এআই পণ্ডিত ফেই-ফেই লি একটি ব্লগ পোস্টে এই প্রশ্নের উত্তর দিয়েছেন: প্রকৃত বুদ্ধিমত্তা কেবল একটি শব্দের খেলা নয়, বরং এটি এমন একটি ক্ষমতার মধ্যে লুকিয়ে আছে যা আমরা প্রতিদিন ব্যবহার করি এবং কখনও তা উপলব্ধি করি না:

স্থানিক বুদ্ধিমত্তা।

এটি এমন এক ধরণের বুদ্ধিমত্তা যা ভাষার চেয়েও পুরনো। মানব সভ্যতাকে পরিবর্তনকারী মুহূর্তগুলি কখনও ভাষার উপর নির্ভর করেনি, বরং স্থানের উপলব্ধি, কল্পনা এবং যুক্তির উপর নির্ভর করে।
উদাহরণস্বরূপ, প্রাচীন গ্রীক পণ্ডিতরা ছায়া পর্যবেক্ষণ করে পৃথিবীর পরিধি গণনা করেছিলেন, বিজ্ঞানীরা ধাতব তারের সাহায্যে ডিএনএর ডাবল হেলিক্স কাঠামো তৈরি করেছিলেন এবং অগ্নিনির্বাপকরা স্বজ্ঞাতভাবে বিচার করেছিলেন যে ধোঁয়ায় কোনও ভবন ভেঙে পড়বে কিনা।

এখন, AI সেই ক্ষমতা অর্জন করতে চলেছে যা এটি এতদিন ধরে হারিয়ে আসছিল।

ডেটা-সেভিং সংস্করণটি নিম্নরূপ:

১. যদিও বর্তমান AI (বিশেষ করে LLM-এর মতো বৃহৎ ভাষা মডেল) আমাদের বিমূর্ত জ্ঞান ব্যবহারের পদ্ধতিকে রূপান্তরিত করেছে এবং শক্তিশালী ভাষাগত ক্ষমতার অধিকারী, তবুও এর বাস্তব-বিশ্বের অভিজ্ঞতা এবং ভৌত জগতের বোধগম্যতার অভাব রয়েছে। রোবোটিক্স, বৈজ্ঞানিক আবিষ্কার এবং নিমজ্জিত সৃজনশীলতার মতো ক্ষেত্রগুলিতে এটি মৌলিকভাবে সীমিত। স্থানিক বুদ্ধিমত্তা হল AI-এর পরবর্তী সীমানা। এটি বাস্তব এবং ভার্চুয়াল জগৎ তৈরি এবং অভিজ্ঞতার উপায়কে মৌলিকভাবে পরিবর্তন করবে এবং রোবোটিক্স, বৈজ্ঞানিক আবিষ্কার এবং সৃজনশীলতার মতো ক্ষেত্রগুলিতে রূপান্তরের সূত্রপাত করবে।

স্থানিক বুদ্ধিমত্তা হল মানুষের বুদ্ধিমত্তার ভিত্তি, এমনকি ভাষারও পূর্ববর্তী। এটি কেবল ভৌত জগতের সাথে আমাদের দৈনন্দিন মিথস্ক্রিয়াকে সমর্থন করে না (যেমন গাড়ি চালানো এবং চাবি ধরা), বরং এটি মানুষের কল্পনা, সৃজনশীলতা এবং বৈজ্ঞানিক আবিষ্কারের (যেমন প্রাচীন গ্রীকদের দ্বারা পৃথিবীর পরিধি পরিমাপ এবং ডিএনএ ডাবল হেলিক্স কাঠামো আবিষ্কার) কেন্দ্রবিন্দু। এটি হল সেই "ভারা" যার উপর মানুষের জ্ঞান নির্মিত হয়।

২. মাল্টিমোডাল মডেল (এমএলএলএম) এর অগ্রগতি সত্ত্বেও, স্থানিক ক্ষমতার দিক থেকে এআই এখনও মানুষের থেকে অনেক পিছিয়ে। তারা দূরত্ব এবং দিকনির্দেশনা সঠিকভাবে অনুমান করতে পারে না, তাদের মনে বস্তুগুলিকে "ঘোরাতে" পারে না এবং মৌলিক ভৌত আইনগুলি ভবিষ্যদ্বাণী করতে পারে না। এই ক্ষমতাগুলির অভাবের কারণে, এআই প্রকৃত বাস্তবতার সাথে সংযোগ স্থাপন করতে পারে না। স্থানিক বুদ্ধিমত্তা অর্জনের জন্য, আমাদের এলএলএম-এর বাইরে গিয়ে আরও উচ্চাকাঙ্ক্ষী "বিশ্ব মডেল" তৈরি করতে হবে। এটি একটি সম্পূর্ণ নতুন জেনারেটিভ মডেল যার ক্ষমতা বর্তমান এলএলএম-এর চেয়ে অনেক বেশি। ফেই-ফেই লি এবং ওয়ার্ল্ড ল্যাবস এটি নিয়ে কাজ করছে।

৩. ফেই-ফেই লি তিনটি ক্ষমতা সংজ্ঞায়িত করেছেন যা একটি বিশ্ব মডেলের অবশ্যই থাকতে হবে:

  1. উৎপাদক: এমন একটি বিশ্ব তৈরি করার ক্ষমতা যা উপলব্ধি, জ্যামিতি এবং ভৌত আইনের ধারাবাহিকতা বজায় রাখে।
  2. মাল্টিমোডাল: এটি সহজাতভাবে মাল্টিমোডাল হওয়ার জন্য ডিজাইন করা হয়েছে, যা একাধিক ধরণের তথ্য (যেমন ছবি, ভিডিও, গভীরতার মানচিত্র, পাঠ্য এবং গতি) প্রক্রিয়াকরণ এবং আউটপুট করতে সক্ষম।
  3. ইন্টারেক্টিভ: "কর্ম" ইনপুটের উপর ভিত্তি করে বিশ্বের "পরবর্তী অবস্থা" ভবিষ্যদ্বাণী বা আউটপুট করার ক্ষমতা, এবং পরিণামে সম্ভবত "পরবর্তী পদক্ষেপ" সম্পর্কে ভবিষ্যদ্বাণী করা।

৪. লি ফেইফেই বিশ্বাস করেন যে একটি বিশ্ব মডেল তৈরি করা ভাষা মডেল তৈরির চেয়ে অনেক বেশি কঠিন কারণ বিশ্বের মাত্রা ভাষার চেয়ে অনেক বেশি। এর জন্য তিনটি প্রধান চ্যালেঞ্জ অতিক্রম করতে হবে:

  • নতুন প্রশিক্ষণ কার্যের জন্য LLM-এ "পরবর্তী শব্দের ভবিষ্যদ্বাণী"-এর মতো একটি মার্জিত, সাধারণ কার্য ফাংশন খুঁজে বের করা প্রয়োজন, তবে এটি আরও কঠিন।
  • বৃহৎ পরিসরের তথ্য: এর জন্য প্রচুর পরিমাণে ইন্টারনেট ছবি এবং ভিডিও থেকে গভীর স্থানিক তথ্য আহরণের ক্ষমতা প্রয়োজন, যার পরিপূরক হিসেবে কৃত্রিম তথ্য এবং মাল্টিমোডাল তথ্য ব্যবহার করা হয়।
  • নতুন মডেল আর্কিটেকচার: বর্তমান 1D/2D সিকোয়েন্স প্যারাডাইমের বাইরে গিয়ে 3D বা 4D উপলব্ধি ক্ষমতা (যেমন ওয়ার্ল্ড ল্যাবসের RTFM মডেল) সহ একটি নতুন আর্কিটেকচার তৈরি করা প্রয়োজন।

৫. কৃত্রিম বুদ্ধিমত্তার উচিত মানুষের ক্ষমতা বৃদ্ধি করা, প্রতিস্থাপন করা নয়। কৃত্রিম বুদ্ধিমত্তার সর্বদা মানুষের স্বায়ত্তশাসন এবং মর্যাদাকে সম্মান করা উচিত। স্থানিক বুদ্ধিমত্তা এই দৃষ্টিভঙ্গির প্রতীক, যার লক্ষ্য মানুষের সৃজনশীলতা, করুণা এবং বৈজ্ঞানিক আবিষ্কারকে শক্তিশালী করা।

৬. স্থানিক বুদ্ধিমত্তার প্রয়োগ পর্যায়ক্রমে চালু করা হবে:

  • সাম্প্রতিক (সৃজনশীলতা): গল্প বলার ক্ষমতায়ন, চলচ্চিত্র, গেম এবং স্থাপত্য নকশা। ওয়ার্ল্ড ল্যাবস স্রষ্টাদের 3D জগৎ তৈরিতে সহায়তা করার জন্য মার্বেল প্ল্যাটফর্ম চালু করেছে।
  • মধ্যমেয়াদী (রোবোটিক্স): "কর্মে মূর্ত বুদ্ধিমত্তা" অর্জন। বিশ্ব মডেলটিকে সিমুলেশনের মাধ্যমে প্রশিক্ষণ দেওয়া হবে যাতে রোবটরা মানুষের সহযোগী সহকারী হতে পারে।
  • দীর্ঘমেয়াদী (বিজ্ঞান, চিকিৎসা এবং শিক্ষা): ওষুধ উন্নয়ন, উপকরণ বিজ্ঞান, রোগ নির্ণয়ের সহায়ক উপকরণ, পরিবেশগত সচেতনতা এবং পর্যবেক্ষণ এবং নিমজ্জিত শিক্ষার মতো ক্ষেত্রে রূপান্তরমূলক প্রভাব।

৭. মহাকাশ বুদ্ধিমত্তা অন্বেষণ করা ফেই-ফেই লি'র বৈজ্ঞানিক ক্যারিয়ারের "উত্তর তারকা"। মহাকাশ বুদ্ধিমত্তা ছাড়া, "সত্যিকারের বুদ্ধিমান যন্ত্রের" স্বপ্ন বাস্তবায়িত হতে পারে না। তিনি সমগ্র AI ইকোসিস্টেমকে বিশ্বের উপকারের জন্য এই প্রযুক্তি ব্যবহার করার জন্য একসাথে কাজ করার আহ্বান জানিয়েছেন।

ভাষা থেকে বিশ্বে: স্থানিক বুদ্ধিমত্তা – কৃত্রিম বুদ্ধিমত্তার পরবর্তী সীমানা

১৯৫০ সালে, যখন কম্পিউটারগুলি কেবল স্বয়ংক্রিয় গণনা এবং সহজ যুক্তির হাতিয়ার ছিল, তখন অ্যালান টুরিং একটি প্রশ্ন উত্থাপন করেছিলেন যা আজও অনুরণিত হয়: মেশিন কি চিন্তা করতে পারে? অসাধারণ কল্পনাশক্তির মাধ্যমে, তিনি একটি সাহসী সম্ভাবনা দেখেছিলেন – যে বুদ্ধিমত্তা একদিন সহজাত নয়, বরং "সৃষ্ট" হতে পারে। এই অন্তর্দৃষ্টি পরবর্তীতে "কৃত্রিম বুদ্ধিমত্তা (AI)" নামে পরিচিত একটি নিরলস বৈজ্ঞানিক অনুসন্ধানের সূত্রপাত করে।

কৃত্রিম বুদ্ধিমত্তার উপর আমার ২৫ বছরের গবেষণায়, টুরিংয়ের দৃষ্টিভঙ্গি আমাকে অনুপ্রাণিত করে চলেছে। কিন্তু আমরা সেই লক্ষ্য থেকে কতটা দূরে? এর উত্তর দেওয়া সহজ প্রশ্ন নয়।

আজ, বৃহৎ ভাষা মডেল (LLM) এর মতো শীর্ষস্থানীয় কৃত্রিম বুদ্ধিমত্তা প্রযুক্তিগুলি আমাদের বিমূর্ত জ্ঞান অর্জন এবং ব্যবহারের পদ্ধতিতে রূপান্তর করতে শুরু করেছে। যাইহোক, তারা অন্ধকারে শব্দ পালিশ করার কারিগরের মতোই রয়ে গেছে: ভাষা সুন্দর, কিন্তু অভিজ্ঞতার অভাব রয়েছে; জ্ঞান প্রচুর, কিন্তু বাস্তবে সত্যিকার অর্থে ভিত্তিহীন। স্থানিক বুদ্ধিমত্তা আমরা কীভাবে বাস্তব এবং ভার্চুয়াল জগৎ তৈরি এবং অভিজ্ঞতা লাভ করি তা পুনরায় সংজ্ঞায়িত করবে – এটি গল্প বলা, সৃজনশীলতা, রোবোটিক্স, বৈজ্ঞানিক আবিষ্কার এবং অন্যান্য অনেক ক্ষেত্রে বিপ্লব আনবে। এটি কৃত্রিম বুদ্ধিমত্তার পরবর্তী সীমানা।

এই ক্ষেত্রে প্রবেশের পর থেকে, ভিজ্যুয়াল এবং স্পেশাল ইন্টেলিজেন্সের সাধনা আমার নর্থ স্টার। এই কারণেই আমি বছরের পর বছর ধরে ImageNet তৈরি করেছি – প্রথম বৃহৎ-স্কেল ভিজ্যুয়াল লার্নিং এবং মূল্যায়ন ডেটাসেট, যা নিউরাল নেটওয়ার্ক অ্যালগরিদম এবং আধুনিক কম্পিউটিং (যেমন GPU) এর সাথে আধুনিক কৃত্রিম বুদ্ধিমত্তার তিনটি মূল স্তম্ভের মধ্যে একটি হয়ে উঠেছে। গত দশক ধরে, স্ট্যানফোর্ড বিশ্ববিদ্যালয়ের আমার ল্যাব কম্পিউটার ভিশনকে রোবট লার্নিংয়ের সাথে একত্রিত করার জন্য নিবেদিতপ্রাণ। এবং এই বিশ্বাসই আমাকে, সহ-প্রতিষ্ঠাতা জাস্টিন জনসন, ক্রিস্টোফ ল্যাসনার এবং বেন মিলডেনহলের সাথে, এক বছরেরও বেশি সময় আগে ওয়ার্ল্ড ল্যাবস প্রতিষ্ঠা করতে পরিচালিত করেছিল – প্রথমবারের মতো এই ভিশনটি সত্যিকার অর্থে বাস্তবায়ন করার আশায়।

এই প্রবন্ধে, আমি ব্যাখ্যা করব স্থানিক বুদ্ধিমত্তা কী, কেন এটি গুরুত্বপূর্ণ, এবং কীভাবে আমরা এমন একটি "বিশ্ব মডেল" তৈরি করতে পারি যা এই বুদ্ধিমত্তাকে উন্মোচন করতে পারে – এমন একটি ক্ষমতা যা সৃজনশীলতা, মূর্ত বুদ্ধিমত্তা এবং মানব অগ্রগতিকে নতুন আকার দেবে।

স্থানিক বুদ্ধিমত্তা: মানুষের জ্ঞানের জন্য একটি ভারা

কৃত্রিম বুদ্ধিমত্তা এক অভূতপূর্ব উত্তেজনাপূর্ণ সময়ের মধ্য দিয়ে যাচ্ছে। জেনারেটিভ এআই মডেলগুলি (যেমন বৃহৎ ভাষা মডেল, এলএলএম) গবেষণাগার থেকে দৈনন্দিন জীবনে স্থানান্তরিত হয়েছে, কোটি কোটি মানুষের দ্বারা সৃষ্টি, কাজ এবং যোগাযোগের জন্য ব্যবহৃত হাতিয়ার হয়ে উঠেছে। তারা একসময় অসম্ভব বলে মনে করা ক্ষমতা প্রদর্শন করেছে – সহজেই সুসংগত পাঠ্য, বিপুল পরিমাণে কোড, বাস্তবসম্মত ছবি এবং এমনকি ছোট ভিডিও ক্লিপ তৈরি করা। আজ, আমাদের আর "এআই কি পৃথিবী বদলে দেবে?" জিজ্ঞাসা করার দরকার নেই কারণ, যেকোনো দৃষ্টিকোণ থেকে, এটি ইতিমধ্যেই পৃথিবীকে বদলে দিচ্ছে।

তবে, অনেক লক্ষ্য অপূর্ণ রয়ে গেছে। স্বায়ত্তশাসিত রোবটের দৃষ্টিভঙ্গি এখনও আকর্ষণীয়, তবে এটি অনুমানমূলক, ভবিষ্যতবিদদের কল্পনা করা দৈনন্দিন পরিস্থিতি থেকে অনেক দূরে। রোগ নিরাময়, নতুন উপাদান আবিষ্কার এবং কণা পদার্থবিদ্যার মতো ক্ষেত্রে গবেষণাকে দ্রুত এগিয়ে নিয়ে যাওয়ার AI-এর স্বপ্নও মূলত বাস্তবায়িত হয়নি। এবং AI যা সত্যিকার অর্থে মানব স্রষ্টাদের বোঝে এবং ক্ষমতায়ন করে – তা সে জটিল আণবিক রসায়ন ধারণা শেখার একজন ছাত্র হোক, স্থান কল্পনা করার একজন স্থপতি হোক, একটি বিশ্ব নির্মাণকারী একজন চলচ্চিত্র নির্মাতা হোক, অথবা নিমজ্জিত ভার্চুয়াল অভিজ্ঞতার সন্ধানকারী কেউ হোক – এখনও আসেনি।

এই ক্ষমতাগুলি অর্জন করা কেন এখনও কঠিন তা বোঝার জন্য, আমাদের স্থানিক বুদ্ধিমত্তার বিবর্তন অনুসন্ধান করতে হবে এবং এটি কীভাবে বিশ্ব সম্পর্কে আমাদের ধারণাকে রূপ দিয়েছে তা অন্বেষণ করতে হবে।

দৃষ্টিশক্তি দীর্ঘদিন ধরেই মানুষের বুদ্ধিমত্তার ভিত্তিপ্রস্তর, কিন্তু এর শক্তি আরও মৌলিক প্রক্রিয়া থেকে উদ্ভূত। প্রাণীরা বাসা তৈরি করতে, সন্তান লালন-পালন করতে, ভাষা ব্যবহার করে যোগাযোগ করতে বা সভ্যতা প্রতিষ্ঠা করতে পারার আগে, উপলব্ধির প্রাথমিক ক্ষমতা – এমনকি আলোর রশ্মি বা স্পর্শ ধরার মতো সহজ কিছু – নীরবে বুদ্ধিমত্তার দিকে বিবর্তনীয় পথকে প্রজ্বলিত করেছিল।

বহির্বিশ্ব থেকে তথ্য আহরণের এই আপাতদৃষ্টিতে বিচ্ছিন্ন ক্ষমতা উপলব্ধি এবং বেঁচে থাকার মধ্যে একটি সেতু তৈরি করে, একটি সেতু যা প্রতিটি প্রজন্মের সাথে ক্রমাগত শক্তিশালী এবং প্রসারিত হয়। এই সেতুর উপর নিউরনের স্তরগুলি বৃদ্ধি পায়, একটি স্নায়ুতন্ত্র তৈরি করে যা বিশ্বকে ব্যাখ্যা করে এবং জীব এবং তার পরিবেশের মধ্যে মিথস্ক্রিয়া সমন্বয় করে। অতএব, অনেক বিজ্ঞানী অনুমান করেন যে এই "উপলব্ধি-ক্রিয়া" চক্রটি বুদ্ধিমান বিবর্তনের মূল চালিকা শক্তি এবং প্রকৃতির আমাদের তৈরি করার মৌলিক ভিত্তি – উপলব্ধি, শেখা, চিন্তাভাবনা এবং অভিনয় করতে সক্ষম একটি প্রজাতি।

ভৌত জগতের সাথে আমাদের মিথস্ক্রিয়ায় স্থানিক বুদ্ধিমত্তা গুরুত্বপূর্ণ ভূমিকা পালন করে। প্রতিদিন, আমরা আপাতদৃষ্টিতে জাগতিক কাজগুলি সম্পন্ন করার জন্য এর উপর নির্ভর করি: গাড়ি পার্ক করার সময় গাড়ির সামনের অংশ এবং কার্বের মধ্যে ধীরে ধীরে হ্রাস পাচ্ছে এমন দূরত্ব কল্পনা করে আমাদের অবস্থান বিচার করা; ঘরের অন্য দিক থেকে ছুঁড়ে ফেলা চাবি ধরা; সংঘর্ষ না করে ভিড়ের ফুটপাত ধরে হাঁটা; অথবা আধো ঘুমন্ত অবস্থায় না তাকিয়ে কাপে কফি ঢালা।

আরও চরম পরিস্থিতিতে, অগ্নিনির্বাপক কর্মীরা ধসে পড়া ভবনগুলিতে চলাচল করে, ধোঁয়ায় ভরা পরিবেশের মধ্যে কাঠামোগত স্থিতিশীলতা এবং বেঁচে থাকার কৌশলগুলি স্বজ্ঞাতভাবে মূল্যায়ন করে, অঙ্গভঙ্গি, শারীরিক ভাষা এবং একটি অবর্ণনীয় পেশাদার প্রবৃত্তির মাধ্যমে যোগাযোগ করে। এদিকে, শিশুরা, কথা বলতে শেখার কয়েক মাস বা এমনকি বছর আগে, তাদের চারপাশের সাথে কৌতুকপূর্ণ মিথস্ক্রিয়ার মাধ্যমে বিশ্ব সম্পর্কে শিখে। এই সবকিছুই স্বাভাবিকভাবে এবং অনায়াসে ঘটে – এক ধরণের "সহজাত সাবলীলতা" যা মেশিনগুলি এখনও আয়ত্ত করতে পারেনি।

স্থানিক বুদ্ধিমত্তা আমাদের কল্পনা এবং সৃজনশীলতার ভিত্তিও। গল্পকাররা তাদের মনে সমৃদ্ধ জগৎ তৈরি করেন এবং বিভিন্ন ভিজ্যুয়াল মাধ্যমের মাধ্যমে তা অন্যদের কাছে পৌঁছে দেন – প্রাচীন গুহাচিত্র থেকে শুরু করে আধুনিক চলচ্চিত্র এবং নিমজ্জিত ভিডিও গেম পর্যন্ত। শিশুরা সমুদ্র সৈকতে দুর্গ তৈরি করুক বা তাদের কম্পিউটারে মাইনক্রাফ্ট খেলুক, বাস্তব বা ভার্চুয়াল জগতে তাদের ইন্টারেক্টিভ অভিজ্ঞতার কেন্দ্রবিন্দুতে স্থানিক-ভিত্তিক কল্পনাশক্তি থাকে।

অনেক শিল্পে, বস্তু, দৃশ্য এবং গতিশীল ইন্টারেক্টিভ পরিবেশের সিমুলেশন একটি গুরুত্বপূর্ণ সহায়তা হয়ে উঠেছে – শিল্প নকশা থেকে ডিজিটাল যমজ, রোবট প্রশিক্ষণ থেকে শুরু করে বিভিন্ন ব্যবসায়িক অ্যাপ্লিকেশন পর্যন্ত, স্থানিক বুদ্ধিমত্তা অসংখ্য গুরুত্বপূর্ণ ব্যবহারিক পরিস্থিতি পরিচালনা করে।

ইতিহাস জুড়ে, সভ্যতার গতিপথ গঠনকারী অনেক গুরুত্বপূর্ণ মুহূর্তগুলিতে স্থানিক বুদ্ধিমত্তা কেন্দ্রীয় ভূমিকা পালন করেছে।

প্রাচীন গ্রীসে, এরাটোস্থেনিস "ছায়া" পর্যবেক্ষণ করে জ্যামিতিক নীতিগুলি নির্ণয় করেছিলেন – তিনি আলেকজান্দ্রিয়ায় সূর্যালোক এবং ভূমি দ্বারা গঠিত 7-ডিগ্রি কোণ পরিমাপ করেছিলেন এবং একই সাথে লক্ষ্য করেছিলেন যে সাইন শহরে কোনও ছায়া পড়েনি, এইভাবে পৃথিবীর পরিধি গণনা করেছিলেন।

হারগ্রিভের "স্পিনিং জেনি" আবিষ্কার একটি চতুর স্থানিক বিন্যাসের মাধ্যমে টেক্সটাইল শিল্পে বিপ্লব ঘটিয়েছিল: তিনি একই ফ্রেমে পাশাপাশি একাধিক স্পিন্ডেল স্থাপন করেছিলেন, যার ফলে একজন শ্রমিক একই সাথে একাধিক সুতা ঘুরাতে পারতেন, যার ফলে উৎপাদন দক্ষতা আটগুণ বৃদ্ধি পায়।

অন্যদিকে, ওয়াটসন এবং ক্রিক হাতে ত্রিমাত্রিক আণবিক মডেল তৈরি করেছিলেন, ধাতব প্লেট এবং তারগুলিকে কাজে লাগিয়ে অবশেষে ডিএনএর স্থানিক কাঠামো একত্রিত করেছিলেন, যার ফলে বেস জোড়াগুলি পুরোপুরি একসাথে ফিট হয়ে গিয়েছিল।

এই ক্ষেত্রে, স্থানিক বুদ্ধিমত্তা মানব সভ্যতাকে এগিয়ে নিয়ে যাওয়ার একটি মূল শক্তি – বিজ্ঞানী এবং উদ্ভাবকদের অবশ্যই বস্তুগুলিকে কাজে লাগাতে হবে, কাঠামো কল্পনা করতে হবে এবং ভৌত স্থানে যুক্তি করতে হবে, এমন প্রক্রিয়া যা শব্দে সম্পূর্ণরূপে প্রকাশ করা যায় না।

স্থানিক বুদ্ধিমত্তা "ভারা" হিসেবে কাজ করে যার উপর মানুষের জ্ঞান তৈরি হয়। এটি নিষ্ক্রিয় পর্যবেক্ষণ এবং সক্রিয় সৃষ্টি উভয় ক্ষেত্রেই ভূমিকা পালন করে। এটি আমাদের যুক্তি এবং পরিকল্পনাকে চালিত করে, এমনকি যখন আমরা সবচেয়ে বিমূর্ত সমস্যার মুখোমুখি হই। এটি নির্ধারণ করে যে আমরা বিশ্বের সাথে কীভাবে যোগাযোগ করি – মৌখিক যোগাযোগের মাধ্যমে বা শারীরিক ক্রিয়াকলাপের মাধ্যমে, এবং আমরা অন্যদের সাথে বা পরিবেশের সাথেই যোগাযোগ করি কিনা।

যদিও আমাদের বেশিরভাগই এরাটোস্থেনিসের মতো প্রতিদিন প্রকৃতির রহস্য উন্মোচন করি না, তবুও আমরা একইভাবে চিন্তা করি – আমাদের ইন্দ্রিয়ের মাধ্যমে জটিল বিশ্বকে বোঝা এবং এর ভৌত ও স্থানিক আইনগুলিকে স্বজ্ঞাতভাবে উপলব্ধি করা।

দুর্ভাগ্যবশত, বর্তমান কৃত্রিম বুদ্ধিমত্তা এখনও এইভাবে চিন্তা করতে সক্ষম নয়।

গত কয়েক বছরে কৃত্রিম বুদ্ধিমত্তা সত্যিই অসাধারণ অগ্রগতি অর্জন করেছে। মাল্টিমোডাল লার্জ ল্যাঙ্গুয়েজ মডেল (এমএলএলএম), যা বিপুল পরিমাণে মাল্টিমিডিয়া ডেটা (টেক্সট ছাড়াও ছবি, অডিও এবং ভিডিও সহ) এর উপর প্রশিক্ষিত, একটি নির্দিষ্ট মাত্রার "স্থানিক সচেতনতা" অর্জন করতে শুরু করেছে। আজকের এআই ছবি বিশ্লেষণ করতে পারে, ছবি-সম্পর্কিত প্রশ্নের উত্তর দিতে পারে এবং অত্যন্ত বাস্তবসম্মত ছবি এবং ছোট ভিডিও তৈরি করতে পারে। একই সময়ে, সেন্সর এবং স্পর্শকাতর প্রযুক্তির অগ্রগতির জন্য ধন্যবাদ, অত্যাধুনিক রোবটগুলি অত্যন্ত সীমাবদ্ধ পরিবেশে বস্তু এবং সরঞ্জামগুলি পরিচালনা করতে সক্ষম হতে শুরু করেছে।

সত্যি বলতে, AI-এর স্থানিক ক্ষমতা এখনও মানুষের স্তর থেকে অনেক দূরে, এবং এই ব্যবধান তাৎক্ষণিকভাবে স্পষ্ট। বর্তমানে উপলব্ধ সবচেয়ে উন্নত MLLM মডেলগুলি প্রায়শই দূরত্ব, দিক এবং আকার অনুমান করার ক্ষেত্রে এলোমেলো অনুমানের চেয়ে খুব বেশি ভালো কাজ করে না – তারা মানুষের মতো মানসিকভাবে বস্তুগুলিকে "ঘোরাতে" পারে না, বিভিন্ন কোণ থেকে তাদের আকার পুনর্কল্পনা করতে পারে না। তারা গোলকধাঁধায় নেভিগেট করতে পারে না, শর্টকাট সনাক্ত করতে পারে না, অথবা পদার্থবিদ্যার সবচেয়ে মৌলিক আইন ভবিষ্যদ্বাণী করতে পারে না। যদিও AI-উত্পাদিত ভিডিওগুলি চিত্তাকর্ষক, তারা প্রায়শই কয়েক সেকেন্ড পরে তাদের সুসংগতি হারিয়ে ফেলে।

যদিও অত্যাধুনিক কৃত্রিম বুদ্ধিমত্তা পড়া, লেখা, গবেষণা এবং ডেটা প্যাটার্ন স্বীকৃতির মতো কাজে উৎকৃষ্ট, তবুও ভৌত জগতকে বোঝার বা তার সাথে মিথস্ক্রিয়া করার ক্ষেত্রে এটি মৌলিক সীমাবদ্ধতার সম্মুখীন হয়। বিশ্ব সম্পর্কে আমাদের ধারণা সামগ্রিক – আমরা কেবল "জিনিসগুলি" নিজেই দেখি না বরং তাদের স্থানিক সম্পর্ক, অর্থ এবং গুরুত্বও বুঝতে পারি। স্থানিক বুদ্ধিমত্তার শক্তি কেবল ভাষার মাধ্যমে নয়, কল্পনা, যুক্তি, সৃষ্টি এবং মিথস্ক্রিয়ার মাধ্যমে বিশ্বকে বোঝার মধ্যে নিহিত।

এই ক্ষমতা ছাড়া, কৃত্রিম বুদ্ধিমত্তা (এআই) প্রকৃত বাস্তবতার সাথে সংযোগ স্থাপন করতে পারবে না যা সে বুঝতে চায়। এটি নিরাপদে এবং দক্ষতার সাথে গাড়ি চালাতে পারবে না, বাড়ি বা হাসপাতালে নমনীয়ভাবে রোবটদের পরিচালনা করতে পারবে না, শেখার এবং বিনোদনের জন্য সম্পূর্ণ নতুন নিমজ্জিত ইন্টারেক্টিভ অভিজ্ঞতা প্রদান করতে পারবে না, অথবা পদার্থ বিজ্ঞান বা চিকিৎসা ক্ষেত্রে আবিষ্কারগুলিকে উল্লেখযোগ্যভাবে ত্বরান্বিত করতে পারবে না।

দার্শনিক লুডভিগ উইটজেনস্টাইন একবার লিখেছিলেন, "আমার ভাষার সীমা মানে আমার বিশ্বের সীমা।"

আমি দার্শনিক নই, কিন্তু আমি জানি যে কৃত্রিম বুদ্ধিমত্তার জন্য, পৃথিবী কেবল "ভাষা" নয়। স্থানিক বুদ্ধিমত্তা ভাষার বাইরেও একটি সীমানা প্রতিনিধিত্ব করে – এটি কল্পনা, উপলব্ধি এবং কর্মকে সংযুক্ত করার ক্ষমতা, যা মেশিনগুলিকে মানুষের জীবনের সম্ভাবনাকে সত্যিকার অর্থে প্রসারিত করতে সক্ষম করে, চিকিৎসা থেকে সৃজনশীলতা, বৈজ্ঞানিক আবিষ্কার থেকে দৈনন্দিন সহায়তা পর্যন্ত, এইভাবে নতুন সম্ভাবনার দ্বার উন্মোচন করে।

কৃত্রিম বুদ্ধিমত্তার পরবর্তী দশক: প্রকৃত স্থানিক বুদ্ধিমত্তা দিয়ে মেশিন তৈরি

তাহলে স্থানিক বুদ্ধিমত্তা দিয়ে আমরা কীভাবে এআই তৈরি করব? কীভাবে আমরা মডেলদেরকে এরাটোস্থেনিসের মতো স্থানিক যুক্তি সম্পাদন করতে, একজন শিল্প ডিজাইনারের মতো নির্ভুলতার সাথে তৈরি করতে, একজন গল্পকারের মতো কল্পনাপ্রবণ হতে এবং একজন উদ্ধারকারীর মতো জটিল পরিবেশে নমনীয়ভাবে চলাফেরা করতে সক্ষম করতে পারি?

এটি অর্জনের জন্য, আমাদের কেবল বৃহৎ ভাষা মডেল (LLM) এর চেয়েও বেশি কিছুর প্রয়োজন; আমাদের আরও উচ্চাকাঙ্ক্ষী ব্যবস্থার প্রয়োজন – বিশ্ব মডেল। এটি সম্পূর্ণ নতুন ধরণের উৎপাদক মডেল যা শব্দার্থগত, শারীরিক, জ্যামিতিক এবং গতিশীল জটিল জগতগুলিকে বোঝা, যুক্তি, উৎপন্ন এবং মিথস্ক্রিয়া করতে সক্ষম – ভার্চুয়াল হোক বা বাস্তব – বর্তমান LLM-এর ক্ষমতাকে অনেক বেশি ছাড়িয়ে যায়।

এই গবেষণা ক্ষেত্রটি এখনও প্রাথমিক পর্যায়ে রয়েছে, বর্তমান অনুসন্ধানগুলি বিমূর্ত যুক্তি মডেল থেকে শুরু করে ভিডিও জেনারেশন সিস্টেম পর্যন্ত বিস্তৃত। ওয়ার্ল্ড ল্যাবস 2024 সালের গোড়ার দিকে এই বিশ্বাস নিয়ে প্রতিষ্ঠিত হয়েছিল: আমরা বিশ্বাস করি যে মৌলিক পদ্ধতিগুলি এখনও প্রতিষ্ঠিত হয়নি, এবং এটিই পরবর্তী দশকে কৃত্রিম বুদ্ধিমত্তার বিকাশের জন্য নির্ণায়ক চ্যালেঞ্জ।

এই উদীয়মান ক্ষেত্রে, সবচেয়ে গুরুত্বপূর্ণ বিষয় হল উন্নয়নকে পরিচালিত করার জন্য মূল নীতিগুলির একটি সেট প্রতিষ্ঠা করা। স্থানিক বুদ্ধিমত্তার জন্য, আমি একটি "বিশ্ব মডেল" কে নিম্নলিখিত তিনটি মূল ক্ষমতা সম্পন্ন একটি সিস্টেম হিসাবে সংজ্ঞায়িত করি:

১. উৎপাদক: বিশ্ব মডেলটি ইন্দ্রিয়গ্রাহ্য, জ্যামিতিক এবং ভৌত ধারাবাহিকতা সহ একটি বিশ্ব তৈরি করতে পারে।

স্থানিক বোধগম্যতা এবং যুক্তি অর্জনের জন্য, বিশ্ব মডেলগুলির নিজস্ব "সিমুলেটেড ওয়ার্ল্ডস" তৈরি করার ক্ষমতা থাকতে হবে। তাদের শব্দার্থিক বা ইন্দ্রিয়গ্রাহ্য নির্দেশাবলীর উপর ভিত্তি করে অসীম বৈচিত্র্যের ভার্চুয়াল ওয়ার্ল্ডস তৈরি করতে সক্ষম হওয়া উচিত – এই ওয়ার্ল্ডসগুলিকে জ্যামিতিক কাঠামো, ভৌত আইন এবং গতিশীল পরিবর্তনের ক্ষেত্রে ধারাবাহিকতা বজায় রাখতে হবে, তারা বাস্তব বা ভার্চুয়াল স্থানের প্রতিনিধিত্ব করে কিনা তা নির্বিশেষে।

গবেষণা সম্প্রদায় সক্রিয়ভাবে অনুসন্ধান করছে যে এই জগতগুলিকে তাদের অন্তর্নিহিত জ্যামিতিক কাঠামো ব্যবহার করে পরোক্ষভাবে নাকি স্পষ্টভাবে উপস্থাপন করা উচিত। অধিকন্তু, শক্তিশালী সুপ্ত প্রতিনিধিত্বমূলক ক্ষমতার অধিকারী হওয়ার পাশাপাশি, আমি বিশ্বাস করি যে একটি সাধারণ-উদ্দেশ্যমূলক বিশ্ব মডেলকে বিভিন্ন প্রয়োগের পরিস্থিতিতে খাপ খাইয়ে নেওয়ার জন্য স্পষ্টভাবে পর্যবেক্ষণযোগ্য বিশ্ব রাষ্ট্রগুলিকে আউটপুট করতে সক্ষম হতে হবে। গুরুত্বপূর্ণভাবে, "বর্তমান বিশ্ব" সম্পর্কে মডেলের বোধগম্যতা "অতীত বিশ্ব" এর অবস্থার সাথে সামঞ্জস্যপূর্ণ হতে হবে – এটি অতীত থেকে বর্তমান পর্যন্ত বিশ্ব কীভাবে বিবর্তিত হয়েছে তা বুঝতে সক্ষম হতে হবে।

২. মাল্টিমোডালিটি: বিশ্ব মডেলটি মাল্টিমোডাল হওয়ার জন্য ডিজাইন করা হয়েছে।

মানুষ এবং প্রাণীর মতোই, বিশ্ব মডেলগুলির একাধিক ধরণের ইনপুট পরিচালনা করতে সক্ষম হওয়া উচিত – জেনারেটিভ এআই-এর ক্ষেত্রে, এই ইনপুটগুলিকে "প্রম্পট" বলা হয়। অসম্পূর্ণ তথ্যের (যেমন ছবি, ভিডিও, গভীরতার মানচিত্র, পাঠ্য আদেশ, অঙ্গভঙ্গি, বা ক্রিয়া) মুখোমুখি হয়ে, বিশ্ব মডেলগুলি সম্ভাব্য সবচেয়ে সম্পূর্ণ বিশ্ব অবস্থা ভবিষ্যদ্বাণী করতে বা তৈরি করতে সক্ষম হওয়া উচিত।

এর জন্য ভিজ্যুয়াল ইনপুট প্রক্রিয়াকরণের সময় প্রায় বাস্তবসম্মত ভিজ্যুয়াল নির্ভুলতা থাকা প্রয়োজন, একই সাথে শব্দার্থিক নির্দেশাবলী বোঝার ক্ষেত্রে সমানভাবে নমনীয় থাকা প্রয়োজন। এইভাবে, এজেন্ট এবং মানুষ উভয়ই বিভিন্ন ইনপুটের মাধ্যমে মডেলের সাথে যোগাযোগ করতে পারে এবং সমানভাবে বৈচিত্র্যময় আউটপুট প্রতিক্রিয়া পেতে পারে।

৩. ইন্টারেক্টিভ: ইনপুট অ্যাকশনের উপর ভিত্তি করে ওয়ার্ল্ড মডেল পরবর্তী ওয়ার্ল্ড স্টেট আউটপুট দিতে পারে।

অবশেষে, যখন ইনপুট প্রম্পটের অংশ হিসেবে একটি "ক্রিয়া" বা "লক্ষ্য" ব্যবহার করা হয়, তখন বিশ্ব মডেলের আউটপুটে বিশ্বের পরবর্তী অবস্থা অন্তর্ভুক্ত থাকতে হবে, যা অন্তর্নিহিত বা স্পষ্ট হতে পারে।

যখন একটি মডেল একটি ক্রিয়া (তাতে একটি লক্ষ্য অবস্থা থাকুক বা না থাকুক) ইনপুট হিসেবে গ্রহণ করে, তখন এটি এমন একটি ফলাফল আউটপুট করতে সক্ষম হবে যা বিশ্বের পূর্ববর্তী অবস্থা, লক্ষ্য অবস্থা (যদি থাকে), শব্দার্থিক অর্থ, ভৌত আইন এবং গতিশীল আচরণের সাথে সামঞ্জস্যপূর্ণ।

স্থানিকভাবে বুদ্ধিমান বিশ্ব মডেলগুলি তাদের যুক্তি এবং উৎপাদন ক্ষমতা বৃদ্ধি করে চলেছে, তাই এটি অনুমেয় যে ভবিষ্যতে, যখন একটি নির্দিষ্ট লক্ষ্যের মুখোমুখি হবে, তখন বিশ্ব মডেল কেবল বিশ্বের পরবর্তী অবস্থা ভবিষ্যদ্বাণী করতে সক্ষম হবে না, বরং এই নতুন অবস্থার উপর ভিত্তি করে "পরবর্তী পদক্ষেপ" ভবিষ্যদ্বাণীও করতে সক্ষম হবে।

এই চ্যালেঞ্জের মাত্রা কৃত্রিম বুদ্ধিমত্তার আগে যে কোনও চ্যালেঞ্জের মুখোমুখি হয়েছে তার চেয়ে অনেক বেশি।

ভাষা মানুষের জ্ঞানের ক্ষেত্রে একটি সম্পূর্ণরূপে উৎপাদিত ঘটনা; তবে, "বিশ্ব" অনেক জটিল আইন অনুসরণ করে। উদাহরণ হিসেবে পৃথিবীকে ধরুন: মাধ্যাকর্ষণ তার গতির নিয়ম নির্ধারণ করে, পারমাণবিক গঠন আলোর রঙ এবং উজ্জ্বলতাকে প্রভাবিত করে এবং অসংখ্য ভৌত আইন প্রতিটি মিথস্ক্রিয়াকে সীমাবদ্ধ করে। এমনকি সবচেয়ে কল্পনাপ্রসূত কাল্পনিক জগৎ এখনও স্থানিক বস্তু এবং বুদ্ধিমান এজেন্টদের সমন্বয়ে গঠিত যারা এই ভৌত আইন এবং গতিশীল আচরণ মেনে চলে। একই মডেলের মধ্যে শব্দার্থিক, জ্যামিতিক, গতিশীল এবং ভৌত মাত্রার মধ্যে সামঞ্জস্য বজায় রাখার জন্য সম্পূর্ণ নতুন পদ্ধতি এবং পদ্ধতির প্রয়োজন।

বিশ্বের প্রতিনিধিত্ব ভাষার চেয়ে অনেক বেশি জটিল, একটি "একমাত্রিক, ক্রমিক সংকেত"। বিশ্ব মডেলগুলিকে মানুষের মতো সার্বজনীন ক্ষমতা প্রদান করতে, আমাদের বেশ কয়েকটি ভয়ঙ্কর প্রযুক্তিগত বাধা অতিক্রম করতে হবে। ওয়ার্ল্ড ল্যাবসে, আমাদের গবেষণা দল এই লক্ষ্য অর্জনে মৌলিক অগ্রগতির ভিত্তি স্থাপনের জন্য কাজ করছে।

আমরা বর্তমানে যেসব বিষয় নিয়ে গবেষণা করছি তার কিছু উদাহরণ এখানে দেওয়া হল:

একটি অভিনব, সাধারণ প্রশিক্ষণ কার্য ফাংশন – বিশ্ব মডেলের জন্য একটি সর্বজনীন কার্য ফাংশন সংজ্ঞায়িত করা যা বৃহৎ ভাষা মডেলগুলিতে (LLMs)-এর "পরবর্তী শব্দের ভবিষ্যদ্বাণী"-এর মতোই সহজ এবং মার্জিত – দীর্ঘদিন ধরে এই ক্ষেত্রে একটি মূল লক্ষ্য হয়ে দাঁড়িয়েছে। তবে, বিশ্ব মডেলগুলির ইনপুট এবং আউটপুট স্থানগুলির বৃহত্তর জটিলতার কারণে, এই ধরণের ফাংশন ডিজাইন করা অনেক বেশি চ্যালেঞ্জিং। যদিও অনেক অজানা বিষয় অন্বেষণ করা বাকি রয়েছে, এই বস্তুনিষ্ঠ ফাংশন এবং এর সংশ্লিষ্ট উপস্থাপনা অবশ্যই জ্যামিতিক এবং ভৌত আইন প্রতিফলিত করতে সক্ষম হবে, বিশ্ব মডেলের সারাংশকে বিশ্বস্তভাবে প্রতিফলিত করবে "কল্পনা এবং বাস্তবতাকে সংযুক্তকারী মূল প্রতিনিধিত্ব" হিসাবে।

বিপুল পরিমাণে প্রশিক্ষণ ডেটা দিয়ে বিশ্ব মডেলগুলিকে প্রশিক্ষণ দেওয়ার জন্য টেক্সট ডেটার চেয়ে অনেক বেশি ডেটা জটিলতা প্রয়োজন। সুখবর হল যে বিশাল ডেটা উৎস ইতিমধ্যেই বিদ্যমান। ইন্টারনেট-স্কেল চিত্র এবং ভিডিও সংস্থানগুলি প্রশিক্ষণের জন্য প্রচুর এবং সহজেই উপলব্ধ উপকরণ সরবরাহ করে। আসল চ্যালেঞ্জ হল দ্বি-মাত্রিক চিত্র বা ভিডিও ফ্রেমের (যেমন, RGB সংকেত) উপর ভিত্তি করে এই ডেটা থেকে গভীর স্থানিক তথ্য আহরণের জন্য অ্যালগরিদম তৈরি করা। গত দশকে গবেষণায় দেখা গেছে যে ভাষা মডেলগুলিতে কর্মক্ষমতা উন্নতি "ডেটা ভলিউম এবং মডেল আকার সম্প্রসারণ আইন" অনুসরণ করে; অন্যদিকে বিশ্ব মডেলগুলির জন্য, মূল অগ্রগতি হল এমন মডেল আর্কিটেকচার তৈরি করা যা একই স্কেলে ভিজ্যুয়াল ডেটা সম্পূর্ণরূপে ব্যবহার করতে পারে।

অধিকন্তু, আমাদের উচ্চ-মানের সিন্থেটিক ডেটা এবং গভীরতার মানচিত্র এবং হ্যাপটিক প্রতিক্রিয়ার মতো অতিরিক্ত পদ্ধতির মূল্যকে অবমূল্যায়ন করা উচিত নয়। প্রশিক্ষণ প্রক্রিয়ার গুরুত্বপূর্ণ পর্যায়ে এগুলি ইন্টারনেট-স্কেল ডেটার পরিপূরক হতে পারে। এই প্রক্রিয়াটিকে আরও দক্ষ করে তোলার জন্য আরও উন্নত সেন্সিং সিস্টেম, আরও শক্তিশালী সংকেত নিষ্কাশন অ্যালগরিদম এবং আরও শক্তিশালী নিউরাল সিমুলেশন কৌশলের উপরও নির্ভর করে।

নতুন মডেল আর্কিটেকচার এবং রিপ্রেজেন্টেশন লার্নিং ওয়ার্ল্ড মডেলের উপর গবেষণা অনিবার্যভাবে মডেল আর্কিটেকচার এবং লার্নিং অ্যালগরিদমে নতুনত্ব আনবে, বিশেষ করে মাল্টিমোডাল ল্যাঙ্গুয়েজ মডেল (MLLM) এবং ভিডিও ডিফিউশন মডেলের বর্তমান প্যারাডিজমের বাইরে। বিদ্যমান পদ্ধতিগুলি সাধারণত এক-মাত্রিক বা দ্বি-মাত্রিক ক্রমগুলিতে ডেটা "বিভাগ" করে, যা কিছু সহজ স্থানিক কাজকে ব্যতিক্রমীভাবে কঠিন করে তোলে – যেমন একটি ছোট ভিডিওতে বিভিন্ন চেয়ার গণনা করা বা এক ঘন্টা আগে ঘরের লেআউট মনে রাখা।

নতুন স্থাপত্য উন্নতি আনতে পারে, যেমন শব্দ বিভাজন, প্রসঙ্গ এবং মেমরি প্রক্রিয়ায় 3D বা 4D উপলব্ধি ক্ষমতা প্রবর্তন করা। উদাহরণস্বরূপ, ওয়ার্ল্ড ল্যাবস দ্বারা সম্প্রতি তৈরি রিয়েল-টাইম জেনারেটিভ ফ্রেম মডেল (RTFM) এই পরিবর্তনের উদাহরণ দেয়। এই মডেলটি "স্থান-ভিত্তিক ফ্রেম" কে স্থানিক মেমরি ইউনিট হিসাবে ব্যবহার করে উৎপন্ন বিশ্বে ধারাবাহিকতা এবং স্থিতিশীলতা বজায় রেখে দক্ষ রিয়েল-টাইম জেনারেশন অর্জন করে।

স্পষ্টতই, "বিশ্ব মডেলিং" এর মাধ্যমে স্থানিক বুদ্ধিমত্তার সম্ভাবনা সম্পূর্ণরূপে উন্মোচন করার আগে আমাদের এখনও অনেক ভয়ঙ্কর চ্যালেঞ্জ অতিক্রম করতে হবে।

এই গবেষণা কেবল তাত্ত্বিক অনুসন্ধানের চেয়েও বেশি কিছু – এটি একটি মূল ইঞ্জিন যা নতুন প্রজন্মের সৃজনশীল এবং উৎপাদনশীল সরঞ্জামগুলিকে চালিত করে। এবং ওয়ার্ল্ড ল্যাবসে, আমরা ইতিমধ্যে কিছু উত্তেজনাপূর্ণ অগ্রগতি অর্জন করেছি।

সম্প্রতি, আমরা সীমিত সংখ্যক ব্যবহারকারীর কাছে মার্বেল প্রদর্শন করেছি – এটি বিশ্বের প্রথম মডেল যা মাল্টিমোডাল ইনপুট প্রম্পটের মাধ্যমে ধারাবাহিক 3D পরিবেশ তৈরি এবং বজায় রাখতে সক্ষম। এটি ব্যবহারকারী এবং নির্মাতাদের এই ভার্চুয়াল স্পেসগুলির মধ্যে অন্বেষণ এবং ইন্টারঅ্যাক্ট করতে এবং সৃজনশীল প্রক্রিয়ার মধ্যে আরও প্রসারিত করতে সহায়তা করে। আমরা যত তাড়াতাড়ি সম্ভব মার্বেলকে জনসাধারণের কাছে আনার জন্য কঠোর পরিশ্রম করছি!

মার্বেল হলো সত্যিকার অর্থে স্থানিকভাবে বুদ্ধিমান বিশ্ব মডেলের দিকে আমাদের যাত্রার প্রথম ধাপ মাত্র।
গবেষণা যত দ্রুততর হচ্ছে, গবেষক, প্রকৌশলী, ব্যবহারকারী এবং ব্যবসায়ী নেতারা এই প্রযুক্তির অসাধারণ সম্ভাবনাকে স্বীকৃতি দিতে শুরু করেছেন। পরবর্তী প্রজন্মের বিশ্ব মডেলটি মেশিনগুলিকে স্থানিক বুদ্ধিমত্তার একটি সম্পূর্ণ নতুন স্তর অর্জন করতে সক্ষম করবে – আজকের এআই সিস্টেম থেকে মূলত অনুপস্থিত মূল ক্ষমতাগুলি আনলক করা।

"বিশ্ব মডেল" ব্যবহার করে একটি উন্নত মানবিক বিশ্ব গড়ে তোলা

এআই উন্নয়নের প্রচারের প্রেরণা অত্যন্ত গুরুত্বপূর্ণ।

কৃত্রিম বুদ্ধিমত্তার আধুনিক যুগের সূচনায় অংশগ্রহণকারী একজন বিজ্ঞানী হিসেবে, আমার মূল উদ্দেশ্য সবসময় স্পষ্ট ছিল: কৃত্রিম বুদ্ধিমত্তার উচিত মানুষের ক্ষমতা বৃদ্ধি করা, প্রতিস্থাপন করা নয়।

বহু বছর ধরে, আমি নিশ্চিত করতে প্রতিশ্রুতিবদ্ধ যে কৃত্রিম বুদ্ধিমত্তার উন্নয়ন, প্রয়োগ এবং শাসন মানুষের চাহিদার সাথে আরও ভালোভাবে সামঞ্জস্যপূর্ণ। আজ, প্রযুক্তিগত ইউটোপিয়া এবং কেয়ামতের পরিস্থিতি সম্পর্কে চরম আখ্যান প্রচুর, কিন্তু আমি দৃঢ়ভাবে এই বাস্তববাদী বিশ্বাসের প্রতি প্রতিশ্রুতিবদ্ধ যে কৃত্রিম বুদ্ধিমত্তা মানুষের দ্বারা তৈরি, মানুষের সেবা করে এবং মানুষের দ্বারা পরিচালিত হয়।

এটিকে সর্বদা মানুষের স্বায়ত্তশাসন এবং মর্যাদাকে সম্মান করতে হবে। AI এর আসল জাদু আমাদের ক্ষমতা বৃদ্ধির মধ্যে নিহিত – আমাদের আরও সৃজনশীল, আরও সংযুক্ত, আরও দক্ষ এবং আরও পরিপূর্ণ করে তোলা।

স্থানিক বুদ্ধিমত্তা এই দৃষ্টিভঙ্গির প্রতীক:

এটি এক ধরণের কৃত্রিম বুদ্ধিমত্তা যা মানব স্রষ্টা, যত্নশীল, বিজ্ঞানী এবং স্বপ্নদ্রষ্টাদের ক্ষমতায়িত করে, আমাদের এমন লক্ষ্য অর্জনে সহায়তা করে যা আগে অসম্ভব ছিল।
এই বিশ্বাসই "স্থানিক বুদ্ধিমত্তা" কে কৃত্রিম বুদ্ধিমত্তার পরবর্তী মহান সীমান্ত ক্ষেত্র হিসেবে বিবেচনা করার আমার দৃঢ় সংকল্পকে সমর্থন করে।

স্থানিক বুদ্ধিমত্তার প্রয়োগ পর্যায়ক্রমে চালু করা হবে।

আজ, সৃজনশীল হাতিয়ারগুলি আবির্ভূত হচ্ছে—ওয়ার্ল্ড ল্যাবসের মার্বেল এই ক্ষমতাগুলি স্রষ্টা এবং গল্পকারদের হাতে তুলে দিয়েছে।
রোবোটিক্স একটি মধ্যমেয়াদী লক্ষ্য, এবং আমরা "উপলব্ধি-ক্রিয়া" চক্রকে ক্রমাগত উন্নত করছি যাতে যন্ত্রগুলি ভৌত ​​জগতে নমনীয়ভাবে কাজ করতে পারে।
সবচেয়ে রূপান্তরকারী বৈজ্ঞানিক প্রয়োগগুলি আরও বেশি সময় নিতে পারে, তবে তাদের প্রভাব মানুষের সুস্থতার ব্যাপক উন্নতির জন্য যথেষ্ট গভীর হবে।

উন্নয়নের এই বিভিন্ন স্তরের মধ্যে, বেশ কয়েকটি গুরুত্বপূর্ণ ক্ষেত্র আলাদাভাবে দাঁড়িয়ে আছে – মানবিক ক্ষমতা পুনর্নির্ধারণের জন্য এগুলিতে অপরিসীম সম্ভাবনা রয়েছে।

এই লক্ষ্য অর্জনের জন্য অনিবার্যভাবে সম্মিলিত প্রচেষ্টার প্রয়োজন হবে – এটি একক দল বা কোম্পানির দ্বারা অর্জন করা সম্ভব নয়।

এর জন্য সমগ্র AI ইকোসিস্টেমের সম্মিলিত অংশগ্রহণের প্রয়োজন হবে: গবেষক, উদ্ভাবক, উদ্যোক্তা, কোম্পানি এবং এমনকি নীতিনির্ধারকদেরও একটি ভাগ করা দৃষ্টিভঙ্গির দিকে একসাথে কাজ করা উচিত।

এই দৃষ্টিভঙ্গির জন্য প্রচেষ্টা করা মূল্যবান।

ভবিষ্যৎ এখান থেকেই উন্মোচিত হবে:

সৃজনশীলতা: গল্প বলা এবং নিমজ্জিত অভিজ্ঞতা প্রদান করা, পরাশক্তি

"সৃজনশীলতাই বুদ্ধিমত্তার খেলা।" এটি আমার প্রিয় উক্তি, আমার ব্যক্তিগত নায়ক আইনস্টাইনের। লিখিত ভাষার অনেক আগে থেকেই মানুষ গল্প বলত – গুহার দেয়ালে গল্প আঁকত, মুখে মুখে সেগুলি ছড়িয়ে দিত এবং ভাগ করা আখ্যানের মাধ্যমে সমগ্র সংস্কৃতি গড়ে তুলত। গল্পগুলি আমাদের বিশ্বকে বুঝতে, সময় ও স্থানের মধ্যে সংযোগ স্থাপন করতে এবং "মানবতা" বলতে কী বোঝায় তা অন্বেষণ করতে সাহায্য করে। আরও গুরুত্বপূর্ণ বিষয় হল, তারা আমাদের জীবন এবং প্রেমের অর্থ খুঁজে পেতে সাহায্য করে।

আজ, স্থানিক বুদ্ধিমত্তার সম্ভাবনা রয়েছে যে আমরা গল্প তৈরি এবং অভিজ্ঞতার পদ্ধতিতে বিপ্লব ঘটাতে পারি, কেবল এর মৌলিক গুরুত্বই সংরক্ষণ করে না বরং বিনোদন, শিক্ষা, নকশা এবং স্থাপত্যের মতো একাধিক ক্ষেত্রে এর প্রভাবও প্রসারিত করে।

ওয়ার্ল্ড ল্যাবসের মার্বেল প্ল্যাটফর্ম চলচ্চিত্র নির্মাতা, গেম ডিজাইনার, স্থপতি এবং গল্পকারদের অভূতপূর্ব স্থানিক ক্ষমতা এবং সম্পাদকীয় নিয়ন্ত্রণ প্রদান করে, যা তাদেরকে ঐতিহ্যবাহী 3D ডিজাইন সফ্টওয়্যারের জন্য প্রয়োজনীয় উল্লেখযোগ্য বিনিয়োগ ছাড়াই দ্রুত অবাধে অন্বেষণযোগ্য 3D জগৎ তৈরি এবং পুনরাবৃত্তি করতে সক্ষম করে। সৃষ্টি নিজেই একটি মানবিক এবং গতিশীল কার্যকলাপ হিসাবে রয়ে গেছে; AI সরঞ্জামগুলি কেবল স্রষ্টার সম্ভাবনাকে প্রসারিত এবং ত্বরান্বিত করে। এর মধ্যে রয়েছে:

  • বহুমাত্রিক আখ্যান অভিজ্ঞতা: চলচ্চিত্র নির্মাতা এবং গেম ডিজাইনাররা মার্বেল ব্যবহার করে সম্পূর্ণ ভার্চুয়াল জগৎ তৈরি করছেন, যা আর বাজেট বা অবস্থানের দ্বারা সীমাবদ্ধ নয়। তারা বিভিন্ন দৃশ্য এবং দৃষ্টিভঙ্গি অন্বেষণ করতে পারেন, যা ঐতিহ্যবাহী প্রযোজনা কর্মপ্রবাহে প্রায় অসম্ভব। বিভিন্ন মিডিয়া এবং বিনোদন ফর্মের মধ্যে সীমানা ক্রমশ ঝাপসা হয়ে যাওয়ার সাথে সাথে, আমরা ইন্টারেক্টিভ অভিজ্ঞতার একটি নতুন রূপের দিকে এগিয়ে যাচ্ছি যা শিল্প, সিমুলেশন এবং গেমগুলিকে মিশ্রিত করে – ব্যক্তিগতকৃত জগৎ যা আর কেবল বড় স্টুডিওর অন্তর্গত নয়, বরং যে কেউ তৈরি এবং অংশগ্রহণ করতে পারে। ধারণা এবং স্টোরিবোর্ডগুলিকে সম্পূর্ণ অভিজ্ঞতায় রূপান্তর করার দ্রুত পদ্ধতির সাহায্যে, আখ্যান আর একটি মাধ্যমের মধ্যে সীমাবদ্ধ থাকবে না; নির্মাতারা বিভিন্ন প্ল্যাটফর্ম এবং ইন্টারফেস জুড়ে ভাগ করা থ্রেড সহ গল্পের জগৎ তৈরি করতে পারেন।
  • নকশার মাধ্যমে স্থানিক আখ্যান তৈরি করা: প্রায় প্রতিটি তৈরি বস্তু বা নির্মিত স্থানকে প্রকৃত রূপ নেওয়ার আগে প্রথমে ভার্চুয়াল 3D নকশার মধ্য দিয়ে যেতে হয়। এই প্রক্রিয়াটি সাধারণত সময়সাপেক্ষ, ব্যয়বহুল এবং অত্যন্ত পুনরাবৃত্তিমূলক। তবে, স্থানিকভাবে বুদ্ধিমান মডেলগুলির সাহায্যে, স্থপতিরা নকশায় কয়েক মাস বিনিয়োগ করার আগে কাঠামোগুলি দ্রুত কল্পনা করতে পারেন, এমনকি এমন স্থানগুলিতে "হেঁটে" যেতে পারেন যা এখনও বিদ্যমান নয় – ভবিষ্যতে আমরা কীভাবে বাস করব, কাজ করব এবং সামাজিকীকরণ করব তার গল্প বলতে পারেন। শিল্প এবং ফ্যাশন ডিজাইনাররাও তাৎক্ষণিকভাবে তাদের কল্পনাগুলিকে আকারে রূপান্তর করতে পারেন, বস্তুগুলি কীভাবে মানবদেহ এবং স্থানের সাথে মিথস্ক্রিয়া করে তা অন্বেষণ করতে পারেন।
  • নিমজ্জিত এবং ইন্টারেক্টিভ অভিজ্ঞতার একটি সম্পূর্ণ নতুন স্তর: অভিজ্ঞতা নিজেই আমরা মানুষের মধ্যে অর্থপূর্ণ জিনিসগুলিকে সঞ্চারিত করার সবচেয়ে গভীর উপায়গুলির মধ্যে একটি। মানব ইতিহাসের বেশিরভাগ সময় ধরে, আমাদের কেবল একটি ত্রিমাত্রিক জগৎ ছিল: আমরা যে বাস্তব জগৎ ভাগ করি। সাম্প্রতিক দশকগুলিতে, ভিডিও গেম এবং প্রাথমিক ভার্চুয়াল রিয়েলিটি (VR) এর মাধ্যমে, আমরা মানবজাতির দ্বারা সৃষ্ট আরেকটি জগৎ দেখতে শুরু করেছি। এখন, স্থানিক বুদ্ধিমত্তা, ভার্চুয়াল রিয়েলিটি (VR), বর্ধিত বাস্তবতা (XR) হেডসেট এবং নিমজ্জিত ডিসপ্লে ডিভাইসগুলির সমন্বয়ে, এই অভিজ্ঞতাগুলিকে অভূতপূর্ব উচ্চতায় নিয়ে যায়। আমরা এমন একটি ভবিষ্যতের দিকে এগিয়ে যাচ্ছি যেখানে একটি সম্পূর্ণরূপে নির্মিত, বহুমাত্রিক জগতে প্রবেশ করা বইয়ের পাতা উল্টানোর মতোই স্বাভাবিক হবে। স্থানিক বুদ্ধিমত্তা বিশ্ব-নির্মাণকে কেবল পেশাদার প্রযোজনা দল সহ স্টুডিওগুলির জন্য নয়, বরং গল্প এবং ধারণা সহ সকলের জন্য, স্বাধীন স্রষ্টা, শিক্ষাবিদ এবং যারা একটি দৃষ্টিভঙ্গি প্রকাশ করতে চান তাদের জন্যও একটি বিষয় করে তোলে।

রোবোটিক্স: গতিশীল মূর্ত বুদ্ধিমত্তা

পোকামাকড় থেকে শুরু করে মানুষ, প্রাণীরা তাদের চারপাশের জগৎকে বোঝার, চলাচল করার এবং তাদের সাথে যোগাযোগ করার জন্য স্থানিক বুদ্ধিমত্তার উপর নির্ভর করে। রোবটও এর ব্যতিক্রম নয়। স্থানিক সচেতনতা সম্পন্ন মেশিনগুলি রোবোটিক্সের ক্ষেত্রে দীর্ঘদিন ধরে একটি স্বপ্ন, এবং স্ট্যানফোর্ডে আমার গবেষণা ল্যাবে ছাত্র এবং সহযোগীদের সাথে আমার কাজ এই লক্ষ্যকে ঘিরেই আবর্তিত। ওয়ার্ল্ড ল্যাবস দ্বারা নির্মিত মডেলগুলি সম্পর্কে আমি এত উত্তেজিত হওয়ার এটি একটি কারণ – তারা এই স্বপ্নকে বাস্তবে পরিণত করার প্রতিশ্রুতি রাখে।

  • বিশ্ব মডেলের মাধ্যমে রোবট শেখার ক্ষমতা সম্প্রসারণ: রোবট শেখার অগ্রগতি স্কেলযোগ্য, উচ্চ-মানের প্রশিক্ষণ ডেটার উপর নির্ভর করে। বিশাল অবস্থায় মহাকাশ রোবটদের বুঝতে, যুক্তি করতে, পরিকল্পনা করতে এবং মিথস্ক্রিয়া করতে শিখতে হয়, তাই অনেক গবেষক বিশ্বাস করেন যে সত্যিকার অর্থে সাধারণ উদ্দেশ্যপ্রণোদিত রোবটদের ইন্টারনেট ডেটা, সিন্থেটিক সিমুলেশন এবং বাস্তব-বিশ্বের মানব প্রদর্শনের ডেটা একত্রিত করতে হবে। তবে, ভাষা মডেলের বিপরীতে, রোবোটিক্স গবেষণায় বর্তমানে পর্যাপ্ত প্রশিক্ষণ ডেটার অভাব রয়েছে। বিশ্ব মডেলগুলি এতে গুরুত্বপূর্ণ ভূমিকা পালন করবে। তাদের উপলব্ধিমূলক বাস্তবতা এবং গণনামূলক দক্ষতা উন্নত হওয়ার সাথে সাথে, বিশ্ব মডেলগুলির আউটপুট দ্রুত সিমুলেশন এবং বাস্তবতার মধ্যে ব্যবধান পূরণ করতে পারে। এটি অগণিত অবস্থা, মিথস্ক্রিয়া এবং পরিবেশের সিমুলেশনে রোবটদের প্রশিক্ষণ সহজতর করবে।
  • অংশীদার এবং সহযোগী সহকারী হওয়া: সহযোগী অংশীদার হিসেবে, রোবট শ্রম ঘাটতি এবং উৎপাদনশীলতা উন্নত করার জরুরি প্রয়োজন মেটাতে গুরুত্বপূর্ণ ভূমিকা পালন করতে পারে, তা সে ল্যাবে বিজ্ঞানীদের সহায়তা করা হোক বা বাড়িতে একা বসবাসকারী বয়স্কদের সহায়তা করা হোক। তবে, এটি অর্জনের জন্য, রোবটদের স্থানিক বুদ্ধিমত্তা থাকতে হবে: উপলব্ধি করার, যুক্তি করার, পরিকল্পনা করার এবং কাজ করার ক্ষমতা, এবং—সবচেয়ে গুরুত্বপূর্ণভাবে—মানুষের লক্ষ্য এবং আচরণের সাথে মানসিক সামঞ্জস্য বজায় রাখার ক্ষমতা। উদাহরণস্বরূপ, ল্যাব রোবটগুলি যন্ত্র পরিচালনা করতে পারে, যা বিজ্ঞানীদের সূক্ষ্ম মোটর দক্ষতা বা যৌক্তিক যুক্তির প্রয়োজন এমন কাজে মনোনিবেশ করতে দেয়; অন্যদিকে হোম রোবট বয়স্কদের আনন্দ এবং স্বায়ত্তশাসন থেকে বঞ্চিত না করে রান্নায় সহায়তা করতে পারে। একটি সত্যিকারের স্থানিক বুদ্ধিমান বিশ্ব মডেল, যা পরিবেশের পরবর্তী অবস্থা ভবিষ্যদ্বাণী করতে এবং এমনকি মানুষের প্রত্যাশার সাথে সামঞ্জস্যপূর্ণ কর্মকাণ্ডের পূর্বাভাস দিতে সক্ষম, এই লক্ষ্য অর্জনের জন্য অত্যন্ত গুরুত্বপূর্ণ।
  • মূর্ত রূপের বৈচিত্র্য সম্প্রসারণ: মানবিক রোবটগুলি অবশ্যই আমাদের নিজেদের জন্য তৈরি বিশ্বের জন্য উপযুক্ত, তবে প্রযুক্তিগত উদ্ভাবনের পূর্ণ সম্ভাবনা থাকবে আরও সমৃদ্ধ নকশার ফর্মের মধ্যে: যেমন ওষুধ সরবরাহ করতে সক্ষম ন্যানোরোবট, সীমিত স্থানে চলাচল করতে পারে এমন নরম রোবট এবং গভীর সমুদ্র বা মহাকাশ পরিবেশের জন্য ডিজাইন করা বিশেষায়িত মেশিন। তাদের রূপ যাই হোক না কেন, মহাকাশ বুদ্ধিমত্তার ভবিষ্যতের মডেলগুলিকে রোবটের পরিবেশকে তার নিজস্ব উপলব্ধি এবং চলাচলের ক্ষমতার সাথে একীভূত করতে হবে। তবে, এই রোবটগুলি তৈরির ক্ষেত্রে মূল চ্যালেঞ্জগুলির মধ্যে একটি হল বিভিন্ন মূর্ত রূপের জন্য প্রযোজ্য প্রশিক্ষণ ডেটার অভাব। বিশ্ব মডেলগুলি সিমুলেশন ডেটা জেনারেশন, প্রশিক্ষণ পরিবেশ নির্মাণ এবং টাস্ক বেঞ্চমার্কিংয়ে গুরুত্বপূর্ণ ভূমিকা পালন করবে।

একটি দীর্ঘমেয়াদী দৃষ্টিকোণ: বিজ্ঞান, চিকিৎসা এবং শিক্ষা

সৃজনশীলতা এবং রোবোটিক্সে এর প্রয়োগের বাইরে, স্থানিক বুদ্ধিমত্তা অন্যান্য ক্ষেত্রেও গভীর প্রভাব ফেলবে, বিশেষ করে যেখানে AI মানুষের ক্ষমতা বৃদ্ধি করতে পারে, জীবন বাঁচাতে পারে এবং আবিষ্কারকে ত্বরান্বিত করতে পারে। নীচে, আমি রূপান্তরমূলক সম্ভাবনা সহ তিনটি ক্ষেত্র তুলে ধরব; অবশ্যই, স্থানিক বুদ্ধিমত্তার প্রয়োগগুলি এর বাইরেও অনেক বেশি বিস্তৃত, এবং এটি আরও অনেক শিল্পে গুরুত্বপূর্ণ ভূমিকা পালন করবে।

বৈজ্ঞানিক গবেষণায়, মহাকাশ-বুদ্ধিমান সিস্টেমগুলি পরীক্ষা-নিরীক্ষার অনুকরণ করতে পারে, সমান্তরালভাবে অনুমান পরীক্ষা করতে পারে এবং গভীর সমুদ্র থেকে দূরবর্তী গ্রহ পর্যন্ত মানুষের জন্য দুর্গম পরিবেশ অন্বেষণ করতে পারে। এই প্রযুক্তি জলবায়ু বিজ্ঞান এবং উপকরণ গবেষণার মতো ক্ষেত্রগুলিতে গণনামূলক মডেলিংয়ে বিপ্লব আনবে। বাস্তব-বিশ্বের ডেটা অর্জনের সাথে বহুমাত্রিক সিমুলেশনগুলিকে একত্রিত করে, এই সরঞ্জামগুলি গণনামূলক বাধা কমাতে পারে এবং প্রতিটি পরীক্ষাগারে উপলব্ধ পর্যবেক্ষণ এবং বোঝার সুযোগ প্রসারিত করতে পারে।

স্বাস্থ্যসেবা ক্ষেত্রে, স্থানিক বুদ্ধিমত্তা পরীক্ষাগার থেকে বিছানার পাশের প্রতিটি পদক্ষেপকে নতুন রূপ দেবে। স্ট্যানফোর্ডে, আমার ছাত্র এবং অংশীদাররা বহু বছর ধরে হাসপাতাল, নার্সিং হোম এবং বাড়িতে রোগীদের সাথে সহযোগিতা করেছে। এই অভিজ্ঞতা আমাকে চিকিৎসায় স্থানিক বুদ্ধিমত্তার অপরিসীম রূপান্তরকারী সম্ভাবনা সম্পর্কে নিশ্চিত করেছে। AI অণুর মধ্যে বহুমাত্রিক মিথস্ক্রিয়া মডেল করে ওষুধের বিকাশকে ত্বরান্বিত করতে পারে; চিকিৎসা চিত্রগুলিতে প্যাটার্ন সনাক্ত করতে রেডিওলজিস্টদের সহায়তা করে রোগ নির্ণয়ের নির্ভুলতা উন্নত করতে পারে; এবং স্বাস্থ্যসেবা প্রক্রিয়ায় গুরুত্বপূর্ণ মানব সংযোগগুলি প্রতিস্থাপন না করেই রোগী এবং যত্নশীলদের সহায়তা করার জন্য পরিবেশগতভাবে সচেতন পর্যবেক্ষণ ব্যবস্থা সক্ষম করে। উল্লেখ না করেই, বিভিন্ন পরিস্থিতিতে স্বাস্থ্যসেবা কর্মী এবং রোগীদের সহায়তা করার ক্ষেত্রে রোবটগুলিরও গুরুত্বপূর্ণ ভূমিকা রয়েছে।

শিক্ষাক্ষেত্রে, স্থানিক বুদ্ধিমত্তা নিমজ্জিত শিক্ষণ সক্ষম করে, বিমূর্ত বা জটিল ধারণাগুলিকে বাস্তব এবং বাস্তব করে তোলে এবং এমন একটি শিক্ষণ অভিজ্ঞতা তৈরি করে যা মানব মস্তিষ্ক এবং শরীরের শেখার পদ্ধতির সাথে ঘনিষ্ঠভাবে মিলে যায়, যা বারবার অনুশীলনের সুযোগ করে দেয়। AI যুগে, স্কুল-বয়সী শিশু এবং প্রাপ্তবয়স্ক উভয়ের জন্যই দ্রুত এবং আরও কার্যকর শিক্ষণ এবং দক্ষতা পুনঃপ্রশিক্ষণ অত্যন্ত গুরুত্বপূর্ণ। শিক্ষার্থীরা কোষীয় প্রক্রিয়ায় "প্রবেশ" করতে পারে অথবা ঐতিহাসিক ঘটনাগুলির মধ্য দিয়ে ব্যক্তিগতভাবে "হেঁটে" যেতে পারে; শিক্ষকরা ব্যক্তিগতকৃত শিক্ষাদান অর্জনের জন্য ইন্টারেক্টিভ পরিবেশ ব্যবহার করতে পারেন; এবং সার্জন থেকে ইঞ্জিনিয়ার পর্যন্ত পেশাদাররা বাস্তবসম্মত সিমুলেশনে জটিল দক্ষতা নিরাপদে অনুশীলন করতে পারেন।

যদিও এই ক্ষেত্রগুলিতে সম্ভাব্য প্রয়োগগুলি কার্যত সীমাহীন, আমাদের লক্ষ্য একই রয়ে গেছে: মানবতার সারাংশ গঠনকারী বিচার, সৃজনশীলতা এবং সহানুভূতি প্রতিস্থাপনের পরিবর্তে, মানুষের দক্ষতা বৃদ্ধি, মানুষের আবিষ্কারকে ত্বরান্বিত এবং মানুষের করুণা বৃদ্ধির জন্য AI ব্যবহার করা।

উপসংহার

গত দশক ধরে, কৃত্রিম বুদ্ধিমত্তা একটি বিশ্বব্যাপী ঘটনা হয়ে উঠেছে, যা প্রযুক্তি, অর্থনীতি এবং এমনকি ভূ-রাজনীতিতেও উল্লেখযোগ্য পরিবর্তন এনেছে। কিন্তু একজন গবেষক, শিক্ষাবিদ এবং এখন একজন উদ্যোক্তা হিসেবে, যা আমাকে সবচেয়ে বেশি উত্তেজিত করে তা হল ৭৫ বছর আগে টুরিং যে প্রশ্নটি করেছিলেন তার পিছনের চেতনা। আমি এখনও তার মতো একই কৌতূহল এবং বিস্ময় অনুভব করি। স্থানিক বুদ্ধিমত্তা অন্বেষণের এই চ্যালেঞ্জই আমার প্রতিদিনের প্রেরণাকে বাড়িয়ে তোলে।

মানব ইতিহাসে প্রথমবারের মতো, আমাদের কাছে এমন মেশিন তৈরির সুযোগ এসেছে যা ভৌত জগতের সাথে অত্যন্ত সমন্বিত, যা তাদেরকে বড় চ্যালেঞ্জ মোকাবেলায় সত্যিকারের অংশীদার করে তোলে। ল্যাবে রোগ সম্পর্কে আমাদের বোধগম্যতা ত্বরান্বিত করা, আমাদের গল্প বলার পদ্ধতিতে বিপ্লব আনা, অথবা অসুস্থতা, আঘাত বা বার্ধক্যের কারণে আমরা যখন সবচেয়ে বেশি ঝুঁকির মধ্যে থাকি তখন সহায়তা প্রদান করা যাই হোক না কেন, আমরা এমন একটি প্রযুক্তির দ্বারপ্রান্তে দাঁড়িয়ে আছি যা আমাদের সবচেয়ে বেশি যত্নশীল জীবনের অভিজ্ঞতাগুলিকে উন্নত করবে। এটি জীবনের জন্য একটি গভীর, সমৃদ্ধ এবং আরও শক্তিশালী দৃষ্টিভঙ্গি।

প্রায় ৫০ কোটি বছর আগে, প্রকৃতি প্রাচীন প্রাণীদের প্রথম স্থানিক বুদ্ধিমত্তার মূলনীতি প্রদান করেছিল। আজ, আমরা সৌভাগ্যবান যে আমরা এই প্রজন্মের প্রযুক্তিবিদদের অংশ, যারা শীঘ্রই যন্ত্রগুলিকে এই ক্ষমতা প্রদান করতে সক্ষম হতে পারেন – এবং সারা বিশ্বের মানুষের উপকারের জন্য এটি ব্যবহার করার সুযোগ পাবেন। স্থানিক বুদ্ধিমত্তা ছাড়া, "সত্যিকারের বুদ্ধিমান যন্ত্র"-এর আমাদের স্বপ্ন সত্যিকার অর্থে বাস্তবায়িত হতে পারে না।

এই অন্বেষণের যাত্রা আমার উত্তর নক্ষত্র। এই সাধনায় আমার সাথে যোগ দিতে আপনাকে স্বাগতম।

#iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট অনুসরণ করতে আপনাকে স্বাগতম: iFanr (WeChat ID: ifanr), যেখানে যত তাড়াতাড়ি সম্ভব আরও উত্তেজনাপূর্ণ কন্টেন্ট আপনার কাছে উপস্থাপন করা হবে।

ifanr | মূল লিঙ্ক · মন্তব্য দেখুন · সিনা ওয়েইবো