কতদিন ধরে তুমি AI-এর সাথে গান লেখার সময় গান গেয়ে ও নাচছো না?

কতদিন ধরে তুমি AI-এর সাথে গান লেখার সময় গান গেয়ে ও নাচছো না?

AI ব্যবহার করে গান লেখার সময় কেউ গান গায় না নাচে! — না, কিছু শিক্ষক করেন।

এটি ইউটিউবের একজন মিউজিক ব্লগার যিনি মূলত কৃত্রিম বুদ্ধিমত্তাকে মজা করার জন্য কিছু ভয়ঙ্কর AI সঙ্গীত তৈরি করার জন্য মিউজিক জেনারেশন সফটওয়্যার ব্যবহার করার ইচ্ছা করেছিলেন, কিন্তু অপ্রত্যাশিতভাবে কিছু "খাঁটি" জাপানি মেটাল রক সঙ্গীত তৈরি করেছিলেন, যা দ্রুত TikTok-এ হিট হয়ে ওঠে।

"আশ্চর্য" ছিল যে তিনি কোনও প্রম্পট বা রেফারেন্স অংশ দেননি, বরং তার … গর্জনের একটি ধারা দিয়েছিলেন।

সুনো, যদি তোমাকে অপহরণ করা হয়ে থাকে, তাহলে চোখ পিটপিট করো।

গল্পটি শুরু হয় এই সঙ্গীত ব্লগার একটি চ্যালেঞ্জ নিতে চান এবং দেখতে চান যে বর্তমান AI সঙ্গীত প্রজন্মের সরঞ্জামগুলি কোন স্তরে পৌঁছেছে – অবশ্যই, কিছুটা বিদ্বেষের ইঙ্গিত সহ।

তিনি যে সরঞ্জামগুলি পরীক্ষা করেছিলেন তার মধ্যে ছিল সুনো, মুরেকা, ইলেভেনল্যাবস এবং ইউডিওর মতো জনপ্রিয় জেনারেটিভ মিউজিক সরঞ্জাম এবং তার পরীক্ষার পদ্ধতিটি বেশ অদ্ভুত ছিল।

উদাহরণস্বরূপ, উপরের মত কম্পিউটারে চিৎকার করা। অথবা, চিৎকার করে ইয়োকো ওনোর অনুকরণ করে…

এটি ইয়োকো ওনোর ৯০তম জন্মদিনে তৈরি "পারফর্মেন্স আর্ট"-এর একটি অংশ। এটি সম্পূর্ণ অর্থহীন; সে শুধু চিৎকার করছে। তবে, এআই জানে না কীভাবে এটির শিরোনাম দিতে হয়; এটি প্রশ্ন ছাড়াই সবকিছু গ্রহণ করে, সাবধানতার সাথে কথার কথাগুলি অপ্টিমাইজ করে এবং একটি সুর যোগ করে।

জানো, ওরা সবাই বেশ ভালো।

"মাই নেম ইজ জেফ" গানের ভূমিকাটা আসলে বেশ ভালো, বিশেষ করে প্রম্পটিং সেকশনটা, যেখানে তিনি জোর করে স্টাইলিস্টিক বর্ণনামূলক শব্দের একগুচ্ছ ব্যবহার করেছেন, যা পুরো ব্যাপারটাকে এলোমেলো করে দিয়েছে। তারপর গানটা এসেছে সিস্টেমের অটোমেটিক লিরিক্স থেকে সরাসরি, যা অনেকটা সুইডিশ ব্যান্ড মেশুগাহের মতো শোনাচ্ছে—এআই-এর ডাটাবেস অকল্পনীয়; এটা এতটাই অদ্ভুত যে যারা কেবল পপ সঙ্গীত জানেন তাদের সম্পূর্ণ বিভ্রান্ত করে ফেলে।

সবচেয়ে অবাক করা অংশটি পরে এসেছিল: ব্লগারটি সম্পূর্ণ অর্থহীন কথা বলছিলেন, এবং এআই "ইসুগাকু: নেভার সে গুডবাই" নামে একটি জাপানি হেভি মেটাল গান তৈরি করেছিল। তার এলোমেলো চিৎকারকে এআই জাপানি হিসেবে চিহ্নিত করেছিল, তাই মিলিত স্টাইল। এবং আপনি কি জানেন? এটি আসলে বেশ ভালোভাবে মিশে গিয়েছিল।

এটিই হলো কৃত্রিম বুদ্ধিমত্তা-সৃষ্টিকৃত সঙ্গীতের মূল কথা: মানুষের সঙ্গীত শেখার এবং সঙ্গীত তত্ত্ব বোঝার জন্য, তাদের দীর্ঘ সময় ধরে অধ্যয়ন এবং সঞ্চয়ের প্রয়োজন, প্রচুর পরিমাণে সঙ্গীত শোনার প্রয়োজন। কৃত্রিম বুদ্ধিমত্তারও শেখার প্রয়োজন, তবে এটি সঙ্গীতের কাজের অন্তর্নিহিত ডেটা বৈশিষ্ট্যগুলিও শেখে, যার মধ্যে রয়েছে কিন্তু সীমাবদ্ধ নয়: কর্ড, সুর, ছন্দ এবং কাঠামোগত রূপ।

কাকতালীয়ভাবে, পপ সঙ্গীত কিছু সাধারণ কর্ডের উপর অনেক বেশি নির্ভর করে। এর উচ্চ পুনরাবৃত্তি এবং ভবিষ্যদ্বাণীযোগ্যতা AI কে এই মূল "সূত্রগুলি" শেখার সময় দ্রুত প্যাটার্ন খুঁজে পেতে এবং এমন সঙ্গীত তৈরি করতে সাহায্য করে যা বিশ্বাসযোগ্য শোনায় এবং সাধারণ মানুষের কাছে আবেদন করে।

বিমূর্ত, কিন্তু মানুষের জন্য যথেষ্ট বিমূর্ত নয়।

কিন্তু সৃজনশীলতা কি এটাই?

একটু আছে, কিন্তু খুব বেশি নয়। প্রকৃত সৃজনশীলতার তুলনায়, AI নগণ্য।

উদাহরণস্বরূপ, এই বছরের সবচেয়ে ভাইরাল ইন্টারনেট মিম, "স্কিল গোমোকু", উপরের ব্লগারের মতো একটি প্রচেষ্টা দিয়ে শুরু হয়েছিল: এআই কী ধরণের গান লিখতে পারে তা দেখার জন্য।

কে ভেবেছিল যে এটি শরতের সবচেয়ে আকর্ষণীয় গান হয়ে উঠবে – গোমোকু বাজানোর সময় তুমি কতদিন ধরে গান গেয়েছ এবং নাচছো?

"স্কিল ফাইভ"-এ, ঝাং জিংচাও সরাসরি প্রকাশ করেছেন যে এটি এআই দ্বারা লেখা, এবং দর্শকরাও অনুভব করেছেন যে এটি এআই দ্বারা লেখা: সুরটি জটিল ছিল এবং একত্রিত করার সময় অদ্ভুতভাবে মগজ ধোলাই করা হয়েছিল।

সত্যি কথা বলতে, এই গানটি হয়তো AI থেকে উপকৃত হয়েছিল, কিন্তু এটি অবশ্যই সম্পূর্ণরূপে AI এর ক্ষমতার কারণে ছিল না। আমি Suno (টিচার উ দ্বারা ব্যবহৃত একই গান) ব্যবহার করে এই অসাধারণ গানটি পুনরায় তৈরি করার চেষ্টা করেছি এবং দেখেছি এটি Connect Four বাজানোর মতো সহজ নয়!

প্রথমত, আমি বুঝতে পারছিলাম না কী করব, তাই আমি কেবল সিম্পল ক্রিয়েট মোডে সবচেয়ে সাধারণ প্রম্পট ব্যবহার করে এটিকে একটি গান লেখার জন্য বাধ্য করতে পেরেছিলাম—এটি খুব বিরক্তিকর হতে চলেছে, কিন্তু আমি প্রস্তুত ছিলাম।

এআই নীরব ছিল, কেবল দুটি গানের কথা এবং চারটি সঙ্গীত বিন্যাস তৈরি করেছিল।

সত্যি কথা বলতে, এটা খুবই বিরক্তিকর এবং ক্লান্তিকর। একটি গানে লিরিক্সের গুরুত্ব স্বতঃস্ফূর্ত। আর "স্কিল গোমোকু" গানটিতে লিরিক্সই গানের অর্ধেক। এআই দ্বারা তৈরি দুটি সেট লিরিক্স বিশেষভাবে সমস্যাযুক্ত নয়, সবগুলোই যুক্তিসঙ্গত, কিন্তু একেবারেই আগ্রহহীন।

মূল শব্দটি ব্যবহার করা ছাড়া আর কোন উপায় নেই; একটি শব্দও বাদ দেওয়া যাবে না।

আমি কোনও নির্দিষ্ট সঙ্গীত শৈলী নির্দিষ্ট করিনি, কেবল একটি হালকা এবং মজাদার ছন্দ উল্লেখ করেছি। আমার মনে হয় না মডেলটি গানের কথাগুলিও বুঝতে পেরেছিলেন; এগুলি খুব বিমূর্ত। তবে, তারা এখনও হাইলাইটগুলি ধারণ করতে সক্ষম হয়েছিল, যেমন "it's going to explode" এর বিরতি, অথবা এই তিনটি শব্দের উপস্থিতি জোরদার করতে।

এরপর আমি এলোমেলোভাবে আরও কয়েকটি সংস্করণ চালালাম, কিন্তু কোনটিই ঠিকমতো কাজ করেনি, যা অদ্ভুত। এর মানে কি এই যে গানের কথা না বুঝে ছবিটা পুনরুৎপাদন করা যাবে না? মডেলকে এই ধরনের বিমূর্ত গানের কথা ব্যাখ্যা করা আমার কাছে কঠিন মনে হয়!

সমস্যা সমাধানের জন্য, আমাদের মূল কথায় ফিরে যেতে হবে: বৈশিষ্ট্য স্বীকৃতিতে AI সেরা, কিন্তু সেই কয়েকটি পপ কর্ড খুব সহজ, কিছু এমনকি খুব চিজি, বিশেষ করে নির্দিষ্ট স্টাইল নির্দেশাবলী ছাড়াই। তাই এটি যেভাবেই চলুক না কেন, এটি ঠিক মনে হয় না এবং "স্কিল ফাইভ-ইন-এ-রো" এর কথার সাথে বৈপরীত্যের অনুভূতি তৈরি করতে পারে না!

তো, মূল ভিডিওটি প্রায় শেষ হয়ে যাওয়ার পর, আমি বুঝতে পারলাম এর সঙ্গীতিকতা: এই গানের সঙ্গীতে ক্যালিসথেনিক্সের মতো এক ধরণের ছন্দবদ্ধ অনুভূতি ব্যবহার করা হয়েছে, নিয়মিত, স্পষ্ট ছন্দ এবং নড়াচড়ার অনুভূতি সহ।

ঠিক আছে, সুনো স্থানীয় সঙ্গীত আপলোড এবং নমুনা সমর্থন করে, তাই আমি বিশেষভাবে সম্প্রচারিত জিমন্যাস্টিকসের তৃতীয় সেটের জন্য সঙ্গীতটি খুঁজেছিলাম যাতে এআই অবশ্যই এবার এটি সাবধানে অধ্যয়ন করবে।

কাস্টম মোডে, আপনি ওয়্যারডনেস এবং স্টাইল সচেতনতাও বেছে নিতে পারেন, কিন্তু দুর্ভাগ্যবশত এগুলি পেইড বৈশিষ্ট্য। এবার, আমরা কেবল ব্রডকাস্ট-স্টাইল উপাদানগুলিকে অনুপ্রেরণার একটি সাধারণ উৎস হিসেবে ব্যবহার করতে পারি।

এবার কি ভালো? একটু ভালো। মডেল বুঝতে পেরেছিলেন যে সম্প্রচারিত জিমন্যাস্টিকসের তৃতীয় সেটটি জ্যাজ স্টাইলে ছিল, তাই এবার তৈরি সঙ্গীতটি খুবই আনন্দের ছিল, একটি মুক্ত এবং এমনকি ঝাঁকুনিপূর্ণ ছন্দের সাথে, যা অপ্রত্যাশিতভাবে "স্কিল গোমোকু" গেমের সাথে কিছুটা মিলে যায়।

কিন্তু তবুও এটি পুরোপুরি সঠিক ছিল না, তাই আমি স্টাইলের বর্ণনাটি সম্পূর্ণরূপে মুছে ফেলে আবার চেষ্টা করেছি। এআই নীরব ছিল, কেবল চারটি সমাপ্ত ট্র্যাক তৈরি করেছিল, প্রতিটির একটি আলাদা স্টাইল ছিল। কেবল ব্যালাড এবং উচ্ছ্বসিত গানই ছিল না, এমনকি একটি লোক সঙ্গীত সংস্করণও ছিল…

সুনো: তোমার সাথে ঝগড়া করার জন্য আমার আসলে সময় নেই।

এক ডজনেরও বেশি সংস্করণের পরে, টিচার স্কিল ফাইভের প্রতিভার সাথে কোনটিই তুলনা করতে পারেনি। এবং তাও মূল কথা ব্যবহার করার সময়। এআই, তুমি কোন তুলনা নও!

"স্কিল গোমোকু" গেমের কমেডিক প্রভাব শেষ পর্যন্ত এআই-এর বিপরীতে পরিণত হয়। এআই সঙ্গীতের বৈশিষ্ট্য বিশ্লেষণ করে এবং শেখে, এবং এটি যে সঙ্গীত প্রদান করে তা তাত্ত্বিকভাবে শব্দসমৃদ্ধ এবং আকর্ষণীয়, বর্তমান প্রবণতার সাথে খাপ খায় – তবুও এর কোনটিই মূলের স্মরণীয় উপাদানের সাথে মেলে না।

এটা অদ্ভুত, মূল সংস্করণটিও কি এআই দ্বারা লেখা হয়নি?

আমরা এখনও জানি না যে মূল সৃষ্টি প্রক্রিয়ায় AI কতটা অবদান রেখেছিল। কিন্তু এই পুনরুৎপাদন আমাকে বিশ্বাস করায় যে এটি অবদান রাখলেও, এটি স্রষ্টার প্রতিভার চেয়ে বেশি হবে না।

#iFanr-এর অফিসিয়াল WeChat অ্যাকাউন্ট অনুসরণ করতে আপনাকে স্বাগতম: iFanr (WeChat ID: ifanr), যেখানে যত তাড়াতাড়ি সম্ভব আরও উত্তেজনাপূর্ণ কন্টেন্ট আপনার কাছে উপস্থাপন করা হবে।

ifanr | মূল লিঙ্ক · মন্তব্য দেখুন · সিনা ওয়েইবো