من دوباره ژنراتورهای موسیقی هوش مصنوعی را امتحان کردم و اکنون به طرز شگفت‌انگیزی خوب هستند.

بار اول که یک ژنراتور موسیقی هوش مصنوعی را امتحان کردم، … سرگرم‌کننده بود. همین. تماشای مدل که سعی می‌کرد موسیقی بسازد جالب بود و خروجی‌اش وقتی به خودتان یادآوری می‌کردید که یک ربات این کار را انجام داده، چشمگیر بود. اما تولید موسیقی فقط برای لذت شخصی من بود — هیچ ارزش عملی نداشت — بنابراین فراموش کردم که این فناوری حتی وجود دارد. همچنین به اندازه‌ای قابل‌توجه نبود که در ذهنم بماند.

اولین باری که یک مولد موسیقی هوش مصنوعی را امتحان کردم، … سرگرم‌کننده بود. فقط همین. تماشای سعی یک مدل برای ساخت موسیقی جالب بود و خروجی‌اش وقتی به خودت یادآوری می‌کنی که ربات آن را ساخته است، تحت‌تأثیر قرار می‌داد. اما تولید موسیقی فقط برای لذت شخصی من بود — هیچ ارزش عملی نداشت — بنابراین فراموش کردم که این فناوری وجود دارد. همچنین به اندازه‌ای قابل‌توجه نبود که در ذهنم بماند.

زمان زیادی از آن می‌گذرد و نه خیلی پیش، دوستی برایم موسیقی تولید شده توسط هوش مصنوعی پخش کرد. این کافی بود تا خاطره‌ام تازه شود و دوباره به این ابزارها سر بزنم. می‌توانم بگویم مولدهای موسیقی هوش مصنوعی خیلی بیشتر از مولدهای تصویر یا چت‌بات‌ها پیشرفت کرده‌اند. بگذارید نشان دهم.

موسیقی هوش مصنوعی به‌قدری خوب شد که ترسناک شد در حالی که ما توجه نمی‌کردیم

«واو، یک ربات این کار را انجام داد»

اولین ابزاری که با آن سروکار داشتم Suno بود. در اوایل سال ۲۰۲۴ (حدوداً ژانویه) با آن بازی کردم و بعدها درباره چگونگی استفاده از آن برای ساخت آهنگ خودتان نوشتم. بین این دو، Boomy را هم امتحان کردم — ابزار دیگری برای موسیقی هوش مصنوعی. تفاوت بین این دو واضح بود: Boomy اغلب یک نتیجه «بهتر» می‌داد، اما آزادی بسیار کمی در تعیین صدای آهنگ فراهم می‌کرد. Suno آزادی بیشتری می‌داد (می‌توانید هر چیزی که می‌خواهید بنویسید)، اما در آن زمان بیشتر احتمال می‌داد خروجی نامنظم و بی‌معنی باشد.

ابزارهای دیگری هم وجود دارند — مثل محیط بازی سازهای هوش مصنوعی گوگل که به شما اجازه می‌دهد یک ساز را نمونه‌برداری کنید و همانجا پخش کنید. نمی‌توانید با آن‌ها آهنگ‌های کامل تولید کنید، اما می‌توانید از آن‌ها برای ساخت آهنگ استفاده کنید.

به هر حال، بازگشت به Suno. پیش از اینکه علاقه‌تان را از دست بدهم، بگذارید نشان دهم که چه‌قدر عالی هستند. به آهنگ زیر گوش کنید:

این را در حدود ۱۰ ثانیه، بدون نصب هیچ‌چیزی و به‌صورت رایگان ساختم. این آهنگ کاملاً توسط هوش مصنوعی تولید شده است. اگر آشنا به‌نظر می‌آید، چون نسخه ویرایش‌شده‌ای از «Nothin’» اثر کولتر وال (که خودش یک کاور است) به آن دادم. خوب است، نه؟ و به شکل کمی ترسناکی خوب است، چون مطمئن نیستم که می‌توانستم تشخیص دهم این هوش مصنوعی است اگر شما نگفتید. اینجا هستیم.

مطلب مرتبط: چگونه از گرفتن عکس های دانه دار با گوشی هوشمند اجتناب کنم

شما می‌توانید تقریباً هر چیزی به آن بدهید. همه این‌ها تقریباً به‌صورت آنی تولید می‌شود. من حتی زحمت نوشتن یک پرامپت دقیق یا پرسیدن از آن را نداشتم. فقط متن ترانه را چسباندم و چند کلیدواژه استایل اضافه کردم. اما می‌تواند کارهای بیشتری انجام دهد وقتی زمان بگذارید راهنمایی‌اش کنید.

آیا می‌تواند ایندروک بسازد؟

با چند کلیدواژه…

خب — بگذارید ایندروک را امتحان کنیم. «ایندروک» دقیقاً یک ژانر مشخص نیست، اما… این برای اکثر ژانرها صادق است، نه؟ به هر حال، معمولاً می‌توانم حس و حال را با پرتاب کلیدواژه‌های مناسب به جعبه Styles تنظیم کنم. من موزیسین نیستم، اما مقدار زیادی موسیقی گوش داده‌ام. می‌توانم معمولاً تشخیص دهم چه عناصری می‌شنوم و آن‌ها را در پرامپت بگنجانم.

علاوه بر استایل‌ها، پارامتر مهم دیگری راهنمایی است که در جعبه ترانه می‌دهید. به یاد دارم که از نخستین بار استفاده از Suno می‌توانید در براکت‌ها راهنمایی اضافه کنید. آن‌ها را نخواهد خواند، اما به‌عنوان جهت‌گیری صحنه در نظر می‌گیرد — حداقل سعی می‌کند. می‌گویم «سعی می‌کند» چون همیشه به آن‌ها وفادار نیست. به مثال زیر گوش کنید:

در این مورد، بذر یک آهنگ را داشتم. قبلاً قطعاتی از آن نوشته بودم، آن را به ChatGPT دادم تا به مجموعه کامل ترانه‌ها تبدیل کند. سپس راهنمایی‌های براکتی را اضافه کردم و به Suno دادم. در جعبه استایل، این کلیدواژه‌ها را به کار بردم:

ایندروک، آلتر‑راک، رانشی با تمایل به پست‑پانک، ایندیو سرزمین‑قلب/سروده‑ارمانیک، سوزاندن آهسته به کُرُس بزرگ، لحن شبانه‑تأملی، آرپج‌های الکتریک تمیز، نت‌های هشتمی سرنگون‑پالم، درخشش شِیمر‑کُرُس، رانش حاشیه‑شکست‑عاطفی، تِرِمولو آمپ‌ساز در انتهای ترک، موتیف‑هوک، ساختار برش‑به‑ریتم‑ریس، کُرُس نهایی نیم‑زمان، لنگر کیک‑اسنیر ثابت، بالابَر‑باس پیاده، تأکیدهای تام، صدای گفتاری میکروفون نزدیک، فضا‑اتاق‑کوچک، پد سینت‌ساز دوردست، ارِیِنگ پویا‑از‑آرام‑به‑پهن، تاخیر کوتاه‑سَبک‑نرم

اگر به‌دقت گوش کنید، می‌توانید بسیاری از این‌ها را بشنوید. از نتیجه خوشحالم. در واقع — شاید بیش از حد بگویم — این یک آهنگ به‌گونه‌ای دل‌انگیز است.

و اینجا است که سؤال‌های عجیبی بروز می‌کند. هنر هر چیزی است که احساس برانگیزد. هستهٔ احساسی این‌جا شعر است… که همان‌طور که گفتیم توسط هوش مصنوعی تولید شده. البته من به‌آن جهت دادم، اما نتیجهٔ نهایی همچنان «نوشته» و «اجرا» شده توسط یک مدل بود. پس این به چه معناست برای هنر؟ آیا هوش مصنوعی می‌تواند احساس برانگیزد؟

مطلب مرتبط: به میکروفون XLR نیازی ندارید — این دلیل است که میکروفون‌های USB بهترند

آیا هوش مصنوعی می‌تواند تکنو بسازد؟

تکنو تیره، سنگی، صنعتی

تکنو هدف دشواری‌تری است. هیچ ترانه‌ای وجود ندارد، بنابراین برانگیختن احساس کاملاً به سازها واگذار می‌شود. بدون واژه‌ها، باید به‌قدر کافی قدرتمند باشد تا در سینهٔ شما ضربه بزند و بیش از یک «لُوپ سنگین» باشد. به همین خاطر برای تکنو احترام بیشتری نسبت به راک دارم.

بنابراین این یک درخواست سخت‌تر از هوش مصنوعی است و بیشتر به راهنمایی من وابسته است. ملودی شیطانی، ریتم اضطرابی — این ایده‌ها راه طولانی‌ای می‌روند، اما وقتی این واژه‌ها را می‌نویسم، هنوز به تعبیر هوش مصنوعی از «شیطانی» و «اضطرابی» بستگی دارد تا واقعاً به آن‌ها برسد. این نتیجه بود:

به‌جز یک پاراگراف از کلیدواژه‌های استایل، این‌ها چیزی است که در جعبهٔ ترانه برای این مورد (چون ترانه‌ای نداشت) گذاشتم:

[تمپو ۱۴۵ BPM، ۴/۴، پالت گریتِی/صنعتی، آرِیِنگ فشرده، سایدچین متوسط بر روی رَمبل]

[مقدمه: صدای اتاق انبار + نویز فیلترشده، تیک‌های متالیک پراکنده، باز شدن تدریجی فیلتر HPF]

[ساخت: کیک‌Ghost (مِیو ساب)، دم رَمبل به‑تدریج ظاهر می‌شود (LPF)، Rise کوتاه از ویین ضبط میدانی]

[دم ۱: کیک کامل تحریف‌شده (کلیپ سخت) + رَمبل مونو، هت‌های بسته ۱/۱۶، ضربه متالیک هر ۲ بار، موتیف آتونال (تکرار)]

[تغییردادن: لایهٔ FM Growl روی Fillها، ۱‑beat mute هر ۸ بار، هت‌ها کمی عریض‌تر]

[Break/Reset: کیک قطع می‌شود، Drone + نویز گرانولار حفظ می‌شود، پالس‌های ریورب‌دار Snare، اسویپ فیلتر سریع به پایین]

[ساخت ۲: کیک با فیلتر و ملایم‌تر برمی‌گردد، رول کوتاه Snare (ضربات متالیک)، آخرین بیت: توقف]

[دم ۲ (قله): کیک + رَمبل قوی‌تر، Ride/هت‌های باز، لایهٔ دوم Stab بالاتر/کوتاه‌تر، انفجارهای نویز در ضربه‌های پایین (به‌ندرت)]

[پایان: فقط کیک + Drone، LPF سریع به صدای اتاق، پایان با دم ریورب کوتاه]

نتیجهٔ کارها خوب است. نمی‌توانم آن را «تکنوی تاریک» بنامم؛ کلی عمومی است — اما عمومی خوب. اگر به‌صورت Shuffle پخش شود، شاید بلافاصله نتوانید تشخیص دهید که هوش مصنوعی ساخته است. اما همچنین تلفن‌تان را برای جستجوی هنرمند برنمی‌دارید.

این را با چیزی مثل A Burning Question توسط Tim Tama مقایسه کنید و شکاف را ببینید. حتی اگر پالت مشابهی داشته باشند، Tim Tama می تواند احساس را هدف‌گیری کند. ترک هوش مصنوعی بیشتر شبیه اضطراب بی‌هدف است: حرکت می‌کند و می‌چرخد، اما واقعاً چیزی نمی‌گوید.

آیا هوش مصنوعی می‌تواند متال بسازد؟

آهنگی که دوبار گوش نمی‌کنم

بله می‌تواند. صادقانه بگویم، اینجا جایی است که علاقهٔ جدید (و احتمالاً کوتاه‌مدت) من به موسیقی هوش مصنوعی آغاز شد. دوستی‌ام مصرانه می‌خواست یک جفت موش آزمایشگاهی — فقط یک جفت — به عنوان حیوانات خانگی داشته باشد. او واقعاً عاشق حیوانات بود. آن‌ها حیوانات آزمایشگاهی را به‌صورت عمومی نمی‌فروشند (به‌دلیل دلایل اخلاقی و زیست‌محیطی)، اما دوستم اصرار داشت، پس من با… یک آهنگ پاسخ دادم.

مطلب مرتبط: 4 برنامه و برنامه های افزودنی برای صادرات و اشتراک گذاری تاریخچه ChatGPT

قبل از اینکه گوش کنید، کمی زمینه: بیشتر متالی که گوش دادم، متعلق به Dethklok بود. آن‌ها یک گروه طنز از یک برنامهٔ طنزی هستند. من واقعا موسیقی آن‌ها را دوست دارم، اما می‌دانم این دقیقاً «متال جدی» نیست. پس اگر شما یک متال‌هد هستید، پوزش می‌طلبم.

آهنگ واقعا جالب است، نه؟ من آن را دوست دارم. کار خود را انجام داد — اگرچه نمی‌توانم دو بار بدون داشتن سردرد به آن گوش دهم.

نظرت نهایی من دربارهٔ هوش مصنوعی مولد

متوسط بی‌فایده نیست

من یک نویسنده‌ام، بنابراین ترس «هوش مصنوعی شغل‌های ما را خواهد گرفت» را همانند هر کس دیگری می‌دانم. اما به‌تدریج به هوش مصنوعی احترام گذاشتم. نه به‌این دلیل که شغلی را حذف نخواهد کرد. بله، برخی شغل‌ها را جایگزین خواهد کرد.

هوش مصنوعی در ارائهٔ نسخهٔ متوسط تقریباً هر چیزی بسیار خوب می‌شود. و این متوسط بودن به‌طرز خاصی است — معمولاً به سمت خروجیٔ متوسط، پذیرفتنی‌ترین چیزی که دیده است می‌رود. متوسط بودن به‌صورت خودکار بد نیست. گاهی «به‌اندازهٔ کافی» دقیقاً همان چیزی است که نیاز داریم.

هوش مصنوعی نویسندگان را به‑آن‌گونه که مردم به‌صورت دراماتیک تصور می‌کنند جایگزین نخواهد کرد. اما آن‌چه جایگزین می‌شود، مقدار زیادی کارهای کپی‌رایتینگ است. هوش مصنوعی کل‌نگارهای هنری را به‌عنوان یک کلِکِیون کامل حذف نمی‌کند، اما نقاشان پورترهٔ سفارش‌دار را که برای یک هزینهٔ مشخص پرتره می‌کشند، جایگزین می‌کند.

برای نگاه کلی: هوش مصنوعی در حال جایگزینی Fiverr است. می‌دانید چگونه در Fiverr گروه‌ها و موزیسین‌هایی وجود دارند که می‌توانید به‌ازای صد دلار هر آهنگی که می‌خواهید بخوانند و تبدیلشان به یک آهنگ کنند؟ این همان کاری است که هوش مصنوعی ابتدا به‌دست می‌گیرد. همچنین نویسندگان کپی‌رایتینی که برای نوشتن دوبارهٔ نامهٔ پوشش در درخواست‌های دانشگاهی هزینه می‌گیرند؛ این همان کارهایی است که هوش مصنوعی در حال بلعیدنشان است.

این دو سِنت من است. می‌دانم موسیقی هوش مصنوعی، هنر هوش مصنوعی و هوش مصنوعی مولد به‌طور کلی موضوعات حساسی هستند — اما امیدوارم منظورم را درک کنید.

Tags: تولید موسیقی هوش مصنوعی