بار اول که یک ژنراتور هوش مصنوعی موسیقی را امتحان کردم، … خندهدار بود. و فقط همین. تماشای مدلئی که سعی میکرد موسیقی بسازد جالب بود و خروجی وقتی به خودتان یادآوری میکردید که این کار توسط ربات انجام شده است، شگفتانگیز بود. اما تولید موسیقی فقط برای لذت شخصی من بود — هیچ ارزش عملی نداشت — بنابراین فراموش کردم که این فناوری وجود دارد. همچنین به قدری قابل توجه نبود که در ذهنم بماند.
بار اول که یک مولد موسیقی هوش مصنوعی را امتحان کردم، … سرگرمکننده بود. همینطور. جالب بود که یک مدل سعی میکرد موسیقی بسازد و خروجیاش تحت تأثیر قرار میداد وقتی به خودتان یادآوری میکردید ربات این را ساخته است. اما تولید موسیقی فقط برای لذت شخصی من بود — هیچ ارزش عملی نداشت — بنابراین فراموش کردم که این فناوری حتی وجود دارد. همچنین بهاندازه کافی برجسته نبود که در ذهن بماند.
زمان زیادی از آن میگذشت و نه مدت زیادی پیش دوستی برایم موسیقی تولید شده توسط هوش مصنوعی پخش کرد. این کافی بود تا خاطرهام را زنده کند و من را به بررسی دوباره این ابزارها برگرداند. میتوانم بگویم مولدهای موسیقی هوش مصنوعی بهمراتب بهتر از مولدهای تصویر هوش مصنوعی یا چتباتهای هوش مصنوعی شدهاند. بگذارید نشان دهم.
موسیقی هوش مصنوعی بهطور ترسناک خوبی رسید در حالی که ما بهآن نگاه نکردیم
«واو، یک ربات این را انجام داد»
اولین ابزاری که امتحان کردم Suno بود. در اوایل سال ۲۰۲۴ (حدود ژانویه) با آن بازی کردم و بعدها درباره چگونگی استفاده از آن برای ساخت آهنگ خود نوشتم. بین این دوره Boomy را هم امتحان کردم — ابزار دیگری برای موسیقی هوش مصنوعی. تفاوت بین این دو واضح بود: Boomy اغلب یک نتیجه «بهتر» به شما میداد، اما آزادی بسیار کمی در مشخص کردن صدای آهنگ به شما میداد. Suno آزادی بیشتری میداد (میتوانید هر چه میخواهید تایپ کنید)، اما در آن زمان احتمال بیشتری داشت که خروجی بیسابقهای تولید کند.
ابزارهای دیگری نیز وجود دارند — مانند Google’s AI instrument playground که به شما اجازه میدهد یک ساز را نمونهبرداری کنید و بلافاصله آن را بنوازید. نمیتوانید با آنها آهنگهای کامل تولید کنید، اما میتوانید از آنها برای ساختن آهنگها استفاده کنید.
به هر حال، برگردیم به Suno. قبل از اینکه علاقهتان را از دست بدهم، بگذارید نشان دهم چه معنی میدهم وقتی میگویم آنها فوقالعاده خوب هستند. به آهنگ زیر گوش دهید:
من این را در حدود ۱۰ ثانیه، بدون نصب هیچچیزی، بهصورت رایگان ساختم. این آهنگ کاملاً توسط هوش مصنوعی تولید شده است. اگر آشنا به نظر میرسد، به این دلیل است که من نسخه ویرایششدهای از «Colter Wall’s Nothin’» (که خود یک کاور است) به آن دادهام. خوب است، نه؟ و به‑صورت کمی ترسناک است، چون مطمئن نیستم که میتوانستم تشخیص دهم این هوش مصنوعی است اگر شما به من نگفتید. این همان جایی است که هستیم.
میتوانید تقریباً هر چیزی را به آن بدهید. همه اینها تولید تقریباً لحظهای است. حتی زحمت نوشتن پرامپت دقیق یا پرسیدن از آن نداشتم. فقط شعرها را میچسبانم و چند کلیدواژه سبک اضافه میکنم. اما میتواند کارهای بیشتری انجام دهد وقتی زمان میگذارید آن را راهنمایی کنید.
آیا میتواند ایندی راک بسازد؟
با چند کلیدواژه…

باشه — بگذارید ایندی راک را امتحان کنیم. «ایندی راک» دقیقاً یک ژانر مشخص نیست، اما… این برای اکثر ژانرها صادق است، نه؟ به هر حال، معمولاً میتوانم حس را با پرتاب کلیدواژههای مناسب به جعبه Styles هدایت کنم. من نوازنده نیستم، اما موسیقی زیادی گوش دادهام. معمولاً میتوانم مواد شنیدهشده را تشخیص دهم و آنها را در یک پرامپت بگذارم.
بهجز سبکها، پارامتر مهم دیگری راهنمایی است که در جعبه شعر میدهید. از اولین بار استفاده از Suno به یاد دارم که میتوانید راهنماییها را داخل پرانتز اضافه کنید. آنها را نمیخوانند، اما بهعنوان دستور صحنه درنظر میگیرند — حداقل سعی میکند. میگویم «سعی میکند» چون همیشه بهدنبال آنها نمیروند. به مثال زیر گوش دهید:
در این مورد، من قبلاً بذر یک آهنگ را داشتم. قبلاً تکهها و قطعاتی از آن را نوشته بودم، بنابراین آن را به ChatGPT دادم و از او خواستم آن را به یک مجموعه کامل از اشعار تبدیل کند. سپس راهنماییهای داخل پرانتز را اضافه کردم و آن را به Suno دادم. در جعبه سبک، این کلیدواژهها را استفاده کردم:
indie rock, alt-rock, post-punk-leaning drive, heartland/anthemic indie, slow-burn to big chorus, late-night confessional tone, clean electric arpeggios, palm-muted eighth-notes, chorus-y shimmer, edge-of-breakup overdrive, amp tremolo outro sustain, hook motif tag, brushes-to-rim-clicks build, half-time final chorus, steady kick-snare anchor, walking bass lift, tom accents, close-mic spoken vocal, small-room ambience, distant synth pad, dynamic quiet-to-wide arrangement, subtle slapback/short delay
اگر بهدقت گوش کنید، میتوانید بسیاری از این موارد را بشنوید. من نسبت به نتیجه خوشحال هستم. در واقع — میتوانم بگویم — این یک آهنگ نسبتاً احساسی است.
و اینجاست که سؤالهای عجیبی شروع میشود. هنر هر چیزی است که احساس برانگیزد. هسته احساسی اینجا شعر است… که آن هم توسط هوش مصنوعی تولید شده بود. البته من به آن جهتدهم دادم، اما نتیجه نهایی هنوز «توسط یک مدل نوشته» و «توسط یک مدل اجرا» شد. پس این به چه معناست برای هنر؟ آیا هوش مصنوعی میتواند احساس برانگیزد؟
آیا هوش مصنوعی میتواند تکنو بسازد؟
تکنو تاریک، خشن، صنعتی

تکنو هدف سختتری است. نکته این است که هیچ شعری ندارد، بنابراین برانگیختن احساس کاملاً به سازها بستگی دارد. بدون کلمات، باید واقعاً خوب باشد تا دلزخمکننده شود و بیش از «یک حلقهٔ سخت» باشد. به همین دلیل به تکنوهای خوب بیشتر از راک احترام میگذارم.
پس این درخواست سختتری برای هوش مصنوعی است و همچنین بهشدت به راهنمایی من وابسته است. ملودی شومش، ریتیم اضطرابآور — این ایدهها مسیر طولانیای دارند، اما وقتی این کلمات را مینویسم، هنوز بهتعبیر هوش مصنوعی از «شومش» و «اضطرابآور» بستگی دارد که آیا بتواند آنها را تحویل دهد یا نه. این نتیجه بود:
بهجز یک پاراگراف از کلیدواژههای سبک، این مطالب را در جعبه شعر برای این قطعه وارد کردم (چون شعر نداشت):
[Tempo 145 BPM, 4/4, gritty/industrial palette, tight arrangement, moderate sidechain on rumble]
[Intro: warehouse room tone + filtered noise, sparse metallic ticks, HPF slowly opening]
[Build: ghost kick (sub muted), rumble tail fades in (LPF), short riser from field-recorded whine]
[Drop 1: full distorted kick (hard clip) + mono rumble, closed hats 1/16, metallic hit every 2 bars, atonal stab motif (repeat)]
[Variation: add FM growl layer on fills, 1-beat mute every 8 bars, hats slightly wider]
[Break/Reset: kill kick, keep drone + granular noise, gated reverb snare pulses, quick filter sweep down]
[Build 2: kick returns filtered + quieter, short snare roll (metal hits), last beat: stop]
[Drop 2 (peak): kick + rumble harder, offbeat ride/open hat, second stab layer higher/shorter, noise bursts on downbeats (sparingly)]
[Outro: strip to kick + drone, fast LPF to room tone, end on short reverb tail]
میتوانم بگویم نتایج خوب هستند. نمیتوانم آن را «تکنو تاریک» بنامم، اما یک تکنو عمومی خوب است. اگر روی شفل بگویم، شاید بلافاصله تشخیص ندم که هوش مصنوعی است، اما همچنین گوشیام را برای جستجوی اسم هنرمند برنمیدارم.
این را با چیزی مانند A Burning Question از Tim Tama مقایسه کنید و شکاف را ببینید. حتی اگر پالت مشابهی داشته باشند، Tim Tama میتواند احساس را هدف بگیرد. ترک هوش مصنوعی بیشتر شبیه اضطراب بیهدف است: حرکت میکند و میچرخد، اما واقعاً چیزی نمیگوید.
آیا هوش مصنوعی میتواند متال بسازد؟
آهنگی که دوبار گوش نمیکنم

بله، میتواند. صادقانه بگویم، این جایی است که علاقهمندی جدید (و احتمالاً کوتاهمدت) من به موسیقی هوش مصنوعی آغاز شد. دوستی به من فشار میداد تا یک جفت موش لابراتوار — فقط یک جفت — بهعنوان حیوانات خانگی بخریم. او خیلی به حیوانات علاقه دارد. آنها حیوانات آزمایشگاهی را بهصورت عمومی نمیفروشند (به دلایل اخلاقی و محیطزیستی)، اما دوستم همچنان اصرار داشت، پس من با یک آهنگ پاسخ دادم.
قبل از اینکه گوش کنید، کمی زمینه: بیشتر متالی که گوش دادهام، Dethklok بوده. آنها یک گروه پارودی از یک برنامه پارودی هستند. من واقعاً موسیقی آنها را دوست دارم، اما میدانم این دقیقاً «متال جدی» نیست. بنابراین اگر شما یک متالهدر هستید که این را میخوانید، پیشاپیش عذرخواهی میکنم.
آهنگ کمی سنگین است، نه؟ من آن را دوست دارم. همانطور که پیشبینی شد، کاری که باید میکرد — اگرچه نمیتوانم آن را دوبار گوش دهم بدون اینکه سردرد بگیرم.
نظرهٔ نهایی من دربارهٔ هوش مصنوعی مولد
متوسط، بیفایده نیست
من یک نویسندهام، بنابراین ترس «هوش مصنوعی شغلهای ما را میگیرد» را همانند دیگران میدانم. اما من به هوش مصنوعی عادت کردهام. نه به این خاطر که شغلها را جایگزین نکند. البته، برخی را جایگزین میشود.
هوش مصنوعی در ارائهٔ نسخهٔ متوسط تقریباً از هر چیزی بسیار خوب میشود. و این متوسط بودن بهصورت خاصی است — تمایل دارد به سمت خروجی متوسط، قابل قبول برای اکثر افراد، پیشروند. متوسط بودن خودکاراً بد نیست. گاهی «کافی است» دقیقاً همان چیزی است که نیاز داریم.
هوش مصنوعی جای نويسندگان را به همانشیوهای که مردم بهطور دراماتیك تصور میکنند، نخواهد گرفت. اما آنچه که جایگزین خواهد شد، مقدار زیادی کپیرایتینگ است. هوش مصنوعی هنرمندان را بهصورت کلی جایگزین نمیکند، اما نقاشان سفارشی که پرترهٔ شما را با هزینه میکشند و همین کار را انجام میدهند، جایگزین میشود.
بهعنوان یک مقیاس: هوش مصنوعی Fiverr را جایگزین میکند. میدانید چهطور گروهها و نوازندگان در Fiverr وجود دارند که میتوانید به آنها صددلار بدهید تا هر چیزی را بخوانند و به آهنگ تبدیل کنند؟ این همان کاری است که هوش مصنوعی ابتدا در حال خوردن است. کپیرایتینگها هم هستند که میتوانید به آنها بگویید رزومهٔ دانشگاهیتان را بازنویسی کنند. این همان کاری است که هوش مصنوعی قبلاً شروع به بلعیدن آن کرده است.
این همان دو سنی است که من دارم. میدانم موسیقی هوش مصنوعی، هنر هوش مصنوعی، و هوش مصنوعی مولد بهطور کلی موضوعات حسّاسی هستند — اما امیدوارم منظورم را درک کنید.