موسیقی دیپ فیک چیست؟ و چگونه ایجاد می شود؟

موسیقی Deepfake از سبک یک هنرمند خاص، از جمله صدای آنها تقلید می کند. چطور ممکن است اینقدر واقعی به نظر برسد؟

برای مدت طولانی، موسیقی می‌توانست از دنیای دیپ‌فیک‌ها جلوگیری کند، زیرا به سادگی نمی‌توان صدای دیگران را ترکیب کرد. همه اینها با پیشرفت فناوری هوش مصنوعی تغییر کرد. این منجر به شبیه سازی صدای هنرمندان مشهور شده است که می توان از آنها برای تولید آهنگ های آوازی جدید استفاده کرد.

با در دسترس تر شدن ابزارهای هوش مصنوعی برای افراد عادی، موسیقی دیپ فیک یک مشکل رو به رشد است. در اینجا توضیح داده شده است که آن چیست و چگونه ایجاد می شود.

تکامل موسیقی Deepfake

وقتی خواننده مورد علاقه خود را در Spotify یا YouTube می شنوید، به سختی فکر می کنید که می تواند جعلی باشد، اما پیشرفت های هوش مصنوعی این را به واقعیت تبدیل کرده است. در کنار تصاویر و ویدیوهای جعلی، موسیقی دیپ فیک نیز وجود دارد.

ابزارهای هوش مصنوعی می توانند با آموزش یک مدل هوش مصنوعی بر روی نمونه های صوتی صدای افراد، صدای آواز خواندن افراد را صادقانه بازتولید کنند. افراد بیشتری که توسط طرفداران هنرمند یا فن‌آوری هوش مصنوعی ایجاد شده‌اند، تلاش می‌کنند تا دوپلگانگرهای آوازی بسازند.

مردم سال‌ها تلاش می‌کردند تا صدا را با استفاده از رایانه ترکیب کنند، به سال 1961 زمانی که IBM 7094 اولین کامپیوتری بود که آواز خواند. شما می توانید صدای تولید شده توسط رایانه را در حال آواز خواندن دیزی بل در یک کلیپ یوتیوب بشنوید و سعی کنید تصور کنید که این لحظه چقدر شگفت انگیز بود.

پیشرفت سریع به قرن بیست و یکم و فناوری هوش مصنوعی هم کیفیت صدای سنتز شده را بهبود بخشیده و هم به ما این امکان را داده است که کارهایی را انجام دهیم که اکثر ما تا کنون فکرش را نمی کردیم، مانند شبیه سازی صدای افراد.

فقط به این کلیپ از تبدیل صدای روبرتو نیکسون به هنرمند و خواننده رپ کانیه وست نگاه کنید. تماشای ویدیو حس عجیبی به نظر می‌رسد، واقعاً شبیه کانیه است، اما تماشای آن نیز ناراحت کننده است. بدون تأمل زیاد در مورد اینکه هنرمند ممکن است چگونه فکر کند یا چه احساسی داشته باشد، و بدون اجازه، می‌توان آن را تصاحب صدای کسی دانست.

بر خلاف اجرای کامپیوتری دیزی بل، شبیه‌سازی صوتی هوش مصنوعی می‌تواند شباهت دقیق صدای یک نفر را بازتولید کند، که شامل تمام تفاوت‌های ظریف در صدا می‌شود که به ما کمک می‌کند پروفایل صوتی منحصربه‌فرد فرد را شناسایی کنیم. با این حال، موسیقی دیپ فیک بدون مجوز و بدون مجوز انجام می شود، مشکلات جدی دارد که بعداً به آنها خواهیم پرداخت.

مطلب مرتبط: نحوه استفاده از ابزار Curves در فتوشاپ: راهنمای کامل

چگونه آهنگ های Deepfake ایجاد می شوند

روش های مختلفی برای ایجاد آهنگ های دیپ فیک استفاده می شود، اما بسیاری از آنها از فناوری هوش مصنوعی استفاده می کنند. به عنوان مثال، پروژه‌های منبع باز مانند پروژه تبدیل صدای آواز SoftVC VITS در GitHub، یک مدل هوش مصنوعی توسعه داده‌اند که همان کاری را که در نام خود می‌گوید انجام می‌دهد: یک نمونه صوتی را به صدای آواز تبدیل می‌کند.

این مدل یک فایل صوتی موجود از کسی که در حال آواز خواندن است را می گیرد و آن را به صدای شخص دیگری تبدیل می کند. چیزهایی مانند اشعار و ریتم صدای اصلی حفظ می شوند، اما لحن، تن و کیفیت های صوتی شخصی به صدای مشخص شده توسط مجموعه داده آموزشی تبدیل می شوند.

به خاطر داشته باشید که سایر بخش‌های آهنگ ممکن است همچنان به صورت دستی تولید شوند، مانند ایجاد ضرب‌ها و ملودی‌ها در همان سبک و ژانر هنرمند اصلی.

برای ایجاد یک دیپ‌فیک از صدای کانیه وست، یک مجموعه داده شخص ثالث باید در مدل SoftVC VITS وارد می‌شد که شامل نمونه‌هایی از صدای واقعی کانیه می‌شد. فایل حاوی مجموعه داده از آن زمان توسط نویسنده حذف شده است، که با توجه به قلمرو قانونی مبهم که ممکن است با مجموعه داده های غیرمجاز همراه باشد، تعجب آور نیست.

در حالی که به یک برنامه تجاری تبدیل نشده است، می توانید نسخه ای از مدل SoftVC VITS را در Google Collab بیابید که کاربر پسندتر است.

تا زمانی که مرزهای اخلاقی و قانونی مشخص نشود، این امکان وجود دارد که برنامه‌های شبیه‌سازی صوتی با استفاده آسان‌تر ظاهر شوند – نه چندان متفاوت از برنامه Drayk.it که یک توضیح متن را به آهنگ‌هایی تبدیل کرد که به سبک هنرمند Drake طراحی شده بودند. بعداً تعطیل شد.

برخی از ابزارهای دیگری که برای ایجاد موسیقی دیپ‌فیک استفاده می‌شوند شامل مدل‌های زبان بزرگ مانند ChatGPT هستند که می‌توان از آن برای نوشتن اشعار به سبک یک هنرمند مشهور استفاده کرد. و OpenAI’s Jukebox و Google’s MusicLM که مدل‌های مولد هوش مصنوعی هستند که می‌توانند موسیقی را به صورت صوتی خام کاملاً از ابتدا ایجاد کنند.

مطلب مرتبط: DALL-E را فراموش کنید: این بهترین تولیدکننده متن به تصویر هوش مصنوعی است...

آیا میتوانی تفاوت را بشنوی؟

آهنگی که توسط یک کاربر ناشناس به نام Ghostwriter ایجاد شده بود، در آوریل 2023 در TikTok در فضای مجازی پخش شد، البته بخش کوچکی از آن به این دلیل بود که اشعاری که توسط هنرمندان Drake و The Weeknd خوانده شده بود را در خود داشت. البته این صداهای واقعی هنرمندان نبودند، بلکه صداهای جعلی بودند.

اگر آواز آنچنان کپی خوبی از نسخه اصلی نبود، شاید موفقیت آمیز نبود. با کمی کند و کاو، می‌توانید خیلی سریع متوجه شوید که آیا آن معامله واقعی است یا نه، اما فقط با استفاده از گوش‌های خود، فقط می‌توانید حدس بزنید که معتبر است یا خیر.

اگر می خواهید یک تصویر تولید شده توسط هوش مصنوعی را شناسایی کنید، حداقل چند انحراف بصری وجود دارد که می توانید به دنبال آن باشید. در مورد صدا، علائمی مانند صدای کم وفاداری یا اشکالات در آهنگ معنی زیادی ندارند زیرا اینها انتخاب های خلاقانه ای هستند که همیشه در تولید موسیقی استفاده می شوند.

جالب‌تر این است که بسیاری از مردم واقعاً این آهنگ را دوست دارند، حتی پس از اینکه متوجه شدند این آهنگ صدای واقعی Drake یا The Weeknd نیست. تحسین‌کنندگان خاطرنشان کردند که همه چیز به سادگی با هوش مصنوعی ساخته نشده است و مهارت و کار واقعی در نوشتن متن ترانه‌ها، آهنگسازی بیت‌ها و کنار هم قرار دادن کل کار انجام شده است.

این آهنگ قبل از حذف شدن در روزهای بعد به Spotify و YouTube راه یافت، اما نه قبل از اینکه طرفداران آهنگ را به عنوان mp3 دانلود کنند. اگر «Heart On My Sleeve, Drake ft. The Weeknd» را جستجو کنید، همچنان می‌توانید نسخه‌های آنلاین این آهنگ را پیدا کنید.

به زودی، تشخیص تفاوت بین کلون های صوتی تولید شده توسط هوش مصنوعی و صدای واقعی انسان تقریبا غیرممکن خواهد شد. با در نظر گرفتن این موضوع، مردم این سوال را مطرح می کنند که آیا این در وهله اول استفاده خوبی از فناوری هوش مصنوعی است یا حتی استفاده قانونی از آن.

مشکلات موسیقی Deepfake

از یک طرف، مردم از شنیدن ماشاپ های ساخته شده توسط طرفداران از هنرمندان مورد علاقه خود لذت می برند و به خلاقیتی که برای تحقق آن انجام می شود احترام می گذارند. اما توانایی داشتن کلون های صوتی در وهله اول به مجموعه داده هایی بستگی دارد که ممکن است مجاز باشند یا نباشند.

مطلب مرتبط: چگونه هوش مصنوعی بر خلاقیت تأثیر می گذارد؟

بدون اجازه، نمونه‌هایی از صدای یک فرد در مجموعه داده‌ای جمع‌آوری می‌شود که سپس برای آموزش مدل تبدیل صدای هوش مصنوعی استفاده می‌شود. این شبیه به مشکل هنرمندانی است که می خواهند تصاویر خود را از مجموعه داده های آموزشی که برای آموزش تولید کننده های تصویر هوش مصنوعی مانند Dall-E یا Midjourney استفاده می شود، حذف کنند.

قانون کپی رایت نیز برای مقابله با موسیقی دیپ فیک کاملاً آماده نیست. در سال 2020، هنرمند Jay-Z در تلاش برای وادار کردن YouTube به حذف صدای تولید شده توسط هوش مصنوعی از آهنگ‌های رپ او از تک‌گویی “بودن یا نبودن” ویلیام شکسپیر شکست خورد.

هنگامی که یک آهنگ دیپ فیک در Spotify یا YouTube آپلود می شود، این سوال نیز وجود دارد که چه کسی پول در می آورد. آیا باید بتوانید با آهنگی که تقریباً دقیقاً صدای شخص دیگری را کپی می کند، درآمد کسب کنید؟

هالی هرندون یکی از هنرمندانی است که سعی کرده سیستمی ایجاد کند تا مردم در ازای استفاده از مدل صدایش برای خلق اثری بدیع، او را جبران کنند. در حالی که هنرمندان دیگری مانند نیک کیو علیه هوش مصنوعی صحبت کرده اند و نوشته اند:

ترانه‌ها از رنج ناشی می‌شوند، منظورم این است که آنها بر تقلای پیچیده و درونی انسان آفرینش هستند و خوب، تا آنجا که من می‌دانم، الگوریتم‌ها احساسی ندارند.

گاهی اوقات، متن های تولید شده توسط هوش مصنوعی ممکن است به طور کلی فاقد خلاقیت باشند، اما همچنان به صورت آنلاین پست می شوند. هوش مصنوعی می تواند منجر به موسیقی بد زیادی شود که تلاش بسیار کمی برای آن انجام شده است.

یافتن تعادل بین موسیقی و هوش مصنوعی

موسیقی Deepfake با استفاده از ابزارهای هوش مصنوعی و مدل های هوش مصنوعی که بر روی مجموعه داده های غیرمجاز آموزش داده شده اند ایجاد می شود. برخی از مدل‌ها منبع باز و آزادانه در دسترس هستند، در حالی که تلاش‌های دیگری برای بسته‌بندی آنها در یک برنامه کاربرپسند انجام شده است.

از آنجایی که افراد بیشتری به مدل‌ها یا برنامه‌های موسیقی دیپ‌فیک دست می‌زنند، ارزش آن را دارد که به تأثیر آن بر هنرمند فکر کنیم. دریافت رضایت برای آموزش مجموعه داده ها و پرداخت غرامت برای هنرمند تنها بخشی از مشکلاتی است که بر سر فناوری موسیقی هوش مصنوعی وجود دارد.