موسیقی Deepfake از سبک یک هنرمند خاص، از جمله صدای آنها تقلید می کند. چطور ممکن است اینقدر واقعی به نظر برسد؟
برای مدت طولانی، موسیقی میتوانست از دنیای دیپفیکها جلوگیری کند، زیرا به سادگی نمیتوان صدای دیگران را ترکیب کرد. همه اینها با پیشرفت فناوری هوش مصنوعی تغییر کرد. این منجر به شبیه سازی صدای هنرمندان مشهور شده است که می توان از آنها برای تولید آهنگ های آوازی جدید استفاده کرد.
با در دسترس تر شدن ابزارهای هوش مصنوعی برای افراد عادی، موسیقی دیپ فیک یک مشکل رو به رشد است. در اینجا توضیح داده شده است که آن چیست و چگونه ایجاد می شود.
تکامل موسیقی Deepfake
وقتی خواننده مورد علاقه خود را در Spotify یا YouTube می شنوید، به سختی فکر می کنید که می تواند جعلی باشد، اما پیشرفت های هوش مصنوعی این را به واقعیت تبدیل کرده است. در کنار تصاویر و ویدیوهای جعلی، موسیقی دیپ فیک نیز وجود دارد.
ابزارهای هوش مصنوعی می توانند با آموزش یک مدل هوش مصنوعی بر روی نمونه های صوتی صدای افراد، صدای آواز خواندن افراد را صادقانه بازتولید کنند. افراد بیشتری که توسط طرفداران هنرمند یا فنآوری هوش مصنوعی ایجاد شدهاند، تلاش میکنند تا دوپلگانگرهای آوازی بسازند.
مردم سالها تلاش میکردند تا صدا را با استفاده از رایانه ترکیب کنند، به سال 1961 زمانی که IBM 7094 اولین کامپیوتری بود که آواز خواند. شما می توانید صدای تولید شده توسط رایانه را در حال آواز خواندن دیزی بل در یک کلیپ یوتیوب بشنوید و سعی کنید تصور کنید که این لحظه چقدر شگفت انگیز بود.
پیشرفت سریع به قرن بیست و یکم و فناوری هوش مصنوعی هم کیفیت صدای سنتز شده را بهبود بخشیده و هم به ما این امکان را داده است که کارهایی را انجام دهیم که اکثر ما تا کنون فکرش را نمی کردیم، مانند شبیه سازی صدای افراد.
فقط به این کلیپ از تبدیل صدای روبرتو نیکسون به هنرمند و خواننده رپ کانیه وست نگاه کنید. تماشای ویدیو حس عجیبی به نظر میرسد، واقعاً شبیه کانیه است، اما تماشای آن نیز ناراحت کننده است. بدون تأمل زیاد در مورد اینکه هنرمند ممکن است چگونه فکر کند یا چه احساسی داشته باشد، و بدون اجازه، میتوان آن را تصاحب صدای کسی دانست.
بر خلاف اجرای کامپیوتری دیزی بل، شبیهسازی صوتی هوش مصنوعی میتواند شباهت دقیق صدای یک نفر را بازتولید کند، که شامل تمام تفاوتهای ظریف در صدا میشود که به ما کمک میکند پروفایل صوتی منحصربهفرد فرد را شناسایی کنیم. با این حال، موسیقی دیپ فیک بدون مجوز و بدون مجوز انجام می شود، مشکلات جدی دارد که بعداً به آنها خواهیم پرداخت.
چگونه آهنگ های Deepfake ایجاد می شوند
روش های مختلفی برای ایجاد آهنگ های دیپ فیک استفاده می شود، اما بسیاری از آنها از فناوری هوش مصنوعی استفاده می کنند. به عنوان مثال، پروژههای منبع باز مانند پروژه تبدیل صدای آواز SoftVC VITS در GitHub، یک مدل هوش مصنوعی توسعه دادهاند که همان کاری را که در نام خود میگوید انجام میدهد: یک نمونه صوتی را به صدای آواز تبدیل میکند.
این مدل یک فایل صوتی موجود از کسی که در حال آواز خواندن است را می گیرد و آن را به صدای شخص دیگری تبدیل می کند. چیزهایی مانند اشعار و ریتم صدای اصلی حفظ می شوند، اما لحن، تن و کیفیت های صوتی شخصی به صدای مشخص شده توسط مجموعه داده آموزشی تبدیل می شوند.
به خاطر داشته باشید که سایر بخشهای آهنگ ممکن است همچنان به صورت دستی تولید شوند، مانند ایجاد ضربها و ملودیها در همان سبک و ژانر هنرمند اصلی.
برای ایجاد یک دیپفیک از صدای کانیه وست، یک مجموعه داده شخص ثالث باید در مدل SoftVC VITS وارد میشد که شامل نمونههایی از صدای واقعی کانیه میشد. فایل حاوی مجموعه داده از آن زمان توسط نویسنده حذف شده است، که با توجه به قلمرو قانونی مبهم که ممکن است با مجموعه داده های غیرمجاز همراه باشد، تعجب آور نیست.
در حالی که به یک برنامه تجاری تبدیل نشده است، می توانید نسخه ای از مدل SoftVC VITS را در Google Collab بیابید که کاربر پسندتر است.
تا زمانی که مرزهای اخلاقی و قانونی مشخص نشود، این امکان وجود دارد که برنامههای شبیهسازی صوتی با استفاده آسانتر ظاهر شوند – نه چندان متفاوت از برنامه Drayk.it که یک توضیح متن را به آهنگهایی تبدیل کرد که به سبک هنرمند Drake طراحی شده بودند. بعداً تعطیل شد.
برخی از ابزارهای دیگری که برای ایجاد موسیقی دیپفیک استفاده میشوند شامل مدلهای زبان بزرگ مانند ChatGPT هستند که میتوان از آن برای نوشتن اشعار به سبک یک هنرمند مشهور استفاده کرد. و OpenAI’s Jukebox و Google’s MusicLM که مدلهای مولد هوش مصنوعی هستند که میتوانند موسیقی را به صورت صوتی خام کاملاً از ابتدا ایجاد کنند.
آیا میتوانی تفاوت را بشنوی؟
آهنگی که توسط یک کاربر ناشناس به نام Ghostwriter ایجاد شده بود، در آوریل 2023 در TikTok در فضای مجازی پخش شد، البته بخش کوچکی از آن به این دلیل بود که اشعاری که توسط هنرمندان Drake و The Weeknd خوانده شده بود را در خود داشت. البته این صداهای واقعی هنرمندان نبودند، بلکه صداهای جعلی بودند.
اگر آواز آنچنان کپی خوبی از نسخه اصلی نبود، شاید موفقیت آمیز نبود. با کمی کند و کاو، میتوانید خیلی سریع متوجه شوید که آیا آن معامله واقعی است یا نه، اما فقط با استفاده از گوشهای خود، فقط میتوانید حدس بزنید که معتبر است یا خیر.
اگر می خواهید یک تصویر تولید شده توسط هوش مصنوعی را شناسایی کنید، حداقل چند انحراف بصری وجود دارد که می توانید به دنبال آن باشید. در مورد صدا، علائمی مانند صدای کم وفاداری یا اشکالات در آهنگ معنی زیادی ندارند زیرا اینها انتخاب های خلاقانه ای هستند که همیشه در تولید موسیقی استفاده می شوند.
جالبتر این است که بسیاری از مردم واقعاً این آهنگ را دوست دارند، حتی پس از اینکه متوجه شدند این آهنگ صدای واقعی Drake یا The Weeknd نیست. تحسینکنندگان خاطرنشان کردند که همه چیز به سادگی با هوش مصنوعی ساخته نشده است و مهارت و کار واقعی در نوشتن متن ترانهها، آهنگسازی بیتها و کنار هم قرار دادن کل کار انجام شده است.
این آهنگ قبل از حذف شدن در روزهای بعد به Spotify و YouTube راه یافت، اما نه قبل از اینکه طرفداران آهنگ را به عنوان mp3 دانلود کنند. اگر «Heart On My Sleeve, Drake ft. The Weeknd» را جستجو کنید، همچنان میتوانید نسخههای آنلاین این آهنگ را پیدا کنید.
به زودی، تشخیص تفاوت بین کلون های صوتی تولید شده توسط هوش مصنوعی و صدای واقعی انسان تقریبا غیرممکن خواهد شد. با در نظر گرفتن این موضوع، مردم این سوال را مطرح می کنند که آیا این در وهله اول استفاده خوبی از فناوری هوش مصنوعی است یا حتی استفاده قانونی از آن.
مشکلات موسیقی Deepfake
از یک طرف، مردم از شنیدن ماشاپ های ساخته شده توسط طرفداران از هنرمندان مورد علاقه خود لذت می برند و به خلاقیتی که برای تحقق آن انجام می شود احترام می گذارند. اما توانایی داشتن کلون های صوتی در وهله اول به مجموعه داده هایی بستگی دارد که ممکن است مجاز باشند یا نباشند.
بدون اجازه، نمونههایی از صدای یک فرد در مجموعه دادهای جمعآوری میشود که سپس برای آموزش مدل تبدیل صدای هوش مصنوعی استفاده میشود. این شبیه به مشکل هنرمندانی است که می خواهند تصاویر خود را از مجموعه داده های آموزشی که برای آموزش تولید کننده های تصویر هوش مصنوعی مانند Dall-E یا Midjourney استفاده می شود، حذف کنند.
قانون کپی رایت نیز برای مقابله با موسیقی دیپ فیک کاملاً آماده نیست. در سال 2020، هنرمند Jay-Z در تلاش برای وادار کردن YouTube به حذف صدای تولید شده توسط هوش مصنوعی از آهنگهای رپ او از تکگویی “بودن یا نبودن” ویلیام شکسپیر شکست خورد.
هنگامی که یک آهنگ دیپ فیک در Spotify یا YouTube آپلود می شود، این سوال نیز وجود دارد که چه کسی پول در می آورد. آیا باید بتوانید با آهنگی که تقریباً دقیقاً صدای شخص دیگری را کپی می کند، درآمد کسب کنید؟
هالی هرندون یکی از هنرمندانی است که سعی کرده سیستمی ایجاد کند تا مردم در ازای استفاده از مدل صدایش برای خلق اثری بدیع، او را جبران کنند. در حالی که هنرمندان دیگری مانند نیک کیو علیه هوش مصنوعی صحبت کرده اند و نوشته اند:
ترانهها از رنج ناشی میشوند، منظورم این است که آنها بر تقلای پیچیده و درونی انسان آفرینش هستند و خوب، تا آنجا که من میدانم، الگوریتمها احساسی ندارند.
گاهی اوقات، متن های تولید شده توسط هوش مصنوعی ممکن است به طور کلی فاقد خلاقیت باشند، اما همچنان به صورت آنلاین پست می شوند. هوش مصنوعی می تواند منجر به موسیقی بد زیادی شود که تلاش بسیار کمی برای آن انجام شده است.
یافتن تعادل بین موسیقی و هوش مصنوعی
موسیقی Deepfake با استفاده از ابزارهای هوش مصنوعی و مدل های هوش مصنوعی که بر روی مجموعه داده های غیرمجاز آموزش داده شده اند ایجاد می شود. برخی از مدلها منبع باز و آزادانه در دسترس هستند، در حالی که تلاشهای دیگری برای بستهبندی آنها در یک برنامه کاربرپسند انجام شده است.
از آنجایی که افراد بیشتری به مدلها یا برنامههای موسیقی دیپفیک دست میزنند، ارزش آن را دارد که به تأثیر آن بر هنرمند فکر کنیم. دریافت رضایت برای آموزش مجموعه داده ها و پرداخت غرامت برای هنرمند تنها بخشی از مشکلاتی است که بر سر فناوری موسیقی هوش مصنوعی وجود دارد.