من چندین ژنراتور تبدیل متن به ویدیو با هوش مصنوعی را امتحان کردهام، و در حالی که این فناوری غیرقابل انکار است، همیشه چیزی در مورد نتایج نهایی وجود دارد که احساس میکند. مدتی طول کشید تا مشکل را مشخص کنم، اما در نهایت متوجه شدم که همه چیز به یک چیز ختم می شود: اثر دره غیرعادی.
نکات کلیدی
- ژنراتورهای ویدئویی هوش مصنوعی تکامل چشمگیری را نشان میدهند، اما اثر دره غیرعادی همچنان ادامه دارد.
- پیشرفتها در فناوری هوش مصنوعی ویدیوهای واقعیتر را نوید میدهند، اما هنوز احساس ناراحتی و ناراحتی میکنند.
- هدف مولدهای هوش مصنوعی جدیدتر کمال بسیار صیقلی است، اما این خطر وجود دارد که بی جان و عقیم به نظر برسند.
من چندین ژنراتور تبدیل متن به ویدیو با هوش مصنوعی را امتحان کردهام، و در حالی که این فناوری غیرقابل انکار است، همیشه چیزی در مورد نتایج نهایی وجود دارد که احساس میکند. مدتی طول کشید تا مشکل را مشخص کنم، اما در نهایت متوجه شدم که همه چیز به یک چیز ختم می شود: اثر دره غیرعادی.
در حالی که من از برخی ابزارهای مبتنی بر هوش مصنوعی برای جلوههای بصری در پروژههای ویدیوییام استفاده میکنم، نمیتوانم خودم را مجبور به استفاده از هوش مصنوعی برای تولید فیلمهای ویدئویی کنم، زیرا به نظر بسیار غیرعادی میرسد.
بزرگترین مشکل تولیدکنندههای تبدیل متن به ویدیو با هوش مصنوعی
به لطف پیشرفت در یادگیری عمیق، تولید ویدیوی هوش مصنوعی در مدت زمان کوتاهی پیشرفتهای زیادی کرده است. اگر در سال 2023 که تولید ویدیوی هوش مصنوعی منفجر شد آنلاین بودید، ممکن است این کلیپ از ویل اسمیت در حال خوردن اسپاگتی را به خاطر بیاورید. همانطور که این نوع فناوری در آن زمان پیشگام بود، نمی توان انکار کرد که چقدر غیرطبیعی و ناراحت کننده به نظر می رسد.
در سال 2024، این ابزارهای ویدیویی هوش مصنوعی مولد در حال صیقلتر شدن هستند و تصاویری نرمتر و حرکات واقعیتر ایجاد میکنند. به تفاوت بین ویدیوهای ایجاد شده با Runway Gen-2 در سال 2023 و ویدیوهایی که OpenAI در سال 2024 برای معرفی Sora AI رونمایی شد، نگاهی بیندازید. Sora هنوز برای استفاده عمومی در دسترس نیست، اما این کیفیتی است که به ما وعده داده شده است:
با وجود بهبود، هنوز فروخته نشده ام. برای اولین بار، Sora هنوز برای استفاده در دسترس نیست، بنابراین ما هنوز باید از ژنراتورهای کمتر تصفیه شده استفاده کنیم که همان نتایج وحشتناک ویدیوی اسپاگتی ویل اسمیت را ایجاد کند.
فقط به این ویدیویی که با PixVerse ایجاد کردم با استفاده از فرمان “یک نفر در یک پارک در یک روز آفتابی قدم میزند، لبخند میزند و برای دوربین دست تکان میدهد. پرندگان بالای سرشان پرواز میکنند و درختان به آرامی در نسیم تاب میخورند” نگاه کنید.
دو ثانیه اول خوب به نظر می رسند، تا زمانی که انگشتان، موها و صورت فرد شروع به ذوب شدن در هوا کنند! حتی زمانی که ژنراتورهای پیشرفتهتری مانند Sora وارد میشوند و ویدیوهای دقیقتر و زیبایی را به ما میدهند، هنوز چیزی در مورد انسانها و مناظر تولید شده توسط هوش مصنوعی وجود دارد.
در حالی که مدلهای قدیمیتر معمولاً ویدیوهایی با هدایای هوش مصنوعی واضح تولید میکنند، مانند آن تصاویر بصری به سبک رس، پیشرفتهای ژنراتورهای جدید تقریباً بسیار عالی به نظر میرسند. وقتی آن کلیپهای سورا را تماشا میکنم، احساس میکنم تلاش برای اصلاح نتایج در حال حرکت به سمت قلمروی فوقالعاده است، جایی که آنقدر بیعیب به نظر میرسد که در نهایت احساس عقیم و بیجان میکند.
غیر طبیعی، ناراحت کننده، عقیم و بی روح. این دقیقاً همان چیزی است که اثر دره غیرعادی است – شبیه انسان، اما نه کاملاً انسانی.
مهم نیست که این ژنراتورها چقدر خوب باشند، اثر دره غیرعادی همیشه باقی خواهد ماند. تا زمانی که من به دنبال زیبایی انتزاعی سوررئال چیزی نباشم که فقط در رویاها می بینید، برای هیچ یک از پروژه های ویدیویی خود به یک تولید کننده متن به ویدیوی هوش مصنوعی تکیه نمی کنم.