ابزار تولید ویدئوی Sora از OpenAI خروجیهایی تولید میکند که آنقدر خوب هستند که ممکن است واقعیت را زیر سؤال ببرید— اما بیشتر آنچه تولید میکند بهقدری غیرطبیعی است که به راحتی قابل تشخیص است. بنابراین، اگر بهدنبال ویدئوهای بهتر Sora AI هستید، این نکات و تکنیکهای پرامپتگذاری Sora را امتحان کنید تا بهسرعت بهبود یابید.
ابزار تولید ویدئوی Sora از OpenAI خروجیهایی تولید میکند که آنقدر عالی هستند که ممکن است واقعیت را زیر سؤال ببرید — اما بیشتر آنچه تولید میکند بهقدر غیرطبیعی است که به راحتی میتوانید آن را تشخیص دهید. بنابراین، اگر میخواهید ویدئوی بهتری از Sora AI داشته باشید، این نکات و تکنیکهای پرامپتینگ Sora را برای بهبود فوری امتحان کنید.
3 تمرکز بر سبک و زیباییشناسی
Sora یک از بسیاری از ابزارهای AI متن‑به‑ویدئو است، اما از بزرگترین بازیکن بازار هوش مصنوعی، OpenAI میآید.
بهنظر میرسد Sora «فضا» (vibe) درخواستهای شما را بهتر از جزئیات بسیار دقیق درک میکند. من یک پرامپت نسبتاً خاص برای دریافت یک شات درامیک از یک کابوی نوشته بودم: «یک کابوی درامیک که با یک لبخند دلپذیر زیر پایش کفشها را بلند میکند»، اما لبخند و بلند کردن کفش هرگز بهدست نیامد، اما شات درامیک و تمیز بود.
بهطور مشابه، من یک پرامپت دیگر با جهتگیری سبک خاص دادم: «به سبک فیلم ترسناک یافتن فیلم، یک بچه گربهٔ ناز را که از یک کوچهٔ تاریک به سمت بیننده میآید نشان بده». این پرامپت زیباییشناسی یک فیلم ترسناک یافتن فیلم را بهدست آورد، اما بچه گربه به سمت دوربین حرکت میکرد و سرش همواره میچرخید تا به دوربین نگاه کند. حرکات گربه نیز بهطرز قابلتوجهی غیرطبیعی بود.
در نهایت، من یک پرامپت احمقانهتر از چیزی که در واقعیت نمیتواند رخ دهد امتحان کردم: «T‑rex که در گذرگاه شِیبویای توکیو راه میرود». من زمان قابلتوجهی را در این مکان خاص سپری کردهام و خروجی این پرامپت چند نقص دارد. بهعنوان مثال، «فضای» شِیبیوا را با زیباییهای نادرست به تصویر میکشد و T‑rex کارتونی و ثابت است.
حتی زمانی که درخواست کردم T‑rex واقعیتر بهنظر برسد و واقعاً راه برود، ثابت ماند و شِیبیوا همچنان در درهٔ غریبمانند (uncanny valley) باقی ماند.
2 محدود کردن پیچیدگی برای نتایج تمیزتر
بهوضوح، Sora و other AI video tools (some of which are free) توانایی مدیریت حرکات یا اعمال پیچیده را ندارند. ممکن است ویدئوهای AI‑تولیدشدهای با کیفیت بهنظر میآیند که در رسانههای اجتماعی موج میزنند، مانند ویدئوی «Egypt 3099» که با Kling AI ساخته شده است، دیده باشید. در تقریباً همه این موارد، در حالی که زیباییشناسی معمولاً تمیز و چشمگیر است، حرکت و پیچیدگی معمولاً بهطرز فوقالعادهای محدود هستند.
مثال «Egypt 3099» بهویژه چشمگیر است، اما تنها به این دلیل که، چه عمدی و چه غیرعمدی، هر پرامپتی از سازنده حرکات و تعاملات پیچیده را محدود کرده است. بههمین دلیل، هر پیچیدگی در پرامپت شما باید به توصیف سبک زیباییشناسی ویدئوی Sora اختصاص یابد و حرکت، اعمال و تعامل اشیاء باید ساده نگه داشته شوند.
1 Sora تعامل اشیاء را بهخوبی مدیریت نمیکند
یک حوزه از پیچیدگی که Sora بهویژه بهخوبی مدیریت میکند تعامل اشیاء است. فیزیک تقریباً هر شیء در حال حرکت در یک ویدئوی Sora بهطرز غیرطبیعی (اگرچه کمدی) بهنظر میرسد. من پرامپت کلاسیک «Will Smith Eating Spaghetti» را وارد کردم و در اکثر موارد، تعاملات اشیاء بسیار غیرطبیعی هستند. در مثال Will Smith، شخص بهاطلاقاً شبیه Will Smith نیست و اسپاگتی ظاهراً به داخل چنگال جذب میشود.
من چندین بار سعی کردم چیزی متحرک بسازم که بهنظر قابلقبول باشد. با کار در چارچوب محدودیتهای تمرکز بر سبک و محدود کردن پیچیدگی عمل، سرانجام خروجی قابل قبولی دریافت کردم. پرامپت این بود: «یک شات درامیک، گسترده و پانینگ از دور از یک شوالیه که سوار بر اسب از طریق یک حومهٔ قرون وسطایی در غروب آفتاب عبور میکند ایجاد کن». به جز دویدن اسب که کمی غیرطبیعی بهنظر میرسید، نتایج چشمگیر بودند.
از آنچه با Sora پرامپت کردم، بهترین خروجی من مثال کابوی بود. در حال حاضر، ابزارهای ویدئوی AI مانند Sora خروجیهای کمکیفیت و غیرطبیعی را بدون پرامپتهای بسیار خاص تولید میکنند. و حتی با مهندسی پرامپت ماهرانه، باید در چارچوب محدودیتهای نسبتاً سخت کار کنید تا هر چیزی طبیعیتر بهنظر برسد. با این حال، AI متن‑به‑ویدئو بهصورت نمایی در حال بهبود است و این ویدئوها احتمالاً در چند سال آینده قابل تشخیص از ویدئوی واقعی نخواهند بود — واقعیتی که برای بسیاری هم هیجان و هم ترس بههمراه دارد.