این ۳ نکته به‌طوری چشمگیر ویدیوهای Sora AI شما را بهبود می‌بخشند

ابزار تولید ویدئوی Sora از OpenAI خروجی‌هایی تولید می‌کند که آن‌قدر خوب هستند که ممکن است واقعیت را زیر سؤال ببرید— اما بیشتر آنچه تولید می‌کند به‌قدری غیرطبیعی است که به راحتی قابل تشخیص است. بنابراین، اگر به‌دنبال ویدئوهای بهتر Sora AI هستید، این نکات و تکنیک‌های پرامپت‌گذاری Sora را امتحان کنید تا به‌سرعت بهبود یابید.

ابزار تولید ویدئوی Sora از OpenAI خروجی‌هایی تولید می‌کند که آن‌قدر عالی هستند که ممکن است واقعیت را زیر سؤال ببرید — اما بیشتر آنچه تولید می‌کند به‌قدر غیرطبیعی است که به راحتی می‌توانید آن را تشخیص دهید. بنابراین، اگر می‌خواهید ویدئوی بهتری از Sora AI داشته باشید، این نکات و تکنیک‌های پرامپتینگ Sora را برای بهبود فوری امتحان کنید.

3 تمرکز بر سبک و زیبایی‌شناسی

Sora یک از بسیاری از ابزارهای AI متن‑به‑ویدئو است، اما از بزرگ‌ترین بازیکن بازار هوش مصنوعی، OpenAI می‌آید.

به‌نظر می‌رسد Sora «فضا» (vibe) درخواست‌های شما را بهتر از جزئیات بسیار دقیق درک می‌کند. من یک پرامپت نسبتاً خاص برای دریافت یک شات درامیک از یک کابوی نوشته بودم: «یک کابوی درامیک که با یک لبخند دلپذیر زیر پایش کفش‌ها را بلند می‌کند»، اما لبخند و بلند کردن کفش هرگز به‌دست نیامد، اما شات درامیک و تمیز بود.

به‌طور مشابه، من یک پرامپت دیگر با جهت‌گیری سبک خاص دادم: «به سبک فیلم ترسناک یافتن فیلم، یک بچه گربهٔ ناز را که از یک کوچهٔ تاریک به سمت بیننده می‌آید نشان بده». این پرامپت زیبایی‌شناسی یک فیلم ترسناک یافتن فیلم را به‌دست آورد، اما بچه گربه به سمت دوربین حرکت می‌کرد و سرش همواره می‌چرخید تا به دوربین نگاه کند. حرکات گربه نیز به‌طرز قابل‌توجهی غیرطبیعی بود.

مطلب مرتبط: مراقب گوگل باشید: جستجوی ChatGPT اینجاست تا برای هر درخواست شما نتیجه بگیرد

در نهایت، من یک پرامپت احمقانه‌تر از چیزی که در واقعیت نمی‌تواند رخ دهد امتحان کردم: «T‑rex که در گذرگاه شِیبویای توکیو راه می‌رود». من زمان قابل‌توجهی را در این مکان خاص سپری کرده‌ام و خروجی این پرامپت چند نقص دارد. به‌عنوان مثال، «فضای» شِیبیوا را با زیبایی‌های نادرست به تصویر می‌کشد و T‑rex کارتونی و ثابت است.

حتی زمانی که درخواست کردم T‑rex واقعی‌تر به‌نظر برسد و واقعاً راه برود، ثابت ماند و شِیبیوا همچنان در درهٔ غریب‌مانند (uncanny valley) باقی ماند.

2 محدود کردن پیچیدگی برای نتایج تمیزتر

به‌وضوح، Sora و other AI video tools (some of which are free) توانایی مدیریت حرکات یا اعمال پیچیده را ندارند. ممکن است ویدئوهای AI‑تولیدشده‌ای با کیفیت به‌نظر می‌آیند که در رسانه‌های اجتماعی موج می‌زنند، مانند ویدئوی «Egypt 3099» که با Kling AI ساخته شده است، دیده باشید. در تقریباً همه این موارد، در حالی که زیبایی‌شناسی معمولاً تمیز و چشمگیر است، حرکت و پیچیدگی معمولاً به‌طرز فوق‌العاده‌ای محدود هستند.

مثال «Egypt 3099» به‌ویژه چشمگیر است، اما تنها به این دلیل که، چه عمدی و چه غیرعمدی، هر پرامپتی از سازنده حرکات و تعاملات پیچیده را محدود کرده است. به‌همین دلیل، هر پیچیدگی در پرامپت شما باید به توصیف سبک زیبایی‌شناسی ویدئوی Sora اختصاص یابد و حرکت، اعمال و تعامل اشیاء باید ساده نگه داشته شوند.

1 Sora تعامل اشیاء را به‌خوبی مدیریت نمی‌کند

یک حوزه از پیچیدگی که Sora به‌ویژه به‌خوبی مدیریت می‌کند تعامل اشیاء است. فیزیک تقریباً هر شیء در حال حرکت در یک ویدئوی Sora به‌طرز غیرطبیعی (اگرچه کمدی) به‌نظر می‌رسد. من پرامپت کلاسیک «Will Smith Eating Spaghetti» را وارد کردم و در اکثر موارد، تعاملات اشیاء بسیار غیرطبیعی هستند. در مثال Will Smith، شخص به‌اطلاقاً شبیه Will Smith نیست و اسپاگتی ظاهراً به داخل چنگال جذب می‌شود.

مطلب مرتبط: chatgpt اکنون می تواند با استفاده از تصاویری که بارگذاری می کنید دلیل آن را دلیل دهید: چرا این شگفت انگیز است

من چندین بار سعی کردم چیزی متحرک بسازم که به‌نظر قابل‌قبول باشد. با کار در چارچوب محدودیت‌های تمرکز بر سبک و محدود کردن پیچیدگی عمل، سرانجام خروجی قابل قبولی دریافت کردم. پرامپت این بود: «یک شات درامیک، گسترده و پانینگ از دور از یک شوالیه که سوار بر اسب از طریق یک حومهٔ قرون وسطایی در غروب آفتاب عبور می‌کند ایجاد کن». به جز دویدن اسب که کمی غیرطبیعی به‌نظر می‌رسید، نتایج چشمگیر بودند.

از آنچه با Sora پرامپت کردم، بهترین خروجی من مثال کابوی بود. در حال حاضر، ابزارهای ویدئوی AI مانند Sora خروجی‌های کم‌کیفیت و غیرطبیعی را بدون پرامپت‌های بسیار خاص تولید می‌کنند. و حتی با مهندسی پرامپت ماهرانه، باید در چارچوب محدودیت‌های نسبتاً سخت کار کنید تا هر چیزی طبیعی‌تر به‌نظر برسد. با این حال، AI متن‑به‑ویدئو به‌صورت نمایی در حال بهبود است و این ویدئوها احتمالاً در چند سال آینده قابل تشخیص از ویدئوی واقعی نخواهند بود — واقعیتی که برای بسیاری هم هیجان و هم ترس به‌همراه دارد.

Tags: openai