مدلهای مدرن هوش مصنوعی ممکن است جادویی به نظر برسند، اما آیا میتوانند درخشندگی و حس برخی از شناختهشدهترین عکسهای قرن بیستم را بازتولید کنند؟
پیوندهای پرش
مدلهای مدرن هوش مصنوعی ممکن است جادویی بهنظر برسند، اما آیا میتوانند درخشندگی و حس برخی از مشهورترین عکسهای قرن بیستم را بازتولید کنند؟
چرا این آزمایش را انجام دادم؟
مدلهای هوش مصنوعی بهقدری قدرتمند میشوند که بهنظر میرسد میتوانید تقریباً هر چیزی را با استفاده از پرامپتهای مناسب ایجاد کنید — بنابراین من صرفاً میخواستم بررسی کنم آیا این درست است یا نه. در حالی که آزمایشهای مشابه اکثر خالقان را میترساند، عکاسان معمولاً از تسلط آیندهای هوش مصنوعی به دلیل یک دلیل ساده در امان هستند: آنها واقعیت را مستند میکنند.
عکسهایی که در این مقاله میبینید نه تنها شگفتیهای این رسانه هستند بلکه یک کپسول زمانی از دورهای که گرفته شدهاند نیز میباشند. ممکن است یک مدل هوش مصنوعی بتواند چیزی با حس مشابه تولید کند، اما انتظار داشتن این که تصویری تولید شده توسط هوش مصنوعی دارایی فرهنگی قابلتوجهی داشته باشد، کاملاً غیرمنطقی است.
ابزار انتخابی من Fotor AI بود، یک ژنراتور متن‑به‑تصویر نسبتاً ساده که بهطور کلی نتایج محکمی ارائه میدهد. با این حال، این ابزار Midjourney نیست و اگرچه برای انواع سبکهای هنری عالی است، مهارتهای «عکاسی» آن اغلب ضعیف هستند. این بهویژه هنگام تلاش برای تنظیم پرامپت مدل بهگونهای که با دوره زمانی تصویر اصلی مطابقت داشته باشد، صادق است.
چگونه هوش مصنوعی با سوژههای انسانی برخورد میکند
دوروتیا لنگ اولین اسطورهای است که درمان هوش مصنوعی را دریافت کرد. «مادر مهاجر» یکی از شناختهشدهترین عکسهای تمام دوران است و من بهطور نادرست فرض کردم که Fotor با آن آشناست.

البته، این مدل بهخصوص در تشخیص نامها خوب نیست و من تقریباً مجبور شدم تصویر را بهصورت دقیق توصیف کنم تا مدل متوجه آنچه در ذهنم داشتم شود. نتایج محکماند:

با نگاه دقیقتر، بزرگترین مشکل نورپردازی است. در نسخهٔ اصلی سوژه با نور طبیعی نوردهی شده است، در حالی که هوش مصنوعی به «مادر» ما یک حالت استودیویی مدرن داده است. به نظر من تصویر نیز بیش از حد صیقلی بهنظر میرسد، اگرچه این مسئلهای نیست که مقداری نویز و دانهدار فیلم نتواند رفع کند.
از نظر ترکیببندی، این کار تا حدودی شکست خورده است. دوروتیا لنگ با دقت صحنه را ترکیب کرد تا داستان فردی تحت تاثیر رکود بزرگ را بیان کند؛ هر جزئیات از برش تا نورپردازی به پیام کمک میکند. از سوی دیگر، هوش مصنوعی هنوز در درک زیرمتن (ما همه در دورهٔ عصبانیت نوجوانیاش گیر میکنیم) مشکل دارد، بنابراین هیچیک از اینها به نتیجهٔ نهایی منتقل نمیشود.
Fotor همچنین گزینهٔ استفاده از image-to-image را فراهم میکند و این نتایج نزدیکتری داد (حداقل از نظر ترکیببندی):

اگرچه این تصاویر به سختی از هم متمایز میشوند، من از نتایج راضی نیستم زیرا بهنظر میرسد Fotor فیلتر زیباسازی کمکیفیتی را بر سوژه اعمال کرده است. اما دربارهٔ صحنهای پیچیدهتر چه میشود؟

برای این، به اوایل دههٔ هفتاد میرویم و سعی میکنیم «نیکسون در چین» اثر اولیور اف. اتکنز را بازسازی کنیم. اولین چیزی که متوجه میشوید این است که بهنظر میرسد Fotor نمیداند ریچارد نیکسون چه کسی است (اگر از پرامپت «ووترگیت» استفاده میکردم، شاید مدل منفجر میشد).

احساس کلی تصویر وجود دارد (از جمله تعجب از یک تکه غذا در چوبقاشق)، اما ترکیببندی و تنظیمات محیطی بسیار متفاوتاند. اگر تصویر اصلی را نمیدیدم، شاید نتوانستم بفهمم این چه تصویری است.
image-to-image همان ترکیببندی را دارد اما کیفیت کلی بهطور قابلتوجهی کاهش یافته است. چهرهها خراب شدهاند، یکی از بسیاری از نشانههای تصاویر ضعیف هوش مصنوعی است.

چگونه هوش مصنوعی صحنهها را با اشیای غیر زنده اداره میکند
بیایید با اثر استادانه «فاجعه هیدنبرگ» سام شیر شروع کنیم. این شات یک بار در زندگی اتفاق میافتد و بسیار پیچیده است، بنابراین برای هوش مصنوعی چالش خوبی خواهد بود.

Fotor تا حدی فهمید که چه خواستهام را میخواهم.

من از عبارت «تا حدودی» استفاده میکنم چون زیپلین هنوز کاملاً دست نخورده است، با این حال در آتش فرو رفته است. همچنین خیلی نزدیک به زمین است و امکان بازتولید ترکیببندی اصلی وجود ندارد.
وقتی از تصویر اصلی بهعنوان ورودی استفاده میشود، تقریباً غیرممکن است دو تصویر را از هم متمایز کرد:

دربارهٔ صحنهای که بلافاصله قابل تشخیص نیست چه میگویید؟ بادکنک هوای گرم کاکتوس اثر لئون گیمپل بهدقت این معیار را برآورده میکند.

این نیز یکی از نمونههای نادر استفاده از عکاسی رنگی در اوایل قرن بیستم است، بنابراین جالب است که ببینیم آیا هوش مصنوعی میتواند ظاهر منحصربهفرد آن را بازسازی کند. هشدار: نمیتواند.

محیط (گراند پالی، پاریس) درست است، اما ترکیببندی و سوژهها بهدقت تصویر اصلی را ندارند. رنگها نیز مطابق با دوره تاریخی نیستند. استفاده از تصویر اصلی بهعنوان پرامپت نتایج دقیقتری داد:

مشکل کوچکی وجود دارد: بهنظر میرسد Fotor صرفاً تصویر اصلی را در سبک نقاشی آبرنگ/پاستل بازآفرینی میکند، حتی اگر از پرامپتهای منفی برای جلوگیری از این کار استفاده شود. بنابراین نباید انتظار بهبودهای زیادی داشته باشید.
آیا هوش مصنوعی میتواند مناظر طبیعی و شهری را بازسازی کند؟
به دلیل استفادهٔ او از فیلترهای سفید‑سیاه نارنجی و زرد برای بازی با کنتراست و رویکرد استادانهاش در اتاق تاریک، سبک آنسل آدامز بلافاصله قابل تشخیص است و بازتولید آن بسیار دشوار است.

بنابراین من تصمیم گرفتم Fotor را تحت فشار بگذارم. اگرچه صحنه بهنظر نمیرسد مشابه باشد، کنتراست نکاتی از سبک آنسل آدامز را به خود میگیرد.

image-to-image در کل ظاهر بهتری دارد اما تصویر تمام جزئیات ریز را از دست داده است:

من طرفدار عکاسی خیابانی هستم، اما متأسفانه بیشتر عکسهای خیابانی نمادین هنوز در دامنهٔ عمومی نیستند. لذا عکس نمادین «بوسیدن جنگ» اثر ویکتور جورژنسن را به کار میگیرم.

همانطور که میتوانید از Fotor انتظار داشته باشید، نتیجه نهایی قابلقبول است. دو مشکل وجود دارد.

اولاً، این تصویر شبیه به عکس دیگری از همین صحنه است که آلفرד ایشنستد گرفته؛ دوم اینکه حالا بهنظر میرسد صد درصد صحنه صحنهآمیز (اصلی صحنه طبیعی نبود).
از نظر فنی، نورپردازی شبیه نور استودیوی امروزی است و عکس خیلی کنتراست دارد برای سلیقهٔ من. بیایید از تصویر اصلی بهعنوان پرامپت استفاده کنیم:

این تصویر ترکیبی است؛ در حالی که من ظاهر سوژههای اصلی را دوست دارم، چهرههای افراد زمینهایی حالا بهنظر میرسد که از فیلمهای ترسناک هستند—که هرگز خوب نیست.
در مجموع، من از برخی خلقهای Fotor تحت تأثیر قرار گرفتهام، اما نتایج برایم بیش از حد نامنظم هستند. Midjourney و DALL‑E همچنان در تولید عکسهای واقعی‑بهنظر‑دار برتری دارند، بهویژه وقتی میخواهید عکسهای واقعی‑بهنظر تولید کنید.