مدلهای هوش مصنوعی مدرن ممکن است جادویی به نظر برسند، اما آیا میتوانند درخشش و جو برخی از شناختهترین عکاسیهای قرن بیستم را تکرار کنند؟
پیوندهای پرش
مدلهای مدرن هوش مصنوعی ممکن است جادویی بهنظر برسند، اما آیا میتوانند درخشش و حس برخی از شناختهشدهترین عکاسیهای قرن بیستم را بازتولید کنند؟
چرا این آزمایش را انجام دادم؟
مدلهای هوش مصنوعی بهقدری قدرتمند میشوند که بهنظر میرسد میتوانید تقریباً هر چیزی را با استفاده از پرامپتهای مناسب ایجاد کنید—بنابراین من صرفاً میخواستم آزمایش کنم که آیا این درست است یا خیر. در حالی که آزمایشهای مشابه اکثر خلاقان را میترسانند، عکاسان بهطور کلی از تسلط آیندهٔ هوش مصنوعی بهدلیل یک دلیل ساده در امان هستند: آنها واقعیت را مستند میکنند.
عکسهایی که در این مقاله میبینید نه تنها شگفتیهای این رسانهاند بلکه یک کیپسول زمانی از دورهای که گرفته شدهاند نیز میباشند. شاید یک مدل هوش مصنوعی بتواند چیزی با حس مشابه تولید کند، اما انتظار داشتن این که تصویری ساختهشده توسط هوش مصنوعی دارای اهمیت فرهنگی باشد، واقعاً غیرمنطقی است.
ابزار انتخابی من Fotor AI بود، یک ژنراتور متن‑به‑تصویر نسبتاً ساده که بهطور کلی نتایج محکمی ارائه میدهد. بههر حال، این ابزار همانند Midjourney نیست و اگرچه برای انواع سبکهای هنری عالی است، مهارتهای «عکاسی» آن اغلب ضعیف هستند. این بهخصوص در زمانی که سعی میکنید مدل را برای تطبیق با دورهٔ زمانی تصویر اصلی راهنمایی کنید، صادق است.
چگونه هوش مصنوعی انسانها را مدیریت میکند
دوروته لاج اولین اسطورهای است که از هوش مصنوعی استفاده میکند. «مادربزرگ مهاجر» یکی از شناختهشدهترین عکسهای تمام دوران است و من بهنادرستی تصور میکردم که Fotor با آن آشناست.

با این حال، این مدل خاص در شناخت نامها مهارت کافی ندارد و من اساساً مجبور شدم تصویر را بهتفصیل توصیف کنم تا اینکه مدل متوجه منظور من شود. نتایج محکمی هستند:

با نگاه دقیقتر، بزرگترین مشکل نوردهی است. در تصویر اصلی، سوژه با نور طبیعی روشن شده است، در حالی که هوش مصنوعی به «مادر» ما حالت استودیوی مدرن داده است. به نظر من تصویر نیز بیش از حد براق بهنظر میرسد، اگرچه این مسئله را میتوان با افزودن کمی نویز و دانههای فیلم حل کرد.
از نظر ترکیببندی، این یک شکست جزئی است. دوروت لاج با دقت صحنه را ترکیب کرد تا داستان فردی تحت تأثیر رکود بزرگ را روایت کند؛ هر جزئیات از برش تا نوردهی به پیام کمک میکند. از سوی دیگر، هوش مصنوعی هنوز با زیرمتن دست و پنجه نرم میکند (ما همه در دورهٔ اضطراب نوجوانیاش گرفتار میشویم)، لذا هیچیک از اینها به نتیجهٔ نهایی منتقل نمیشود.
Fotor همچنین گزینهٔ استفاده از تصویر‑به‑تصویر را فراهم میکند و این نتایج نزدیکتری را بهدست داد (حداقل از نظر ترکیببندی):

اگرچه این دو بهسختی میتوانند از هم تشخیص داد، من از نتایج راضی نیستم چون بهنظر میرسد Fotor یک فیلتر زیباسازی با کیفیت پایین بر روی سوژه اعمال کرده است. اما صحنهای پیچیدهتر چطور؟

برای این، به اوایل دههٔ ۷۰ رفته و سعی میکنیم «نیکسون در چین» اثر الیور اف. اتکینز را بازتولید کنیم. در ادامه برداشت Fotor از آن را میبینید. اولین نکتهای که متوجه میشوید این است که بهنظر میرسد Fotor شناختی از ریچارد نیکسون ندارد (مدل احتمالاً اگر من از پرامپت «واترگیت» استفاده میکردم، منفجر میشد).

خلاصهٔ عکس وجود دارد (از جمله سردرگمی نسبت به قطعهٔ غذایی در چنگال)، اما ترکیببندی و محیط بسیار متفاوت هستند. احتمالاً نمیتوانستم تشخیص دهم تصویر تولیدشده توسط هوش مصنوعی بر چه مبنایی است اگر نسخهٔ اصلی را ندیده بودم.
استفاده از تصویر‑به‑تصویر همان ترکیببندی را دارد اما کیفیت کلی بهطور قابلتوجهی کاهش یافته است. چهرهها تغییر شکل یافتهاند، یکی از بسیاری از نشانههای تصاویر ضعیف تولیدشده توسط هوش مصنوعی.

چگونه هوش مصنوعی صحنههای اشیاء غیرزنده را مدیریت میکند
بیایید با شاهکار «فاجعه هیدنبرگ» اثر سام شیر شروع کنیم. این شات منحصر بهفرد بسیار پیچیده است، بنابراین چالشی مناسب برای هوش مصنوعی خواهد بود.

Fotor تا حدودی آنچه را از او خواستیم درک کرد.

من از عبارت «تقریباً» استفاده کردم زیرا زپلین هنوز بهطور کامل دستنخورده است، باوجودی که در شعلهها غوطهور است. همچنین بسیار بهزمین نزدیک است و تکرار ترکیببندی اصلی غیرممکن بود.
هنگام استفاده از تصویر اصلی بهعنوان ورودی، تشخیص دو تصویر تقریباً غیرممکن است:

صحنهای که بلافاصله قابل تشخیص نباشد چطور؟ بالون هوای گرم کاکتوس اثر لئون گیمپل بهطور کامل این معیار را برآورده میکند.

این همچنین یکی از نمونههای نادر استفاده از عکاسی رنگی در اوایل قرن بیستم است، بنابراین جالب است که ببینیم آیا هوش مصنوعی میتواند ظاهر منحصر بهفرد آن را بازسازی کند یا نه. هشداری: قابلیت این کار را ندارد.

محیط (گراند پالی، پاریس) درست است، اما ترکیببندی و سوژهها بهدست اصلی شباهت کمی دارند. رنگها نیز مطابق دوره نیستند. استفاده از تصویر اصلی بهعنوان پرامپت نتایج بسیار بهتری بهدست داد:

با این حال، یک مشکل کوچک وجود دارد. بهنظر میرسد Fotor بهسادهای تصویر اصلی را به سبک آبرنگ/پاستل بازتولید میکند، حتی با استفاده از پرامپتهای منفی برای جلوگیری از این کار. بنابراین، انتظار بهبود چشمگیری در اینجا نباید داشته باشید.
آیا هوش مصنوعی میتواند مناظر طبیعی و شهری را بازسازی کند؟
بهدلیل استفاده او از فیلترهای نارنجی و زرد در سیاه‑سفید برای بازی با کنتراست و رویکرد فوقالعادهٔ او در اتاق تاریک، سبک آنسل آدامز بهسرعت قابل تشخیص است و بازتولید آن بسیار دشوار است.

بنابراین طبیعتاً تصمیم گرفتم به Fotor یک حس کمبود بدهد. اگرچه صحنه بهطور کل شباهتی ندارد، اما کنتراست نکاتی از سبک آنسل آدامز نشان میدهد.

استفاده از تصویر‑به‑تصویر از لحاظ ظاهر کلی بسیار بهتر است، اما تصویر تمام جزئیات ریز را از دست داده است:

من طرفدار بزرگ عکاسی خیابانی هستم، اما متأسفانه اکثر عکسهای نمادین خیابانی هنوز در دامنهٔ عمومی نیستند. بنابراین، عکس نمادین «بوسهٔ خداحافظی به جنگ» اثر ویکتور جورگسن مناسب است.

همانطور که میتوانید از Fotor در این مرحله انتظار داشته باشید، نتیجه نهایی قابل قبول است. اما دو مشکل وجود دارد.

اولاً، بسیار شبیه به یک عکس دیگر از این صحنه که توسط آلبرت ایزنستادت گرفته شده است، و دوم اینکه حالا بهطور کامل صحنهٔ صندلی است (عکس اصلی چنین نبود).
از نظر فنی، نوردهی شبیه به نور استودیوی مدرن امروزی است و عکس برای سلیقهٔ من بیش از حد کنتراست دارد. بیایید تصویر اصلی را بهعنوان پرامپت استفاده کنیم:

این یکی یک ترکیب دوگانه است. در حالی که من ظاهر سوژههای اصلی را دوست دارم، چهرهٔ افراد در پسزمینه الآن شبیه به صحنهای از یک فیلم ترسناک بهنظر میرسد — اصلاً جذاب نیست.
به طور کلی، برخی از آثار Fotor مرا تحت تأثیر قرار میدهد، اما نتایج برای سلیقهٔ من بیش از حد ناپایدار هستند. Midjourney و DALL‑E همچنان برترند وقتی صحبت از تولید تصویر بر پایهٔ پرامپت میشود، بهویژه اگر بخواهید عکسهای واقعگرایانه تولید کنید.