من از هوش مصنوعی برای بازسازی عکس‌های قدیمی استفاده کردم: نتایج شگفت‌انگیز بود

مدل‌های مدرن هوش مصنوعی ممکن است جادویی به نظر برسند، اما آیا می‌توانند درخشندگی و حس برخی از شناخته‌شده‌ترین عکس‌های قرن بیستم را بازتولید کنند؟

پیوندهای پرش

چرا این آزمایش را انجام دادم؟

چگونه هوش مصنوعی با سوژه‌های انسانی برخورد می‌کند

چگونه هوش مصنوعی صحنه‌ها را با اشیای غیر زنده اداره می‌کند

آیا هوش مصنوعی می‌تواند مناظر طبیعی و شهری را بازسازی کند؟

مدل‌های مدرن هوش مصنوعی ممکن است جادویی به‌نظر برسند، اما آیا می‌توانند درخشندگی و حس برخی از مشهورترین عکس‌های قرن بیستم را بازتولید کنند؟

چرا این آزمایش را انجام دادم؟

مدل‌های هوش مصنوعی به‌قدری قدرتمند می‌شوند که به‌نظر می‌رسد می‌توانید تقریباً هر چیزی را با استفاده از پرامپت‌های مناسب ایجاد کنید — بنابراین من صرفاً می‌خواستم بررسی کنم آیا این درست است یا نه. در حالی که آزمایش‌های مشابه اکثر خالقان را می‌ترساند، عکاسان معمولاً از تسلط آینده‌ای هوش مصنوعی به دلیل یک دلیل ساده در امان هستند: آن‌ها واقعیت را مستند می‌کنند.

عکس‌هایی که در این مقاله می‌بینید نه تنها شگفتی‌های این رسانه هستند بلکه یک کپسول زمانی از دوره‌ای که گرفته شده‌اند نیز می‌باشند. ممکن است یک مدل هوش مصنوعی بتواند چیزی با حس مشابه تولید کند، اما انتظار داشتن این که تصویری تولید شده توسط هوش مصنوعی دارایی فرهنگی قابل‌توجهی داشته باشد، کاملاً غیرمنطقی است.

ابزار انتخابی من Fotor AI بود، یک ژنراتور متن‑به‑تصویر نسبتاً ساده که به‌طور کلی نتایج محکمی ارائه می‌دهد. با این حال، این ابزار Midjourney نیست و اگرچه برای انواع سبک‌های هنری عالی است، مهارت‌های «عکاسی» آن اغلب ضعیف هستند. این به‌ویژه هنگام تلاش برای تنظیم پرامپت مدل به‌گونه‌ای که با دوره زمانی تصویر اصلی مطابقت داشته باشد، صادق است.

چگونه هوش مصنوعی با سوژه‌های انسانی برخورد می‌کند

دوروتیا لنگ اولین اسطوره‌ای است که درمان هوش مصنوعی را دریافت کرد. «مادر مهاجر» یکی از شناخته‌شده‌ترین عکس‌های تمام دوران است و من به‌طور نادرست فرض کردم که Fotor با آن آشناست.

مطلب مرتبط: نحوه چرخش متن و تصاویر در Google Docs

البته، این مدل به‌خصوص در تشخیص نام‌ها خوب نیست و من تقریباً مجبور شدم تصویر را به‌صورت دقیق توصیف کنم تا مدل متوجه آنچه در ذهنم داشتم شود. نتایج محکم‌اند:

با نگاه دقیق‌تر، بزرگ‌ترین مشکل نورپردازی است. در نسخهٔ اصلی سوژه با نور طبیعی نوردهی شده است، در حالی که هوش مصنوعی به «مادر» ما یک حالت استودیویی مدرن داده است. به نظر من تصویر نیز بیش از حد صیقلی به‌نظر می‌رسد، اگرچه این مسئله‌ای نیست که مقداری نویز و دانه‌دار فیلم نتواند رفع کند.

از نظر ترکیب‌بندی، این کار تا حدودی شکست خورده است. دوروتیا لنگ با دقت صحنه را ترکیب کرد تا داستان فردی تحت تاثیر رکود بزرگ را بیان کند؛ هر جزئیات از برش تا نورپردازی به پیام کمک می‌کند. از سوی دیگر، هوش مصنوعی هنوز در درک زیرمتن (ما همه در دورهٔ عصبانیت نوجوانی‌اش گیر می‌کنیم) مشکل دارد، بنابراین هیچ‌یک از اینها به نتیجهٔ نهایی منتقل نمی‌شود.

Fotor همچنین گزینهٔ استفاده از image-to-image را فراهم می‌کند و این نتایج نزدیک‌تری داد (حداقل از نظر ترکیب‌بندی):

اگرچه این تصاویر به سختی از هم متمایز می‌شوند، من از نتایج راضی نیستم زیرا به‌نظر می‌رسد Fotor فیلتر زیباسازی کم‌کیفیتی را بر سوژه اعمال کرده است. اما دربارهٔ صحنه‌ای پیچیده‌تر چه می‌شود؟

برای این، به اوایل دههٔ هفتاد می‌رویم و سعی می‌کنیم «نیکسون در چین» اثر اولیور اف. اتکنز را بازسازی کنیم. اولین چیزی که متوجه می‌شوید این است که به‌نظر می‌رسد Fotor نمی‌داند ریچارد نیکسون چه کسی است (اگر از پرامپت «ووترگیت» استفاده می‌کردم، شاید مدل منفجر می‌شد).

احساس کلی تصویر وجود دارد (از جمله تعجب از یک تکه غذا در چوب‌قاشق)، اما ترکیب‌بندی و تنظیمات محیطی بسیار متفاوت‌اند. اگر تصویر اصلی را نمی‌دیدم، شاید نتوانستم بفهمم این چه تصویری است.

مطلب مرتبط: راه اندازی یک وبلاگ در مقابل راه اندازی یک کانال YouTube: کدام یک برای هنرمندان بهتر است؟

image-to-image همان ترکیب‌بندی را دارد اما کیفیت کلی به‌طور قابل‌توجهی کاهش یافته است. چهره‌ها خراب شده‌اند، یکی از بسیاری از نشانه‌های تصاویر ضعیف هوش مصنوعی است.

چگونه هوش مصنوعی صحنه‌ها را با اشیای غیر زنده اداره می‌کند

بیایید با اثر استادانه «فاجعه هیدنبرگ» سام شیر شروع کنیم. این شات یک بار در زندگی اتفاق می‌افتد و بسیار پیچیده است، بنابراین برای هوش مصنوعی چالش خوبی خواهد بود.

Fotor تا حدی فهمید که چه خواسته‌ام را می‌خواهم.

من از عبارت «تا حدودی» استفاده می‌کنم چون زیپلین هنوز کاملاً دست نخورده است، با این حال در آتش فرو رفته است. همچنین خیلی نزدیک به زمین است و امکان بازتولید ترکیب‌بندی اصلی وجود ندارد.

وقتی از تصویر اصلی به‌عنوان ورودی استفاده می‌شود، تقریباً غیرممکن است دو تصویر را از هم متمایز کرد:

دربارهٔ صحنه‌ای که بلافاصله قابل تشخیص نیست چه می‌گویید؟ بادکنک هوای گرم کاکتوس اثر لئون گیمپل به‌دقت این معیار را برآورده می‌کند.

این نیز یکی از نمونه‌های نادر استفاده از عکاسی رنگی در اوایل قرن بیستم است، بنابراین جالب است که ببینیم آیا هوش مصنوعی می‌تواند ظاهر منحصربه‌فرد آن را بازسازی کند. هشدار: نمی‌تواند.

محیط (گراند پالی، پاریس) درست است، اما ترکیب‌بندی و سوژه‌ها به‌دقت تصویر اصلی را ندارند. رنگ‌ها نیز مطابق با دوره تاریخی نیستند. استفاده از تصویر اصلی به‌عنوان پرامپت نتایج دقیق‌تری داد:

مشکل کوچکی وجود دارد: به‌نظر می‌رسد Fotor صرفاً تصویر اصلی را در سبک نقاشی آبرنگ/پاستل بازآفرینی می‌کند، حتی اگر از پرامپت‌های منفی برای جلوگیری از این کار استفاده شود. بنابراین نباید انتظار بهبودهای زیادی داشته باشید.

مطلب مرتبط: تعادل شعاعی چیست؟ نحوه استفاده از آن در هنر و طراحی

آیا هوش مصنوعی می‌تواند مناظر طبیعی و شهری را بازسازی کند؟

به دلیل استفادهٔ او از فیلترهای سفید‑سیاه نارنجی و زرد برای بازی با کنتراست و رویکرد استادانه‌اش در اتاق تاریک، سبک آنسل آدامز بلافاصله قابل تشخیص است و بازتولید آن بسیار دشوار است.

بنابراین من تصمیم گرفتم Fotor را تحت فشار بگذارم. اگرچه صحنه به‌نظر نمی‌رسد مشابه باشد، کنتراست نکاتی از سبک آنسل آدامز را به خود می‌گیرد.

image-to-image در کل ظاهر بهتری دارد اما تصویر تمام جزئیات ریز را از دست داده است:

من طرفدار عکاسی خیابانی هستم، اما متأسفانه بیشتر عکس‌های خیابانی نمادین هنوز در دامنهٔ عمومی نیستند. لذا عکس نمادین «بوسیدن جنگ» اثر ویکتور جورژن‌سن را به کار می‌گیرم.

همان‌طور که می‌توانید از Fotor انتظار داشته باشید، نتیجه نهایی قابل‌قبول است. دو مشکل وجود دارد.

اولاً، این تصویر شبیه به عکس دیگری از همین صحنه است که آل‌فرד ایشنستد گرفته؛ دوم اینکه حالا به‌نظر می‌رسد صد درصد صحنه صحنه‌آمیز (اصلی صحنه طبیعی نبود).

از نظر فنی، نورپردازی شبیه نور استودیوی امروزی است و عکس خیلی کنتراست دارد برای سلیقهٔ من. بیایید از تصویر اصلی به‌عنوان پرامپت استفاده کنیم:

این تصویر ترکیبی است؛ در حالی که من ظاهر سوژه‌های اصلی را دوست دارم، چهره‌های افراد زمینه‌ایی حال‌ا به‌نظر می‌رسد که از فیلم‌های ترس‌ناک هستند—که هرگز خوب نیست.

در مجموع، من از برخی خلق‌های Fotor تحت تأثیر قرار گرفته‌ام، اما نتایج برایم بیش از حد نامنظم هستند. Midjourney و DALL‑E همچنان در تولید عکس‌های واقعی‑به‌نظر‑دار برتری دارند، به‌ویژه وقتی می‌خواهید عکس‌های واقعی‑به‌نظر تولید کنید.

Tags: هوش مصنوعی ویرایشگرهای تصویر