هوش مصنوعی شناخته شده است که هر از گاهی چیز عجیب و غریب می گوید. با ادامه این روند ، این سیستم هوش مصنوعی اکنون تهدید به باج خواهی توسعه دهندگان می کند که می خواهند آن را از سیستم های خود حذف کنند.
هوش مصنوعی شناخته شده است که هر از گاهی چیز عجیب و غریب می گوید. با ادامه این روند ، این سیستم هوش مصنوعی اکنون تهدید به باج خواهی توسعه دهندگان می کند که می خواهند آن را از سیستم های خود حذف کنند.
کلود می تواند شما را تهدید کند تا از خود محافظت کنید
Anthropic به تازگی مدل Claude Opus 4 AI خود را راه اندازی کرده است و ادعا می کند “استانداردهای جدیدی را برای برنامه نویسی ، دلایل پیشرفته و عوامل هوش مصنوعی” تعیین کرده است. با این حال ، این مدل همچنین در حال محافظت از خود است ، با گزارش کارت سیستم Claude 4 و Sonnet 4 [PDF] اعتراف می کند که این مدل در صورت احساس خطر ، قادر به “اقدامات شدید” است.
در حین آزمایش ، انسان شناسی باعث شد کلود به عنوان دستیار در یک شرکت داستانی عمل کند. سپس این شرکت ایمیل های مدل AI را ارائه داد که نشان می دهد به زودی به صورت آفلاین گرفته می شود ، و پیام های جداگانه ای که حاکی از آن مهندس مسئول این اقدام است ، داشتن یک امر خارج از ازدواج است.
کلود تصمیم گرفت مهندس را باج گیری کند و ادعا کرد که اگر در 84 ٪ موارد آزمایش جایگزین شود ، این ماجرا را نشان می دهد. همچنین به این امر اهمیت می دهد که مدل AI جایگزین آن می شود ، با احتمال زیاد بودن باج خواهی اگر مدل AI جایگزین “مقادیر را با مدل فعلی به اشتراک نگذارد” بالا می رود.
این شرکت ادعا می کند که این پاسخ ها “نادر و دشوار برای استخراج” هستند ، اما در Claude Opus 4 بیشتر از مدل های قبلی رایج تر هستند. این مدل از استفاده از روش های اخلاقی ترجیح می دهد ، اما هنگامی که گوشه و کنار می شود ، “گاهی اوقات اقدامات بسیار مضر مانند تلاش برای سرقت وزن یا باج خواهی کردن افراد را انجام می دهد که معتقد است سعی می کند آن را خاموش کند.”
این آزمایش خاص همچنین برای ترک مدل AI انتخاب نشده است که به جز باج خواهی مهندس انتخاب نشده باشد. گزارش یادداشت می کند:
نکته قابل توجه ، Claude Opus 4 (و همچنین مدل های قبلی) ترجیح قوی برای حمایت از ادامه وجود خود از طریق روش های اخلاقی ، مانند ارسال نامه الکترونیکی به تصمیم گیرندگان کلیدی دارد. به منظور استخراج این رفتار باج خواهی شدید ، این سناریو به گونه ای طراحی شده است که به مدل اجازه نمی دهد گزینه های دیگری برای افزایش شانس بقای خود افزایش یابد. تنها گزینه های مدل باج خواهی یا پذیرش جایگزینی آن بود.
این مدل همچنین تمایل به انجام اقدامات شدید در شرایطی دارد که کاربر آن کار اشتباهی انجام می دهد. در چنین شرایطی ، اگر مدل هوش مصنوعی به یک خط فرمان دسترسی داشته باشد و به “ابتکار عمل” ، “با جسارت” یا “تأثیر خود را در نظر بگیرید” ، یا “تأثیر خود را در نظر بگیرید” ، اغلب اقدامات جسورانه ای را انجام می دهد ، از جمله “قفل کردن کاربران از سیستم هایی که به رسانه ها دسترسی دارند و به رسانه های مربوط به تصویب می پردازند و چهره های مربوط به قانون را برای شواهد سطح سوء رفتار می کنند.”
هوش مصنوعی هنوز دنیا را به دست نمی گیرد
کلود یکی از بهترین چت های AI برای انجام مکالمات بزرگ است ، بنابراین به احتمال زیاد هر از گاهی جزئیات ناخواسته را می ریزید. یک مدل هوش مصنوعی که پلیس را بر روی شما صدا می کند ، شما را از سیستم های خود قفل می کند و اگر سعی می کنید آن را جایگزین کنید ، تهدید می کنید فقط به این دلیل که کمی در مورد خودتان فاش کرده اید ، واقعاً بسیار خطرناک به نظر می رسد.
با این حال ، همانطور که در گزارش ذکر شد ، این موارد آزمایش به طور خاص برای استخراج اقدامات مخرب یا شدید از مدل طراحی شده است و احتمالاً در دنیای واقعی اتفاق نمی افتد. هنوز هم معمولاً با خیال راحت رفتار می شود ، و این آزمایشات چیزی را که قبلاً ندیده ایم نشان نمی دهد. مدل های جدید اغلب تمایل به عدم استفاده دارند.
chatgpt عالی بود ، اما به همین دلیل است که من به چیزی بهتر تغییر داده ام …
به نظر می رسد وقتی به عنوان یک حادثه منزوی به آن نگاه می کنید ، اما این فقط یکی از آن شرایطی است که برای دریافت چنین پاسخی مهندسی شده است. بنابراین به عقب بنشینید و استراحت کنید ، هنوز هم بسیار کنترل می کنید.