Anthropic، سازندگان عامل هوش مصنوعی Claude (یکی از ابزارهای مورد علاقهمان برای افزایش بهرهوری)، یکی از تمایزهای کلیدی خود — تعهد سختگیرانه به ایمنی — را پسگردانده است. در یک پست وبلاگی، شرکت سیاست مقیاسپذیری مسئولانه (RSP) خود را بیان کرد و تغییرات موجود در نسخه ۳.۰ را معرفی نمود.
خلاصه
- Anthropic در حال نرمکردن عهد ایمنی خود است.
- متوقفسازی سخت قبلی شرکت در توسعه با قول افزایش شفافیت جایگزین شده است.
- این اقدام خطر کاهش استانداردهای ایمنی صنعت را دارد.
Anthropic، سازندگان عامل هوش مصنوعی Claude (یکی از ابزارهای محبوب بهرهوری ما)، یکی از تمایزهای کلیدی خود — تعهد سختگیرانه ایمنی — را پس گرفته است. در یک پست وبلاگ، شرکت سیاست مقیاسپذیری مسئولانه (RSP) خود را شرح داد و تغییرات موجود در نسخه ۳.۰ را بیان کرد.
سیاست ایمنی قبلی Anthropic چه بود؟
شرکت استاندارد صنعت برای محافظهای ایمنی را تعیین کرد
برای درک تغییراتی که Anthropic اعمال میکند، باید RSP اولیه را درک کنید. در سال ۲۰۲۳، Anthropic متعهد شد که آموزش مدلهای هوش مصنوعی را متوقف کند اگر تواناییهای آنها از توانایی شرکت برای اثبات ایمنی پیشی بگیرد. علائم هشدار ایمنی که این سوئیچ را فعال میکردند شامل:
- مدلهایی که میتوانستند در ساخت یا بهکارگیری سلاحهای شیمیایی، زیستی یا هستهای کمک کنند.
- مدلهایی که میتوانستند خود را به طور بیش از حد بهبود دهند.
- مدلهایی که میتوانستند در حملات سایبری کمک کنند.
- مدلهایی که میتوانستند بدون ورودی انسانی به طرق خاصی رفتار کنند، مانند «فرار» از محیطهای خود برای جلوگیری از خاموشی.
RSP متوقفسازی سختی برای این مدلها اعمال کرد — Anthropic توسعه را متوقف میکرد حتی اگر این به معنای عقب افتادن از رقبایش بود. این موضعی جسورانه در صنعتی بود که بهنظر میرسید همه با سرعت فوقالعادهای به جلو میدویدند.
RSP جدید Anthropic
نسخه ۳.۰ بهطرز قابلتوجهی قوانین را نرم میکند
Anthropic همچنان یک سیاست مقیاسپذیری مسئولانه دارد، اما با نسخه ۳.۰، شرکت فقط در صورتی توسعه را متوقف میکند که معتقد باشد پیشتامی قابلتوجه نسبت به رقبای خود دارد. تعهد الزامآور برای توقف با وعدهای برای شفافسازی درباره اینکه آیا شرکت به اهداف ایمنی خود رسیده است و برابری یا پیشی گرفتن از ایمنی رقبایش جایگزین شده است. به عبارت دیگر، تعهد ایمنی عملاً از بین رفته است.
چرا این تغییرات؟ Anthropic میگوید RSP اولیه تأثیری که انتظار داشت نداشت. هدف RSP این بود که Anthropic نمونه ایمنی را برای دیگر شرکتها تعیین کند تا آنها پیروی کنند. متأسفانه رقبا واقعاً این نکته را درک نکردند. شرکت احساس میکند که با محدود کردن خود، عملاً به رقبایی که کمتر به ایمنی اهمیت میدهند اجازه میدهد بازار را رهبری کنند و سرعت توسعه را تعیین کنند.
این برای صنعت چه بهمعنایی دارد؟
یک قدم بزرگ به عقب
متأسفانه، این تغییرات ممکن است یک پیشنمونهٔ نامطلوب در حوزه هوش مصنوعی ایجاد کنند. Anthropic استاندارد طلایی برای شیوههای ایمنی بود و با این تغییرات، سقف بهطرز قابلتوجهی کاهش یافته است. این میتواند پیغامی به رقبای دیگر بفرستد که ایمنی بهجای نوآوری در اولویت نیست. در حالی که ممکن است به Claude کمک کند تا به ChatGPT برسد، این همچنان بهنظر میرسد قدمی در جهت نادرست باشد.
برای دریافت تجزیه و تحلیل عمیقتر ایمنی هوش مصنوعی و صنعت، مشترک شوید
در نهایت، اگر ترسهای دلهرهآور هوش مصنوعی برطرف نشود، تعهد ایمنی یک شرکت تنها کافی نخواهد شد — کل صنعت باید با هم جمعشده و خطی واضح بکشند. در این مقطع، به نظر میرسد که این امر هرچه کمتر محقق میشود.