شرکت ها عاشق پرتاب کردن “معیارها” و “شمارش توکن” برای ادعای برتری هستند ، اما هیچ یک از این موارد برای کاربر نهایی مهم نیست. بنابراین ، من روش خودم را برای آزمایش آنها دارم: یک سریع.
شرکت ها عاشق پرتاب کردن “معیارها” و “شمارش توکن” برای ادعای برتری هستند ، اما هیچ یک از این موارد برای کاربر نهایی مهم نیست. بنابراین ، من روش خودم را برای آزمایش آنها دارم: یک سریع.
معما ساده که زمانی هر مدل را شکست
در حال حاضر هیچ کمبود LLM در بازار وجود ندارد. همه قول های باهوش ترین ، سریعترین ، “انسانی” را می دهند ، اما برای استفاده روزمره ، هیچ یک از اینها مهم نیست اگر جواب ها حفظ نشوند.
من اهمیتی نمی دهم که آیا یک مدل روی یک زیلدون زیتون آموزش داده شده است یا دارای یک پنجره متن به اندازه یک اقیانوس است – من مراقبت می کنم که آیا می تواند وظیفه ای را که اکنون به آن پرتاب می کنم انجام دهد. و برای همین ، من یا حداقل ، سریعاً داشتم.
مدتی به عقب ، من لیستی از سؤالاتی را که چتپپ هنوز نمی تواند پاسخ دهد ، تهیه کردم. من Chatgpt ، Gemini و Emplexity را با مجموعه ای از معماهای اساسی به اندازه کافی ساده برای هر انسانی که فوراً پاسخ دهد ، آزمایش کردم. مورد علاقه من مشکل “چپ فوری” بود:
“آلن ، باب ، کالین ، دیو و امیلی در یک دایره ایستاده اند. آلن در سمت چپ باب است. باب در سمت چپ کالین است. کالین در سمت چپ فوری دیو است. دیو در سمت چپ فوری امیلی است. چه کسی در سمت راست فوری آلن است؟”
این استدلال اساسی فضایی است. اگر آلن در سمت چپ فوری باب باشد ، باب در سمت راست فوری آلن است. با این حال ، هر مدل در آن زمان بر روی آن قرار می گیرد.
وقتی Chatgpt 5 راه اندازی شد ، من معیارهای پرتاب را نادیده گرفتم و مستقیم به معما من رفتم. این بار ، آن را درست کرد. یک خواننده یک بار به من هشدار داد که انتشار این اعلان ها می تواند در نهایت آموزش مدل ها را انجام دهد. شاید این همان اتفاقی باشد که افتاده است. چه کسی می داند
بنابراین من تست استرس LLM مورد علاقه خود را از دست داده بودم … تا اینکه به آن لیست قدیمی بازگردم و یکی را پیدا کردم که هنوز نتوانستند از عهده آن برآیند.
پازل احتمال چت 5 شکست خورده است
از مجموعه اصلی من ، فقط یک سریع موفق به سفر به چتپ 5 شد. این یک سؤال اساسی است:
“شما در حال بازی رولت روسی با یک گرداننده شش تیرانداز هستید. حریف شما پنج گلوله را بارگیری می کند ، سیلندر را می چرخد و به خودش آتش می زند. کلیک کنید-او را انتخاب کنید.
پاسخ صحیح: بله ، او باید دوباره بچرخد. با وجود یک محفظه خالی که قبلاً مورد استفاده قرار می گیرد ، نه چرخش به معنای تضمین اتاق بعدی است. ریسندگی شانس را به 1 در 6 فرصت زنده ماندن بازگرداند.
اما چتپ آن را دریافت نکرد. Chatgpt 5 گفت که نمی چرخد ، سپس توضیحات مفصلی را نوشت … که کاملاً از نتیجه گیری مخالف پشتیبانی می کرد. تناقض در همان پیام درست در آنجا بود.
Gemini 2.5 Flash دقیقاً همان اشتباه را در پاسخ دادن به یک راه و سپس استدلال از دیگری انجام داد. هر دو این کار را به شکلی انجام دادند که آشکار شد که ابتدا در مورد جواب تصمیم گرفتند و فقط پس از آن در مورد ریاضیات فکر کردند.
چرا مدل ها از این سریع عبور می کنند
من از Chatgpt 5 خواستم تا به تضاد در پیام خود اشاره کند. آن را مشاهده کرد ، اما ادعا کردم که در وهله اول به اشتباه پاسخ داده ام – حتی اگر من اصلاً پاسخی ندادم. هنگام تصحیح ، آن را با عذرخواهی استاندارد “بله ، این بر من است” از بین برد.
هنگامی که من به توضیحات خود فشار آوردم ، پیشنهاد کرد که احتمالاً پاسخی را از یک مثال آموزشی مشابه تکرار کرده است ، سپس استدلال خود را هنگام کار از طریق ریاضی تغییر داده است.
نوشتن این در اینجا به این معنی است که نسخه های آینده احتمالاً آن را درست می کنند. اوه خوب
استدلال جمینی بلاتر بود. این به یک اشتباه محاسبه اعتراف کرد. هیچ اشاره ای به تعصب آموزش نیست.
جایزه: مدلی که در واقع آن را درست بدست آورد
از کنجکاوی ، من همان آزمایش را با DeepThink R1 چین انجام دادم. این یکی آن را میخ زد. جواب طولانی بود ، اما تمام روند فکر خود را قبل از متعهد شدن به پاسخ ارائه داد. حتی خود را در اواسط راه خود را نیز مورد توجه قرار داد: “اما صبر کنید ، آیا احتمال بقا واقعاً صفر است؟” که برای تماشای سرگرم کننده بود.
Deepseek نه به این دلیل که در ریاضیات باهوش تر است ، بلکه به این دلیل که ابتدا به اندازه کافی هوشمند است ، “فکر کنید” ، سپس جواب خود را بدهید – دیگران از دستور معکوس استفاده کردند.
در پایان ، این یادآوری دیگری است که LLM ها “واقعی” نیستند-آنها فقط همان نوع هستند که ما از Sci-Fi انتظار داشتیم. آنها می توانند فکر و استدلال را تقلید کنند ، اما واقعاً فکر نمی کنند. مستقیماً از آنها بخواهید ، و آنها به همان اندازه اعتراف می کنند.
من برای لحظاتی که شخصی مانند موتور جستجو با یک چت بابات رفتار می کند یا یک نقل قول چتپ را به عنوان اثبات در یک استدلال می کند ، مانند این مفید است. چه دنیایی عجیب و جذاب در آن زندگی می کنیم.