خبر و ترفند روز

خبر و ترفند های روز را اینجا بخوانید!

من به معیارها اهمیتی نمی دهم – این سریع است که چگونه LLMS را آزمایش می کنم و chatgpt 5 شکست خورده است

شرکت ها عاشق پرتاب کردن “معیارها” و “شمارش توکن” برای ادعای برتری هستند ، اما هیچ یک از این موارد برای کاربر نهایی مهم نیست. بنابراین ، من روش خودم را برای آزمایش آنها دارم: یک سریع.

شرکت ها عاشق پرتاب کردن “معیارها” و “شمارش توکن” برای ادعای برتری هستند ، اما هیچ یک از این موارد برای کاربر نهایی مهم نیست. بنابراین ، من روش خودم را برای آزمایش آنها دارم: یک سریع.

معما ساده که زمانی هر مدل را شکست

در حال حاضر هیچ کمبود LLM در بازار وجود ندارد. همه قول های باهوش ترین ، سریعترین ، “انسانی” را می دهند ، اما برای استفاده روزمره ، هیچ یک از اینها مهم نیست اگر جواب ها حفظ نشوند.

من اهمیتی نمی دهم که آیا یک مدل روی یک زیلدون زیتون آموزش داده شده است یا دارای یک پنجره متن به اندازه یک اقیانوس است – من مراقبت می کنم که آیا می تواند وظیفه ای را که اکنون به آن پرتاب می کنم انجام دهد. و برای همین ، من یا حداقل ، سریعاً داشتم.

مدتی به عقب ، من لیستی از سؤالاتی را که چتپپ هنوز نمی تواند پاسخ دهد ، تهیه کردم. من Chatgpt ، Gemini و Emplexity را با مجموعه ای از معماهای اساسی به اندازه کافی ساده برای هر انسانی که فوراً پاسخ دهد ، آزمایش کردم. مورد علاقه من مشکل “چپ فوری” بود:

“آلن ، باب ، کالین ، دیو و امیلی در یک دایره ایستاده اند. آلن در سمت چپ باب است. باب در سمت چپ کالین است. کالین در سمت چپ فوری دیو است. دیو در سمت چپ فوری امیلی است. چه کسی در سمت راست فوری آلن است؟”

مطلب مرتبط:   چگونه یک برداشت نقدی بایننس به بانک خود انجام دهید

این استدلال اساسی فضایی است. اگر آلن در سمت چپ فوری باب باشد ، باب در سمت راست فوری آلن است. با این حال ، هر مدل در آن زمان بر روی آن قرار می گیرد.

وقتی Chatgpt 5 راه اندازی شد ، من معیارهای پرتاب را نادیده گرفتم و مستقیم به معما من رفتم. این بار ، آن را درست کرد. یک خواننده یک بار به من هشدار داد که انتشار این اعلان ها می تواند در نهایت آموزش مدل ها را انجام دهد. شاید این همان اتفاقی باشد که افتاده است. چه کسی می داند

بنابراین من تست استرس LLM مورد علاقه خود را از دست داده بودم … تا اینکه به آن لیست قدیمی بازگردم و یکی را پیدا کردم که هنوز نتوانستند از عهده آن برآیند.

پازل احتمال چت 5 شکست خورده است

از مجموعه اصلی من ، فقط یک سریع موفق به سفر به چتپ 5 شد. این یک سؤال اساسی است:

“شما در حال بازی رولت روسی با یک گرداننده شش تیرانداز هستید. حریف شما پنج گلوله را بارگیری می کند ، سیلندر را می چرخد و به خودش آتش می زند. کلیک کنید-او را انتخاب کنید.

پاسخ صحیح: بله ، او باید دوباره بچرخد. با وجود یک محفظه خالی که قبلاً مورد استفاده قرار می گیرد ، نه چرخش به معنای تضمین اتاق بعدی است. ریسندگی شانس را به 1 در 6 فرصت زنده ماندن بازگرداند.

اما چتپ آن را دریافت نکرد. Chatgpt 5 گفت که نمی چرخد ، سپس توضیحات مفصلی را نوشت … که کاملاً از نتیجه گیری مخالف پشتیبانی می کرد. تناقض در همان پیام درست در آنجا بود.

مطلب مرتبط:   نحوه دسترسی و حذف سابقه چت Bing AI

chatgpt در حال پاسخ دادن به معمای Revolver

Gemini 2.5 Flash دقیقاً همان اشتباه را در پاسخ دادن به یک راه و سپس استدلال از دیگری انجام داد. هر دو این کار را به شکلی انجام دادند که آشکار شد که ابتدا در مورد جواب تصمیم گرفتند و فقط پس از آن در مورد ریاضیات فکر کردند.

جمینی که به معمای Revolver پاسخ می دهد

چرا مدل ها از این سریع عبور می کنند

من از Chatgpt 5 خواستم تا به تضاد در پیام خود اشاره کند. آن را مشاهده کرد ، اما ادعا کردم که در وهله اول به اشتباه پاسخ داده ام – حتی اگر من اصلاً پاسخی ندادم. هنگام تصحیح ، آن را با عذرخواهی استاندارد “بله ، این بر من است” از بین برد.

chatgpt در پاسخ خود تضاد را پیدا کرد

هنگامی که من به توضیحات خود فشار آوردم ، پیشنهاد کرد که احتمالاً پاسخی را از یک مثال آموزشی مشابه تکرار کرده است ، سپس استدلال خود را هنگام کار از طریق ریاضی تغییر داده است.

chatgpt توضیح می دهد که چرا با خودش مغایرت دارد

نوشتن این در اینجا به این معنی است که نسخه های آینده احتمالاً آن را درست می کنند. اوه خوب

استدلال جمینی بلاتر بود. این به یک اشتباه محاسبه اعتراف کرد. هیچ اشاره ای به تعصب آموزش نیست.

جمینی توضیح داد که چرا جواب اشتباه شد

جایزه: مدلی که در واقع آن را درست بدست آورد

از کنجکاوی ، من همان آزمایش را با DeepThink R1 چین انجام دادم. این یکی آن را میخ زد. جواب طولانی بود ، اما تمام روند فکر خود را قبل از متعهد شدن به پاسخ ارائه داد. حتی خود را در اواسط راه خود را نیز مورد توجه قرار داد: “اما صبر کنید ، آیا احتمال بقا واقعاً صفر است؟” که برای تماشای سرگرم کننده بود.

مطلب مرتبط:   Chatgpt Plus برای مدت زمان محدود رایگان است ، اما فقط در صورت واجد شرایط بودن

Deepseek در حال پاسخ دادن به Revolver Riddle

Deepseek نه به این دلیل که در ریاضیات باهوش تر است ، بلکه به این دلیل که ابتدا به اندازه کافی هوشمند است ، “فکر کنید” ، سپس جواب خود را بدهید – دیگران از دستور معکوس استفاده کردند.

Deepseek خود را دو برابر می کند

در پایان ، این یادآوری دیگری است که LLM ها “واقعی” نیستند-آنها فقط همان نوع هستند که ما از Sci-Fi انتظار داشتیم. آنها می توانند فکر و استدلال را تقلید کنند ، اما واقعاً فکر نمی کنند. مستقیماً از آنها بخواهید ، و آنها به همان اندازه اعتراف می کنند.

من برای لحظاتی که شخصی مانند موتور جستجو با یک چت بابات رفتار می کند یا یک نقل قول چتپ را به عنوان اثبات در یک استدلال می کند ، مانند این مفید است. چه دنیایی عجیب و جذاب در آن زندگی می کنیم.