خبر و ترفند روز

خبر و ترفند های روز را اینجا بخوانید!

از LLM استفاده کردید؟ LAM ها بعدی می آیند، اما آنها به کار نیاز دارند

ظهور چت ربات‌های هوش مصنوعی، اصطلاح «مدل زبان بزرگ» را رایج کرده است، فناوری زیربنایی هوش مصنوعی که در پشت صحنه کار می‌کند. مدل‌های زبان بزرگ (LLM) بر اساس مجموعه‌ای از زبان پیش‌بینی‌شده در پاسخ به ورودی کاربر خروجی تولید می‌کنند و به نظر می‌رسد که هوش مصنوعی قادر به فکر کردن برای خود است.

خلاصه عناوین

  • مدل اقدام بزرگ (LAM) چیست؟
  • LAM ها چه کاری می توانند انجام دهند؟
  • LAM ها در LLM موفق خواهند شد، اما آماده نیستند (هنوز)

نکات کلیدی

  • LAMها سیستم‌های هوش مصنوعی هستند که می‌توانند ورودی انسان را درک کنند و اقدامات مربوطه را انجام دهند، که بر اساس قابلیت‌های LLM است.
  • LAM ها می توانند کارهای پیچیده ای مانند سفارش قهوه یا رزرو هتل را انجام دهند.
  • در حالی که LAM ها برای آینده نوید می دهند، اما هنوز برای استفاده گسترده آماده نیستند، همانطور که شکست دستگاه r1 Rabbit در انجام بسیاری از عملکردهای تبلیغ شده خود نشان می دهد.

ظهور چت ربات‌های هوش مصنوعی، اصطلاح «مدل زبان بزرگ» را رایج کرده است، فناوری زیربنایی هوش مصنوعی که در پشت صحنه کار می‌کند. مدل‌های زبان بزرگ (LLM) بر اساس مجموعه‌ای از زبان پیش‌بینی‌شده در پاسخ به ورودی کاربر خروجی تولید می‌کنند و به نظر می‌رسد که هوش مصنوعی قادر به فکر کردن برای خود است.

اما LLM ها تنها مدل های بزرگ در شهر نیستند. مدل‌های اکشن بزرگ (LAM) می‌توانند چیز بزرگ بعدی در هوش مصنوعی باشند.

مدل اقدام بزرگ (LAM) چیست؟

LAM یک سیستم هوش مصنوعی است که قادر به درک ورودی انسان و انجام یک عمل مربوطه است. این یک رویکرد کمی متفاوت برای سیستم‌های هوش مصنوعی است که صرفاً بر تولید پاسخ‌ها تمرکز دارند. اصطلاح “مدل اکشن بزرگ” اولین بار توسط شرکت Rabbit، توسعه دهندگان دستگاه rabbit r1 معرفی شد. در ویدیوی راه اندازی rabbit r1 این شرکت، می گوید که LAM یک مدل پایه جدید است که به انتقال هوش مصنوعی از کلمات به عمل کمک می کند.

مطلب مرتبط:   TPU (واحد پردازش تانسور) چیست و چه کاربردی دارد؟

LAM ها بر روی مجموعه داده های بزرگ داده های عملکرد کاربر آموزش می بینند. از این رو، آنها با تقلید از اعمال انسان یا از طریق نمایش یاد می گیرند. از طریق نمایش، LAM ها می توانند رابط های کاربری وب سایت های مختلف یا برنامه های تلفن همراه را درک و پیمایش کنند و اقدامات خاصی را بر اساس دستورالعمل های شما انجام دهند. به گفته Rabbit، یک LAM می تواند به این مهم دست یابد حتی اگر رابط کاربری کمی تغییر کند.

شما می توانید LAM ها را به عنوان توسعه ای از قابلیت های موجود LLM در نظر بگیرید. در حالی که LLM ها متن یا خروجی رسانه تولیدی را بر اساس ورودی کاربر با پیش بینی کلمه یا نشانه بعدی ایجاد می کنند (شما یک سوال می پرسید و یک LLM یک متن یا خروجی رسانه ارائه می دهد)، LAM ها با افزودن توانایی انجام اقدامات پیچیده از طرف شما آن را بیشتر می کنند. .

LAM ها چه کاری می توانند انجام دهند؟

LAM ها همه در مورد انجام اقدامات پیچیده از طرف شما هستند. با این حال، نکته مهمی که باید به آن توجه کرد، توانایی انجام اقدامات پیچیده است. این باعث می شود LAM ها در انجام کارهای پیشرفته مفیدتر باشند، اما به این معنی نیست که نمی توانند اقدامات ساده تری را انجام دهند.

در تئوری، این بدان معناست که برای مثال می‌توانید به یک LAM بگویید تا کاری را از طرف شما انجام دهد، مانند سفارش قهوه از Starbucks در نزدیکی شما، یک سواری از Uber، و حتی رزرو هتل. بنابراین با انجام کارهای ساده مانند درخواست از دستیار گوگل، سیری یا الکسا برای روشن کردن چراغ های تلویزیون یا اتاق نشیمن شما متفاوت است.

مطلب مرتبط:   5 بهترین افزونه AI برای Gmail

بر اساس دیدگاه مشترک Rabbit Inc.، LAM می‌تواند به وب‌سایت یا اپلیکیشن مربوطه مانند Uber دسترسی داشته باشد و از طریق رابط کاربری خود حرکت کند تا اقدامی انجام دهد، مثلاً اگر تصمیم خود را تغییر دادید، یک سواری سفارش دهید یا آن را لغو کنید.

LAM ها در LLM موفق خواهند شد، اما آماده نیستند (هنوز)

مفهوم LAM ها هیجان انگیز است، شاید حتی بیشتر از LLM ها. LAMها آینده پس از هوش مصنوعی مولد خواهند بود و ما را قادر می سازند تا وظایف دنیوی را جبران کنیم و بر سایر فعالیت های تکمیل کننده تمرکز کنیم. با این حال، همانطور که به نظر می رسد هیجان انگیز است، LAM ها هنوز آماده نیستند.

اولین محصول تجاری که قول استفاده از LAM را داده بود (خرگوش r1) به طور کامل به وعده بازاریابی خود مبنی بر انجام اقدامات از جانب کاربران خود عمل نکرد. این دستگاه در نقطه فروش اصلی خود چنان شگفت انگیز شکست خورد که بسیاری از بررسی های دست اول آن را نسبتاً بی فایده نامیدند.

حتی بدتر از آن، یک تحقیق توسط Coffeezilla، یک YouTuber، با همکاری گروهی از مهندسین نرم‌افزار که به بخشی از پایگاه کد r1 دسترسی داشتند، نشان داد که Rabbit از اسکریپت‌های Playwright برای انجام اقدامات به جای LAM استفاده می‌کرد. بنابراین به جای دستگاهی که یک مدل هوش مصنوعی منحصربه‌فرد را اجرا می‌کرد، در واقع فقط مجموعه‌ای از عبارات سبک If > Then را اجرا می‌کرد. دور از LAM موعود.

اگر چیزی وجود دارد که می توانید از دستگاه r1 Rabbit بگیرید، بله، چشم انداز وجود دارد. با این حال، کار باید قبل از تحقق انجام شود، بنابراین هنوز هیجان زده نشوید.

مطلب مرتبط:   5 بزرگترین شبکه شارژ EV در ایالات متحده