مدلهای زبان بزرگ (LLM) با انتشار ChatGPT از هوش مصنوعی باز وارد صحنه شدند. از آن زمان، چندین شرکت نیز LLM های خود را راه اندازی کرده اند، اما شرکت های بیشتری اکنون به سمت مدل های زبان کوچک (SLM) متمایل شده اند.
لینک های سریع
- مدل زبان کوچک چیست؟
- مدل های زبان کوچک در مقابل مدل های زبان بزرگ
- چرا مدل های زبانی کوچک آینده هستند؟
خوراکی های کلیدی
- شرکتهای بزرگی مانند Open AI، Google، Microsoft و Meta در حال سرمایهگذاری در SLM هستند.
- SLM ها در سراسر صنعت محبوبیت پیدا می کنند و به عنوان هوش مصنوعی آینده بهتر قرار می گیرند.
- نمونه هایی از SLM ها عبارتند از Google Nano، Phi-3 مایکروسافت، و Open AI GPT-4o mini.
مدلهای زبان بزرگ (LLM) با انتشار ChatGPT از هوش مصنوعی باز وارد صحنه شدند. از آن زمان، چندین شرکت نیز LLM های خود را راه اندازی کرده اند، اما شرکت های بیشتری اکنون به سمت مدل های زبان کوچک (SLM) متمایل شده اند.
SLM ها در حال افزایش هستند، اما آنها چه هستند و چه تفاوتی با LLM دارند؟
مدل زبان کوچک چیست؟
مدل زبان کوچک (SLM) نوعی مدل هوش مصنوعی با پارامترهای کمتر است (به این به عنوان یک مقدار در مدلی که در طول آموزش یاد میگیرید فکر کنید). مانند همتایان بزرگتر خود، SLMها می توانند متن تولید کنند و وظایف دیگری را انجام دهند. با این حال، SLM ها از مجموعه داده های کمتری برای آموزش استفاده می کنند، پارامترهای کمتری دارند و برای آموزش و اجرا به توان محاسباتی کمتری نیاز دارند.
SLM ها بر روی عملکردهای کلیدی تمرکز می کنند، و ردپای کوچک آنها به این معنی است که می توان آنها را در دستگاه های مختلف، از جمله دستگاه هایی که سخت افزار پیشرفته مانند دستگاه های تلفن همراه ندارند، مستقر کرد. به عنوان مثال، Google’s Nano یک SLM روی دستگاه است که از ابتدا ساخته شده و روی دستگاه های تلفن همراه اجرا می شود. به گفته این شرکت، نانو به دلیل اندازه کوچکش می تواند به صورت محلی با یا بدون اتصال شبکه اجرا شود.
علاوه بر نانو، بسیاری از SLM های دیگر از شرکت های پیشرو و آینده در فضای هوش مصنوعی وجود دارد. برخی از SLM های محبوب عبارتند از Phi-3 مایکروسافت، OpenAI’s GPT-4o mini، Anthropic’s Claude 3 Haiku، Meta’s Llama 3 و Mistral AI Mixtral 8x7B.
گزینه های دیگری نیز موجود است، که ممکن است فکر کنید LLM هستند اما SLM هستند. این امر به ویژه با توجه به اینکه اکثر شرکتها رویکرد چند مدلی را برای انتشار بیش از یک مدل زبان در مجموعه خود اتخاذ میکنند و هم LLM و هم SLM را ارائه میکنند، صادق است. یک نمونه GPT-4 است که دارای مدل های مختلفی از جمله GPT-4، GPT-4o (Omni) و GPT-4o mini است.
مدل های زبان کوچک در مقابل مدل های زبان بزرگ
در حین بحث در مورد SLM ها، نمی توانیم همتایان بزرگ آنها را نادیده بگیریم: LLM. تفاوت اصلی بین SLM و LLM اندازه مدل است که از نظر پارامترها اندازه گیری می شود.
از زمان نگارش این مقاله، هیچ اتفاق نظری در صنعت هوش مصنوعی در مورد حداکثر تعداد پارامترهایی که یک مدل نباید بیشتر از SLM در نظر گرفته شود یا حداقل تعداد مورد نیاز برای در نظر گرفتن LLM وجود ندارد. با این حال، SLM ها معمولا دارای میلیون ها تا چند میلیارد پارامتر هستند، در حالی که LLM ها دارای پارامترهای بیشتری هستند که به تریلیون ها می رسد.
به عنوان مثال، GPT-3 که در سال 2020 منتشر شد، دارای 175 میلیارد پارامتر است (و مدل GPT-4 حدود 1.76 تریلیون شایعه است)، در حالی که مایکروسافت Phi-3-mini، Phi-3-small و Phi 2024 -3 SLM های متوسط به ترتیب 3.8، 7 و 14 میلیارد پارامتر را اندازه گیری می کنند.
یکی دیگر از عوامل متمایز کننده بین SLM و LLM، میزان داده های مورد استفاده برای آموزش است. SLM ها بر روی مقادیر کمتری از داده ها آموزش می بینند، در حالی که LLM ها از مجموعه داده های بزرگ استفاده می کنند. این تفاوت همچنین بر توانایی مدل برای حل وظایف پیچیده تأثیر می گذارد.
با توجه به داده های زیادی که در آموزش استفاده می شود، LLM ها برای حل انواع مختلف وظایف پیچیده که نیاز به استدلال پیشرفته دارند، مناسب تر هستند، در حالی که SLM ها برای کارهای ساده تر مناسب تر هستند. برخلاف LLM ها، SLM ها از داده های آموزشی کمتری استفاده می کنند، اما داده های مورد استفاده باید از کیفیت بالاتری برخوردار باشند تا به بسیاری از قابلیت های موجود در LLM در یک بسته کوچک دست یابند.
چرا مدل های زبانی کوچک آینده هستند؟
برای بیشتر موارد استفاده، SLM ها برای تبدیل شدن به مدل های اصلی مورد استفاده شرکت ها و مصرف کنندگان برای انجام کارهای مختلف، موقعیت بهتری دارند. مطمئناً، LLM ها مزایای خود را دارند و برای موارد استفاده خاص، مانند حل وظایف پیچیده، مناسب تر هستند. با این حال، SLM ها به دلایل زیر برای اکثر موارد استفاده آینده هستند.
1. هزینه آموزش و نگهداری کمتر
SLM ها نسبت به LLM ها به داده های کمتری برای آموزش نیاز دارند، که آنها را به مناسب ترین گزینه برای افراد و شرکت های کوچک تا متوسط با داده های آموزشی محدود، مالی یا هر دو تبدیل می کند. LLM ها به حجم زیادی از داده های آموزشی نیاز دارند و در نتیجه به منابع محاسباتی عظیمی برای آموزش و اجرا نیاز دارند.
برای درک این موضوع، مدیر عامل OpenAI، سام آلتمن، تأیید کرد که برای آموزش GPT-4 بیش از 100 میلیون دلار در هنگام سخنرانی در یک رویداد در MIT (بر اساس Wired) به آنها نیاز دارد. مثال دیگر OPT-175B LLM متا است. متا می گوید که با استفاده از 992 پردازنده گرافیکی NVIDIA A100 80 گیگابایتی آموزش داده شده است که طبق گزارش CNBC برای هر واحد تقریباً 10000 دلار هزینه دارد. این هزینه را بدون احتساب هزینه های دیگر مانند انرژی، حقوق و غیره، تقریباً 9 میلیون دلار می کند.
با چنین ارقامی، آموزش LLM برای شرکت های کوچک و متوسط امکان پذیر نیست. در مقابل، SLMها از نظر منابع دارای مانع کمتری برای ورود هستند و هزینه اجرای آن کمتر است و بنابراین، شرکت های بیشتری از آنها استقبال خواهند کرد.
2. عملکرد بهتر
عملکرد یکی دیگر از زمینه هایی است که SLM ها به دلیل اندازه جمع و جورشان، LLM ها را شکست می دهند. SLM ها تأخیر کمتری دارند و برای سناریوهایی که به پاسخ های سریع تری نیاز است، مانند برنامه های بلادرنگ، مناسب ترند. برای مثال، در سیستمهای پاسخ صوتی مانند دستیارهای دیجیتال، پاسخ سریعتر ترجیح داده میشود.
اجرای بر روی دستگاه (در ادامه در این مورد بیشتر خواهد شد) همچنین به این معنی است که درخواست شما نیازی به سفر به سرورهای آنلاین و بازگشت به درخواست شما ندارد، که منجر به پاسخهای سریعتر میشود.
3. دقیق تر
وقتی صحبت از هوش مصنوعی مولد به میان میآید، یک چیز ثابت میماند: زباله به داخل، زباله بیرون. LLM های فعلی با استفاده از مجموعه داده های بزرگ داده های خام اینترنتی آموزش داده شده اند. بنابراین، آنها ممکن است در همه شرایط دقیق نباشند. این یکی از مشکلات ChatGPT و مدلهای مشابه است و چرا نباید به هر چیزی که یک چت ربات هوش مصنوعی میگوید اعتماد کنید. از سوی دیگر، SLM ها با استفاده از داده های با کیفیت بالاتر نسبت به LLM ها آموزش می بینند و در نتیجه دقت بالاتری دارند.
همچنین SLM ها را می توان با آموزش متمرکز بر روی وظایف یا حوزه های خاص تنظیم کرد که منجر به دقت بهتر در آن مناطق در مقایسه با مدل های بزرگتر و تعمیم یافته تر می شود.
4. می تواند روی دستگاه اجرا شود
SLM ها به توان محاسباتی کمتری نسبت به LLM ها نیاز دارند و بنابراین برای موارد محاسبات لبه ای ایده آل هستند. آنها را می توان در دستگاه های لبه ای مانند تلفن های هوشمند و وسایل نقلیه خودران که قدرت محاسباتی یا منابع زیادی ندارند، مستقر کرد. مدل Nano گوگل می تواند روی دستگاه اجرا شود و به آن اجازه می دهد حتی زمانی که اتصال اینترنتی فعال ندارید کار کند.
این توانایی یک موقعیت برد-برد را هم برای شرکت ها و هم برای مصرف کنندگان ارائه می دهد. اول اینکه، این یک پیروزی برای حفظ حریم خصوصی است زیرا دادههای کاربر بهجای ارسال به فضای ابری، بهصورت محلی پردازش میشوند، که مهم است زیرا هوش مصنوعی بیشتری در گوشیهای هوشمند ما ادغام شده است و تقریباً همه جزئیات مربوط به ما را شامل میشود. همچنین برای شرکتها یک پیروزی محسوب میشود، زیرا آنها نیازی به استقرار و اجرای سرورهای بزرگ برای انجام وظایف هوش مصنوعی ندارند.
SLM ها در حال افزایش هستند و بزرگترین بازیگران صنعت مانند Open AI، Google، Microsoft، Anthropic و Meta چنین مدل هایی را منتشر می کنند. این مدلها برای کارهای سادهتر مناسبتر هستند، که بیشتر ما از LLM برای آن استفاده میکنیم. از این رو، آنها آینده هستند.
اما LLM ها به جایی نمی رسند. در عوض، از آنها برای برنامه های کاربردی پیشرفته استفاده می شود که اطلاعات را در دامنه های مختلف ترکیب می کند تا چیز جدیدی ایجاد کند، مانند تحقیقات پزشکی.