من تقریباً یک سال است که ماهانه ۲۰ دلار برای Perplexity AI Pro پرداخت میکنم. این هزینه معقول به نظر میرسید چون جستجوی وب بهصورت لحظهای، منابع ارجاعشده و رابط کاربری براق و زیبا دریافت میکنم که پژوهش را بیدردسر میکند. اما با توجه به اینکه برنامههایی وجود دارند که به هر کسی امکان استفاده از مزایای یک مدل زبانی محلی را میدهند، متوجه شدم میتوانم Perplexity خود را برای اکثر کارهایم با یک مدل زبانی محلی جایگزین کنم.
من تقریباً یک سال است که ماهیانه ۲۰ دلار برای Perplexity AI Pro پرداخت میکنم. احساس میکردم موجه است چون جستجوی وب لحظهای، منابع استناد شده و رابط وب صیقلی دریافت میکنم که تحقیق را بدون دردسر میکند. اما با توجه به اینکه برنامههایی که به هر کسی اجازه میدهند از مزایای یک LLM محلی بهرهمند شود وجود دارد، متوجه شدم میتوانم Perplexity خود را برای اکثر کارها با یک LLM محلی جایگزین کنم.
این رد کلی از خدمات ابری نیست. Perplexity همچنان در جستجوی وب لحظهای و ترکیب فوری چند منبع برتری دارد. اما وقتی کارهای روزمرهام—بررسی کد، نوشتن مستندات، تحلیل داده، عیبیابی فنی—را بررسی میکنم، تنظیم محلی من نتایج سریعتر، خصوصیتر و بهطور روزافزون قدرتمندتر ارائه میدهد بدون این که یک سنت هم درخواست کند.
راهاندازی LLM محلی من و دلیل ساخت آن
ستکی که Perplexity را روی دستگاه من جایگزین کرد
سفر من به دنیای LLM محلی با Ollama آغاز شد. این ابزار متنباز به استاندارد اجرای LLMها بهصورت محلی تبدیل شده است. نصب روی ویندوز نیز تنها چند دقیقه طول میکشد. سپس آن را با LM Studio بهعنوان رابط گرافیکی ترکیب کردم، اگرچه میتوانید از آن بهعنوان یک برنامه AI مستقل نیز استفاده کنید. برنامههای زیاد دیگری نیز وجود دارند که میتوانید برای بهرهمندی از مزایای هوش مصنوعی محلی استفاده کنید، پس انتخاب با شماست.
سختافزار من هم برتر نیست. من از یک لپتاپ با RTX 4060 8 GB، حافظهٔ ۱۶ GB LPDDR5X و پردازندهٔ Intel Core Ultra 7 استفاده میکنم. این سختافزار نتواند نتایج فوری یا مدلهای سنگین را اجرا کند، اما برای اجرای مدلهایی مانند Qwen 2.5 Coder 32B بهطرز معقول کافی است.
در این میان، من از مدلی که بهدقت ۴‑بیتی کاهش یافته استفاده میکنم. این مدل بهخوبی در ۸ GB VRAM من کار میکند و کد را با سرعت ۲۵ تا ۳۰ توکن در ثانیه تولید میکند. زبانهای Python، VBA، PowerShell و تقریباً تمام زبانهای برنامهنویسی دیگر را پشتیبانی میکند. همچنین میتواند کدهای قدیمی را با پنجرهٔ زمینهٔ ۱۲۸ k توکن توضیح دهد.
برای کارهای عمومی، بین مدلهای Llama 3.1 70B و DeepSeek R1 جابجا میشوم. اختلاف کیفیت بهطرز چشمگیری از بین رفته است. این به این معناست که میتوانم عملکرد GPT‑4 را روی سختافزار مصرفکننده با هزینهٔ ابری بسیار کمتر بهدست آورم.
جایی که LLMهای محلی بهطور مطلق Perplexity را پشت سر میگذارند
حریم خصوصی، کنترل و بدون محدودیت نرخ

حریم خصوصی بلافاصله مزیت واضح است. هر خط کد مالکیتی روی دستگاه من میماند. هیچ سرویس شخص ثالثی درخواستهای من را لاگ نمیکند. برای صنایع با الزامات محلنگهداری داده مانند مراقبتهای بهداشتی، حقوقی و مالی، این موضوع سرپناهی در برابر مشکلات سازگاری HIPAA یا GDPR فراهم میکند.
اقتصاد هزینه نیز نقش بزرگی دارد. لپتاپ من حدود ۱۶۰۰ دلار هزینه داشت. این مبلغ برابر ۸۰ ماه Perplexity Pro است و میتوانم تقریباً تمام کارهای دیگر را با همان هزینه انجام دهم. همچنین من درخواستهایی را اجرا میکنم که در ابر میتوانستند صدها دلار ماهیانه هزینه داشته باشند.
قابلیت کار آفلاین تا وقتی که نیاز باشد، ساده بهنظر میرسد. میتوانم در هر زمان و هر مکان به هوش مصنوعیام دسترسی داشته باشم، بدون اینکه به اتصال اینترنت ثابت نیاز داشته باشم. هیچ دردسر اتصال، عدم سرعت Wi‑Fi یا محدودیت مصرف برای من وجود ندارد.
کارایی جادو نیست
نقاط قوت، ضعف و نیاز به GPU زیاد

LLMهای محلی بهصورت مطلق کندتر هستند. نمونهٔ Qwen 2.5 من بین ۲۵ تا ۳۰ توکن در ثانیه تولید میکند که تقریباً نصف سرعت GPT‑4 ابری است.
اما برای جریان کاری من این کمبودی کمتر مهم است. وقتی کد را بازبینی یا مستند مینویسم، منتظر مدل نمیمانم؛ در حال خواندن و فکر کردن هستم. گرهشکن اینجا درک من است، نه تولید توکن. برای توضیح ۵۰۰ توکن، پاسخ ۲۵‑توکن در ثانیه باعث میشود چند دقیقهٔ بیشتر نسبت به حالت معمول صرف شود.
نگرانی تأخیر نیز داستان دیگری دارد. خدمات ابری میتوانند تاخیرهای ناشی از شبکه داشته باشند. هوش مصنوعی محلی کار را بلافاصله انجام میدهد. برای کمک تعاملی برنامهنویسی با تکرار سریع، این پاسخگویی بسیار مفید است. این همان مزیتی است که من هنگام ایجاد یک هوش مصنوعی کدنویسی محلی برای VS Code بهدست آوردم.
جایی که Perplexity هنوز برتری واضح دارد
جستجوی وب زنده چیزی است که بیشترین حسرت آن را خواهید داشت
جستجوی وب لحظهای همچنان بهترین ویژگی Perplexity است. وقتی به الزامات مقرراتی بهروز، مستندات API اخیر یا اطلاعات تجمیعشده با استنادها در چند ثانیه نیاز دارم، Perplexity برتر است. میتوانید دستیارهای چت رایگان را بدون هزینهٔ هوش مصنوعی استفاده کنید، اما جایگزینی برای Perplexity دشوار است.
LLMهای محلی میتوانند با یکپارچهسازی WebUI باز جستوجو کنند، اما پیچیدگی راهاندازی بهطرز قابلتوجهی افزایش مییابد. Perplexity همچنین وظایف چندرسانهای را بهتر مدیریت میکند؛ از تحلیل تصویر تا پردازش سند با GPT‑4 Vision و Claude 3 پشتیبانی میکند. تنظیم محلی من در متن قوی است اما برای تصاویر به ابزارهای جداگانهای نیاز دارد.
مشکل توهم هم باید ذکر شود. Perplexity میتواند اطلاعات نادرست بدهد حتی اگر استناد داشته باشد. LLMهای محلی نیز توهم دارند، اما بدون تأیید زمانواقعی، شناسایی خطاها نیاز به دقت بیشتری دارد.
معایب غیرقابلنادیدهگیری وجود دارد
هزینه در مقابل راحتی در مقابل قابلیت
اجرای LLMهای محلی هزینههای پنهانی نیز دارد. قبض برق شما افزایش مییابد چون باید دستگاهی اختصاصی را تماموقت روشن نگه دارید. دانلود مدلها به تنهایی تقریباً ۱۰۰ GB فضای ذخیرهسازی میگیرد.
مشترک شدن در خبرنامه برای راهنماییهای عملی درباره LLMهای محلی
نگهداری نیز تماماً به عهدهٔ شماست. برخوردهای درایور، مشکلات تخصیص VRAM و ناسازگاری نرمافزارها نیاز به خودتشخیصی دارد.
آیا باید Perplexity را رها کنید و به LLM محلی روی بیاورید؟
اگر توان محاسباتی کافی دارید، هوش مصنوعی محلی یک رقیب جدی است
قبل از اینکه عجولانه Perplexity را لغو کنید و به مسیر LLMهای محلی بروید، بهخاطر داشته باشید که تنظیم من فقط برای نیازهای خاص من کار میکند. اگر به ظرفیت یا قدرت بیشتری نیاز دارید، مجبورید از مدلهای بزرگتر استفاده کنید.

نیازی به صرف هزینهٔ سنگین برای سختافزار ندارید تا هوش مصنوعی را روی کامپیوتر خود اجرا کنید.
من Perplexity را از استفادهٔ روزانه به پرسوجوهای هدفمند کاهش دادم و احتمالاً بهزودی به سطح رایگان میروم. سؤال این نیست که آیا LLMهای محلی میتوانند سرویسهای وب را جایگزین کنند—بلکه این است که آیا کارهای روزانهٔ شما به دسترسی وب زمانواقعی نیاز دارد یا اینکه استنتاج سریع، خصوصی و نامحدود بر روی دادههای کمی کهنهتر برای شما مناسبتر است.