من به Obsidian آموختم که یادداشت هایم را برای من گوش کند و بنویسد

من طاق ابسیدین خود را خیلی دوست دارم. اما Notebooklm باعث شد که متوجه شوم که احتمالاً می توانم ارزش بیشتری را از یادداشت هایم فشار دهم. بنابراین ، من یک LLM محلی را به طاق ابسیدین خود وصل کردم – و این شگفت انگیز بود. این آزمایش سیلاب ها را باز کرد ، و من شروع به فکر کردن در مورد آنچه می توانم انجام دهم تا واقعاً آنچه را که Obsidian ارائه می دهد به حداکثر برسانم. شما سوراخ خرگوش را که من در اینجا در حال حفاری هستم می بینید: فقط یک ادغام دیگر ، قول می دهم.

یک نقطه درد دیرینه برای من اصطکاک شروع یک یادداشت روزانه بوده است. روزنامه نگاری صوتی به عنوان یک رفع سریع کار می کرد ، اما متن حاصل همیشه بدون شکل و اسکن دشوار بود. چه می شود اگر بتوانم ژورنال را مستقیماً در Obsidian صدا کنم و به جای یک متن کثیف ، با یک یادداشت تمیز و فرمت به پایان برسم؟ با تشکر از LLM های محلی و فراوانی کتابخانه های رایگان هوش مصنوعی ، این اکنون امکان پذیر است.

یادداشت های صدای من به ورودی های کاملاً ساختار یافته تبدیل می شوند

صوتی خام به نت های فرمت شده

قبل از اینکه به نحوه و چه چیزی شیرجه بزنم ، این کار در واقع این افزونه انجام می شود. این یک دکمه ضبط را به نوار کناری Obsidian اضافه می کند. من روی آن کلیک می کنم ، و یک سریع برای ضبط یک یادداشت صوتی باز می شود. بعد از شروع کار ، من فکر می کنم. پس از اتمام ، توقف کردم. در آن مرحله ، صدا پردازش می شود: ابتدا برای رونویسی ، سپس برای قالب بندی و خلاصه. هنگامی که همه این کارها انجام شد ، افزونه یادداشت جدیدی را در پوشه Voice Notes از طاق من ایجاد می کند.

مطلب مرتبط: چگونه به‌روزرسانی Google Drive و Google Docs بر کاربران اندروید تأثیر می‌گذارد

هر نت صوتی حاوی یک پخش کننده صوتی تعبیه شده با ضبط اصلی ، خلاصه ، وظایف عمل ، نکات کلیدی و متن کامل است. وظایف عمل گاهی اوقات کمی بیش از حد احساس می کنند ، اما در کل ، من نتیجه را دوست دارم. این یک روش خارق العاده برای گرفتن سریع مدخل های ژورنال است که احساس تنبلی می کنم.

من قبلاً Openai/GPT-OSS-20B را از طریق افزونه ای به نام خصوصی AI به Obsidian وصل کرده بودم. این افزونه از Rag پشتیبانی می کند ، که بسیار عالی است ، اما فراتر از یک چت بابات نیست – نمی تواند یادداشت ها را ایجاد یا اصلاح کند. آنچه من می خواستم اتوماسیون بیشتر بود.

جریان کلی اکنون واضح است: من روی دکمه ضبط ، صحبت کردن و پایان دادن کلیک می کنم. سپس ، زمزمه صدا را رونویسی می کند. رونویسی به LLM محلی من منتقل می شود ، که موارد خلاصه و عمل را تولید می کند ، و سپس آن خروجی به عنوان یک یادداشت فرمت شده به Obsidian باز می گردد. در مفهوم ساده ، اما به طرز شگفت آور مؤثر است. یک سال پیش ، این احساس غیرممکن خواهد بود ، اما اکنون ما با ابزارهای کاربر پسند برای اجرای مدل های شخصی شما خراب شده ایم. در زیر ، من از آنچه انجام دادم نوشتم. این به معنای آموزش برنامه نویسی گام به گام نیست ، بنابراین من برای شما از دیگ بخار استفاده می کنم و به جای آن روی ایده اصلی تمرکز می کنم.

موتور زیر کاپوت

استودیوی LM وزنه برداری سنگین را انجام می دهد

من از استودیوی LM استفاده می کنم. ممکن است در بعضی از نقاط به هر چیزی تغییر دهم ، اما من با استودیوی LM شروع کردم و در حال حاضر علاقه ای به بارگیری مجدد مدل ها ندارم. LM Studio کارها را ساده می کند: سرور را با API اجرا می کند که از Openai تقلید می کند ، بنابراین با طیف گسترده ای از خدمات سازگار است.

مطلب مرتبط: Evernote در سال 2024: آیا هنوز هم یک رقیب برتر برای یادداشت برداری است؟

به طور پیش فرض ، API در 127.0.0.1:1234/v1/chat/completions قرار دارد. من با مدل های مختلف آزمایش کرده ام ، و GPT-OSS-20B کار مناسبی را انجام می دهد. برای تعادل سرعت با کیفیت ، من تلاش استدلال را کم نگه می دارم. این امر ضروری است زیرا من همه اینها را با AMD RX6700XT 12 گیگابایت اجرا می کنم. وقتی GPU شما بالای خط نیست ، باید گوشه ها را برش دهید.

راه اندازی استودیوی LM ساده است. آن را نصب کنید ، یک مدل را انتخاب و بارگیری کنید ، آن را بارگیری کنید و سرور محلی را اجرا کنید.

لایه صدا به متن

زمزمه صدا را حس می کند

البته ، قبل از اینکه LLM بتواند هر چیزی را خلاصه کند ، من به یک متن نیاز دارم. این جایی است که Whisper وارد می شود. Whisper بسته به اندازه مدل ، منبع باز ، قدرتمند و به طرز شگفت آور سریع است. من نمی توانم آن را برای اجرای GPU خود بدست آورم ، زیرا پشتیبانی AMD در WSL ضعیف است ، اما تصمیم گرفتم به هر حال آن را در داخل WSL اجرا کنم. تنظیم WSL ساده است – این فقط چند دستور است ، و هیچ چیز کثیف نمی شود زیرا ما فقط خدمات را در معرض نمایش قرار می دهیم.

من در ابتدا از Whisper-Webui استفاده کردم زیرا این اولین بار بود که آن را امتحان کردم و می خواستم آن را در عمل ببینم. برخی از سکسکه ها با وابستگی های پایتون (طبق معمول) وجود داشت ، اما من در نهایت این کار را کردم. WebUi بر روی Gradio ساخته شده است و به شما امکان می دهد یک فایل صوتی را بارگذاری کرده و یک نسخه دریافت کنید که این یک روش مفید برای تأیید تنظیم است. من از مدل کوچک استفاده کردم که به اندازه کافی خوب کار می کند ، اگرچه مدل های بزرگتر در صورت نیاز به دقت بهبود می یابند.

سرانجام ، UI لازم نیست. اگر اطمینان دارید ، می توانید repo اصلی Whisper را مستقیماً نصب کنید. گفته می شود ، نسخه WebUI همچنین اگر آن را در FastAPI ببندید ، سرور API را نیز فراهم می کند ، بنابراین هر دو مسیر خوب کار می کند.

مطلب مرتبط: نحوه فعال کردن حالت تاریک در OneNote در هر دستگاه

Obsidian همه اینها را با هم پیوند می دهد

ارکستر گردش کار

با رونویسی Whisper و خلاصه کردن استودیوی LM ، قطعه نهایی اطمینان حاصل می کند که Obsidian می تواند جریان را تنظیم کند: ارسال صدا به زمزمه ، تغذیه متن به استودیوی LM و ایجاد یادداشت فرمت. با کمال تعجب ، هیچ روش بومی برای انجام این کار وجود ندارد. من حتی زحمت بررسی افزونه های جامعه را ندارم – می دانستم که باید خودم را بسازم.

خوشبختانه نوشتن یک افزونه Obsidian آسان است. فراتر از تنظیمات ، دو کارکرد اصلی وجود دارد: SendTowHisper صدای ضبط شده را می گیرد و آن را به زمزمه می فرستد و منتظر رونویسی است. SendTolMstudio رونویسی را به همراه سریع ارسال می کند:

شما یک دستیار مفید هستید که یادداشت های صوتی را برای Obsidian قالب بندی می کنید. فقط علامت گذاری معتبر با طعم GitHub را برگردانید. شامل:

– عنوان به عنوان عنوان سطح اول

– خلاصه مختصر

– یک بخش “وظایف” با موارد عملی به عنوان کادر انتخاب مارک (- [] …)

– یک بخش “یادداشت ها” با نکات کلیدی

– سپس یک بخش “متن” با متن خام زیر عنوان

تفسیر اضافی اضافه نکنید.

سپس پاسخ گرفتار می شود ، در یک یادداشت جدید قالب بندی می شود و ذخیره می شود. من صحبت می کنم ، فرآیندهای Obsidian ، و یک یادداشت تمیز و ساخت یافته دریافت می کنم. برای رونویسی یک نت صوتی 4 دقیقه ای ، حدود 40 پوند طول می کشد ، که خوب است ، به خصوص با توجه به اینکه من فقط برای رونویسی از CPU خود استفاده می کنم. این عالی نیست ، اما مال من است. تنها اشکال این است که همه در محلی اجرا می شود. من یک homeLab ندارم ، بنابراین اگر من در خارج از کشور هستم و از تلفن خود استفاده می کنم ، کار نمی کند. اما … این یک مشکل برای آینده من است.

Tags: یادداشت برداری