نگران این هستید که چت رباتهای هوش مصنوعی وبسایت شما را برای محتوا جمعآوری کنند؟ خوشبختانه، شما می توانید آنها را از انجام این کار مسدود کنید. در اینجا چگونه است.
همانطور که همه چیز پیش می رود، چت ربات های هوش مصنوعی مجوز رایگان برای خراش دادن وب سایت شما و استفاده از محتوای آن بدون اجازه شما دارند. آیا نگران این هستید که محتوای شما توسط چنین ابزارهایی خراشیده شود؟
خبر خوب این است که میتوانید ابزارهای هوش مصنوعی را از دسترسی به وبسایت خود منع کنید، اما برخی اخطارها وجود دارد. در اینجا، ما به شما نشان می دهیم که چگونه با استفاده از فایل robots.txt برای وب سایت خود، ربات ها را مسدود کنید، به علاوه مزایا و معایب انجام این کار.
چت ربات های هوش مصنوعی چگونه به محتوای وب شما دسترسی پیدا می کنند؟
چت ربات های هوش مصنوعی با استفاده از مجموعه داده های متعددی آموزش داده می شوند که برخی از آنها منبع باز و در دسترس عموم هستند. به عنوان مثال، طبق یک مقاله تحقیقاتی منتشر شده توسط OpenAI، GPT3 با استفاده از پنج مجموعه داده آموزش داده شد:
- کرال معمولی (60% وزن در تمرین)
- WebText2 (22% وزن در تمرین)
- کتاب 1 (8% وزن در تمرین)
- کتاب 2 (8% وزن در تمرین)
- ویکی پدیا (وزن 3 درصد در تمرین)
Common Crawl شامل پتابایت (هزاران ترابایت) داده از وبسایتهای جمعآوریشده از سال 2008 است، مشابه نحوه خزیدن الگوریتم جستجوی Google در محتوای وب. WebText2 مجموعه داده ای است که توسط OpenAI ایجاد شده است و شامل تقریباً 45 میلیون صفحه وب است که از پست های Reddit با حداقل سه رأی موافق به آنها پیوند داده شده است.
بنابراین، در مورد ChatGPT، ربات هوش مصنوعی مستقیماً به صفحات وب شما دسترسی پیدا نمیکند و نمیخزد – به هر حال هنوز نه. اگرچه، اعلام OpenAI در مورد یک مرورگر وب میزبانی شده توسط ChatGPT نگرانی هایی را ایجاد کرده است که ممکن است این وضعیت در شرف تغییر باشد.
در این بین، صاحبان وب سایت باید مراقب سایر چت ربات های هوش مصنوعی باشند، زیرا تعداد بیشتری از آنها وارد بازار می شوند. Bard نام بزرگ دیگری در این زمینه است و اطلاعات کمی در مورد مجموعه داده هایی که برای آموزش آن استفاده می شود، وجود دارد. بدیهی است که میدانیم رباتهای جستجوگر گوگل دائماً در صفحات وب میخزند، اما این لزوماً به این معنی نیست که Bard به همان دادهها دسترسی دارد.
چرا برخی از صاحبان وب سایت نگران هستند؟
بزرگترین نگرانی برای صاحبان وب سایت این است که ربات های هوش مصنوعی مانند ChatGPT، Bard و Bing Chat محتوای خود را بی ارزش می کنند. رباتهای هوش مصنوعی از محتوای موجود برای تولید پاسخهای خود استفاده میکنند، اما نیاز کاربران به دسترسی به منبع اصلی را نیز کاهش میدهند. به جای اینکه کاربران برای دسترسی به اطلاعات از وبسایتها بازدید کنند، میتوانند به سادگی از Google یا Bing برای تولید خلاصهای از اطلاعات مورد نیاز خود استفاده کنند.
وقتی صحبت از چت ربات های هوش مصنوعی در جستجو می شود، نگرانی بزرگ صاحبان وب سایت از دست دادن ترافیک است. در مورد بارد، ربات هوش مصنوعی به ندرت در پاسخ های تولیدی خود نقل قول هایی را شامل می شود و به کاربران می گوید که اطلاعات خود را از کدام صفحات دریافت می کند.
بنابراین، جدای از جایگزینی بازدیدهای وب سایت با پاسخ های هوش مصنوعی، Bard تقریباً هر شانسی را برای دریافت ترافیک وب سایت منبع حذف می کند – حتی اگر کاربر اطلاعات بیشتری بخواهد. از سوی دیگر، بینگ چت معمولاً به منابع اطلاعاتی پیوند میدهد.
به عبارت دیگر، ناوگان فعلی ابزارهای مولد هوش مصنوعی از کار تولیدکنندگان محتوا برای جایگزینی سیستماتیک نیاز به تولیدکنندگان محتوا استفاده میکنند. در نهایت، باید بپرسید که این موضوع چه انگیزه ای برای صاحبان وب سایت برای ادامه انتشار محتوا ایجاد می کند. و با گسترش، چه اتفاقی برای رباتهای هوش مصنوعی میافتد وقتی وبسایتها محتوایی را که برای عملکرد به آن تکیه میکنند را منتشر نمیکنند؟
چگونه ربات های هوش مصنوعی را از وب سایت خود مسدود کنید
اگر نمیخواهید رباتهای هوش مصنوعی از محتوای وب شما استفاده کنند، میتوانید با استفاده از فایل robots.txt دسترسی آنها را به سایت خود مسدود کنید. متأسفانه، شما باید هر ربات جداگانه را مسدود کنید و آنها را با نام مشخص کنید.
برای مثال، ربات Common Crawl CCBot نام دارد و میتوانید با افزودن کد زیر به فایل robots.txt، آن را مسدود کنید:
User-agent: CCBot
Disallow: /
این کار Common Crawl را از خزیدن وب سایت شما در آینده جلوگیری می کند، اما هیچ داده ای را که قبلاً از خزیدن های قبلی جمع آوری شده است حذف نمی کند.
اگر نگران دسترسی افزونه های جدید ChatGPT به محتوای وب خود هستید، OpenAI قبلاً دستورالعمل هایی را برای مسدود کردن ربات خود منتشر کرده است. در این حالت، ربات ChatGPT ChatGPT-User نامیده می شود و می توانید با افزودن کد زیر به فایل robots.txt، آن را مسدود کنید:
User-agent: ChatGPT-User
Disallow: /
با این حال، مسدود کردن رباتهای هوش مصنوعی موتور جستجو برای خزیدن محتوای شما مشکل دیگری است. از آنجایی که گوگل در مورد دادههای آموزشی که استفاده میکند بسیار محرمانه است، تشخیص اینکه کدام رباتها را باید مسدود کنید و اینکه آیا آنها حتی به دستورات فایل robots.txt شما احترام میگذارند غیرممکن است (بسیاری از خزندهها این کار را نمیکنند).
این روش چقدر موثر است؟
مسدود کردن ربات های هوش مصنوعی در فایل robots.txt موثرترین روش موجود در حال حاضر است، اما به خصوص قابل اعتماد نیست.
اولین مشکل این است که شما باید هر رباتی را که میخواهید مسدود کنید مشخص کنید، اما چه کسی میتواند رباتهای هوش مصنوعی را که وارد بازار میشوند پیگیری کند؟ مسئله بعدی این است که دستورات موجود در فایل robots.txt شما دستورالعمل های غیر اجباری هستند. در حالی که Common Crawl، ChatGPT و بسیاری از رباتهای دیگر به این دستورات احترام میگذارند، بسیاری از رباتها اینطور نیستند.
اخطار بزرگ دیگر این است که شما فقط می توانید ربات های هوش مصنوعی را از انجام خزیدن در آینده جلوگیری کنید. شما نمی توانید داده ها را از خزیدن های قبلی حذف کنید یا درخواست هایی را برای شرکت هایی مانند OpenAI ارسال کنید تا همه داده های خود را پاک کنند.
آیا باید ابزارهای هوش مصنوعی را از دسترسی به وب سایت خود مسدود کنید؟
متأسفانه، هیچ راه ساده ای برای جلوگیری از دسترسی همه ربات های هوش مصنوعی به وب سایت شما وجود ندارد و مسدود کردن دستی هر ربات جداگانه تقریبا غیرممکن است. حتی اگر با آخرین رباتهای هوش مصنوعی که در وب رومینگ میشوند همگام باشید، هیچ تضمینی وجود ندارد که همه آنها به دستورات موجود در فایل robots.txt شما پایبند باشند.
سوال واقعی در اینجا این است که آیا نتایج ارزش تلاش را دارند یا خیر، و پاسخ کوتاه (تقریباً مطمئنا) خیر است.
مسدود کردن رباتهای هوش مصنوعی از وبسایت شما نیز معایبی بالقوه دارد. مهمتر از همه، شما نمیتوانید دادههای معنیداری را جمعآوری کنید تا ثابت کنید ابزارهایی مانند Bard به استراتژی بازاریابی جستجوی شما سود میرسانند یا آسیب میرسانند.
بله، میتوانید فرض کنید که فقدان نقلقول مضر است، اما فقط در صورت کمبود داده حدس میزنید زیرا دسترسی رباتهای هوش مصنوعی را به محتوای خود مسدود کردهاید. زمانی که گوگل برای اولین بار اسنیپت های ویژه را به جستجو معرفی کرد، داستان مشابهی بود.
برای پرسشهای مرتبط، Google قطعهای از محتوای صفحات وب را در صفحه نتایج نشان میدهد و به سؤال کاربر پاسخ میدهد. این بدان معناست که کاربران برای دریافت پاسخ مورد نظر خود نیازی به کلیک روی یک وب سایت ندارند. این باعث وحشت در بین صاحبان وب سایت و کارشناسان سئو شد که به ایجاد ترافیک از جستجوهای جستجو متکی هستند.
با این حال، نوع پرسوجوهایی که قطعههای برجسته را راهاندازی میکنند، عموماً جستجوهای کم ارزشی مانند «What is X» یا «What’s the weather in New York» هستند. هرکسی که اطلاعات عمیق یا گزارش آب و هوای جامع میخواهد، همچنان میخواهد روی آن کلیک کند، و کسانی که نمیخواهند هرگز در وهله اول آنقدر ارزشمند نبودند.
ممکن است متوجه شوید که این داستان مشابهی با ابزارهای هوش مصنوعی مولد است، اما برای اثبات آن به داده ها نیاز دارید.
عجله نکنید به هیچ چیز
صاحبان وبسایتها و ناشران بهطور قابلتوجهی نگران فناوری هوش مصنوعی هستند و از این ایده که رباتها از محتوای خود برای تولید پاسخهای فوری استفاده میکنند، ناامید شدهاند. با این حال، این زمان برای عجله در حرکات ضد حمله نیست. فناوری هوش مصنوعی حوزه ای است که به سرعت در حال حرکت است و همه چیز با سرعتی سریع به تکامل خود ادامه خواهد داد. از این فرصت استفاده کنید تا ببینید اوضاع چگونه پیش میرود و تهدیدها و فرصتهای بالقوهای را که هوش مصنوعی روی میز میآورد، تحلیل کنید.
سیستم فعلی تکیه بر کار سازندگان محتوا برای جایگزینی آنها پایدار نیست. چه شرکتهایی مانند گوگل و OpenAI رویکرد خود را تغییر دهند یا دولتها مقررات جدیدی را معرفی کنند، چیزی باید ارائه شود. در عین حال، پیامدهای منفی چت ربات های هوش مصنوعی بر تولید محتوا به طور فزاینده ای آشکار می شود، که صاحبان وب سایت و سازندگان محتوا می توانند از آن به نفع خود استفاده کنند.