شرکت‌های هوش مصنوعی ظاهراً درخواست‌های سایت‌ها برای استخراج داده‌ها را نادیده می‌گیرند

شرکت‌های هوش مصنوعی ظاهراً درخواست سایت‌ها برای عدم استخراج داده را نادیده می‌گیرند

به‌نظر می‌رسد که شرکت‌هایی ازجمله OpenAI و Anthropic پروتکل‌های سایت‌ها را نادیده می‌گیرند.

طبق گفته‌های استارتاپ TollBit، چندین شرکت هوش مصنوعی ظاهراً پروتکل امنیتی سایت‌ها را که برای جلوگیری از استخراج یا اسکرپینگ مطالب آن‌ها استفاده می‌شود، دور می‌زنند. هرچند TollBit نام هیچ شرکت هوش مصنوعی را ذکر نکرده، اما به‌نظر می‌رسد دو شرکت بزرگ OpenAI و Anthropic نیز این پروتکل‌ها را نادیده می‌گیرند.

شرکت هوش مصنوعی Perplexity در چند روز گذشته مورد انتقاد قرار گرفت و فوربز این شرکت را به سرقت مطالبش متهم کرده است؛ به‌نظر می‌رسد این شرکت هوش مصنوعی دستورات فایل robots.txt را نادیده می‌گیرد و وب‌سایت فوربز را اسکرپ می‌کند.

اکنون، رویترز به نقل از استارتاپ TollBit گزارش می‌دهد که Perplexity تنها شرکت هوش مصنوعی نیست که پروتکل robots.txt را دور می‌زند و اطلاعات وب‌سایت‌ها را برای دریافت محتوایی که برای آموزش هوش مصنوعی آن‌ها استفاده می‌شود، استخراج می‌کند.

بی‌توجهی شرکت‌های هوش مصنوعی به پروتکل امنیتی سایت‌ها

TollBit استارتاپی است که سایت‌ها و ناشران را به شرکت‌های هوش مصنوعی وصل می‌کند تا این شرکت‌ها بتوانند مجوز استفاده از مطالب دریافت کنند. حالا این استارتاپ در نامه‌ای به سایت‌ها و ناشران گفته است:

«ابزارهای هوش مصنوعی از منابع متعدد (نه فقط یک شرکت) ترجیح می‌دهند که پروتکل robots.txt را برای کسب محتوا دور بزنند.»

فایل‌های robots.txt حاوی دستورالعمل‌هایی برای خزنده‌های وب است که در آن ذکر شده کدام مطلب را می‌توان استخراج کرد و کدام یک را نمی‌توان. گفتنی است که توسعه‌دهندگان وب از سال 1994 از این پروتکل استفاده می‌کنند.

در نامه TollBit نام هیچ شرکتی ذکر نشده، اما اینسایدر دریافته است که OpenAI و Anthropic درحال دورزدن فایل‌های robots.txt هستند. البته هر دو شرکت قبلاً اعلام کرده بودند که به دستورالعمل‌هایی که وب‌سایت‌ها در فایل‌های robots.txt خود قرار داده‌اند، احترام می‌گذارند.

به‌طورکلی، با ظهور هوش مصنوعی مولد، استارتاپ‌ها و شرکت‌های فناوری درحال رقابت برای ساخت قوی‌ترین مدل‌های هوش مصنوعی هستند. یک عنصر کلیدی در این فرایند، کسب داده‌هایی با کیفیت و کمیت بالا است. اکنون عطش دریافت چنین داده‌هایی برای آموزش هوش مصنوعی، پروتکل robots.txt و سایر توافق‌ها را تضعیف کرده است.