ЗАТЕЛЕФОНУВАТИ
  • Новини
  • Рішення
  • Cloudflare запускає інструмент на основі ШІ для боротьби з ботами

Cloudflare запускає інструмент на основі ШІ для боротьби з ботами

Cloudflare, провідний постачальник хмарних послуг, представив новий безкоштовний інструмент, спрямований на запобігання вилученню даних з веб-сайтів, розміщених на його платформі, ботами, які потім використовують ці дані для навчання моделей штучного інтелекту.

Деякі компанії, такі як Google, OpenAI і Apple, пропонують власникам веб-сайтів можливість блокувати своїх ботів, що використовуються для збору даних і навчання ШІ, шляхом внесення змін до файлу robots.txt. Цей текстовий файл повідомляє ботам, які сторінки на сайті доступні для сканування. Однак Cloudflare зауважує, що не всі ШІ-скрапери дотримуються цих правил.

"Клієнти не хочуть, щоб ШІ-боти відвідували їхні сайти, особливо ті, які діють недобросовісно", - заявляє Cloudflare у своєму офіційному блозі. "Ми стурбовані тим, що деякі компанії, які мають намір обійти правила доступу до контенту, будуть постійно адаптуватись, щоб уникнути виявлення".

Щоб вирішити цю проблему, Cloudflare проаналізував трафік від ботів та краулерів ШІ, щоб налаштувати автоматичні моделі для їх виявлення. Ці моделі враховують, чи може ШІ-бот намагатися уникнути виявлення, імітуючи поведінку людини, що використовує веб-браузер.

"Коли зловмисники намагаються масово сканувати веб-сайти, вони зазвичай використовують інструменти і фреймворки, які ми можемо ідентифікувати", - пояснює Cloudflare. "На основі цих сигналів наші моделі можуть відмічати трафік від ухильних ШІ-ботів як небажаний".

Cloudflare також створив форму, за допомогою якої веб-хостинги можуть повідомляти про підозрілі ШІ-боти та сканери. Компанія обіцяє продовжувати вручну вносити до чорного списку такі боти по мірі їх виявлення.

Проблема ШІ-ботів стала особливо актуальною, оскільки бум генеративного ШІ посилив попит на дані для навчання моделей. Багато веб-сайтів, обурені тим, що їх контент може використовуватися без попередження та компенсації, вирішили заблокувати скрапери та краулери ШІ. Згідно з одним дослідженням, близько 26% з 1000 найбільших сайтів в мережі заблокували бот OpenAI. Інше дослідження показало, що понад 600 новинних видавців заблокували сканери.

Однак блокування само по собі не є надійним захистом. Деякі постачальники ШІ, здається, ігнорують стандартні правила виключення ботів, щоб отримати конкурентну перевагу. Наприклад, пошукова система ШІ Perplexity була звинувачена в тому, що вона видає себе за легітимних користувачів для копіювання контенту з веб-сайтів, а OpenAI та Anthropic іноді не дотримуються правил robots.txt.

У листі до видавців стартап з ліцензування контенту TollBit зазначив, що помічає багато ШІ-агентів, які ігнорують стандартні правила robots.txt.

Інструменти, подібні тим, що пропонує Cloudflare, можуть допомогти, якщо вони точні у виявленні прихованих ШІ-ботів. Однак вони не вирішують більш складну проблему, пов'язану з тим, що видавці можуть пожертвувати реферальним трафіком від ШІ-інструментів, таких як огляди від Google, які виключають сайти, що блокують певні краулери ШІ.

Отже, хоча нові інструменти від Cloudflare можуть бути важливим кроком у боротьбі з недобросовісними ШІ-ботами, комплексне вирішення проблеми вимагає більш широкого підходу і співпраці між веб-хостингами, постачальниками контенту та розробниками ШІ.
Cloudflare запускає інструмент на основі ШІ для захисту сайтів від скрейперів

Автор: Анна
 

ЗАЛИШАЙТЕ ЗАЯВКУ БЕЗКОШТОВНО