ПОЗВОНИТЬ
  • Новости
  • Решения
  • Cloudflare запускает инструмент на основе ИИ для борьбы с ботами

Cloudflare запускает инструмент на основе ИИ для борьбы с ботами

Cloudflare, публичный поставщик облачных услуг, представил новый бесплатный инструмент, предназначенный для предотвращения извлечения данных с веб-сайтов, размещенных на его платформе, ботами, которые затем используют эти данные для обучения моделей искусственного интеллекта.

Некоторые компании, такие как Google, OpenAI и Apple, предлагают владельцам веб-сайтов возможность блокировать своих ботов, используемых для сбора данных и обучения ИИ, путем внесения изменений в файл robots.txt. Этот текстовый файл информирует ботов о том, какие страницы на сайте доступны для сканирования. Однако Cloudflare отмечает, что не все ИИ-скрейперы соблюдают эти правила.

«Клиенты не хотят, чтобы ИИ-боты посещали их сайты, особенно те, которые действуют нечестно», — заявляет Cloudflare в своем официальном блоге. «Мы обеспокоены тем, что некоторые компании, намеревающиеся обойти правила для доступа к контенту, будут постоянно адаптироваться, чтобы избежать обнаружения».

Чтобы решить эту проблему, Cloudflare проанализировала трафик от ботов и краулеров ИИ, чтобы настроить автоматические модели для их обнаружения. Эти модели учитывают, может ли ИИ-бот пытаться избежать обнаружения, имитируя поведение человека, использующего веб-браузер.

«Когда злоумышленники пытаются масштабно сканировать веб-сайты, они обычно используют инструменты и фреймворки, которые мы можем идентифицировать», — поясняет Cloudflare. «На основе этих сигналов наши модели могут помечать трафик от уклончивых ИИ-ботов как нежелательный».

Cloudflare также создала форму, с помощью которой веб-хостеры могут сообщать о подозрительных ИИ-ботах и сканерах. Компания обещает продолжать вручную заносить в черный список такие боты по мере их обнаружения.

Проблема ИИ-ботов стала особенно актуальной, так как бум генеративного ИИ усилил спрос на данные для обучения моделей. Многие веб-сайты, опасаясь, что их контент будет использоваться без предупреждения и компенсации, решили заблокировать скраперы и краулеры ИИ. По одному из исследований, около 26% из 1000 крупнейших сайтов в сети заблокировали бота OpenAI. Другое исследование показало, что более 600 новостных издателей заблокировали сканеры.

Однако блокировка не является надежной защитой. Некоторые поставщики ИИ, как кажется, игнорируют стандартные правила исключения ботов, чтобы получить конкурентное преимущество. Например, поисковая система ИИ Perplexity была обвинена в том, что она выдавала себя за легитимных пользователей для копирования контента с веб-сайтов, а OpenAI и Anthropic иногда не учитывали правила robots.txt.

В письме к издателям стартап по лицензированию контента TollBit заявил, что замечает множество ИИ-агентов, игнорирующих стандарт robots.txt.

Инструменты, такие как предложенный Cloudflare, могут помочь, если они будут точными в обнаружении скрытых ИИ-ботов. Однако они не решают более сложную проблему, связанную с тем, что издатели могут пожертвовать реферальным трафиком от ИИ-инструментов, таких как обзоры от Google, которые исключают сайты, блокирующие определенные краулеры ИИ.

В результате, хотя новые инструменты от Cloudflare могут стать важным шагом в борьбе с нечестными ИИ-ботами, комплексное решение проблемы требует более широкого подхода и сотрудничества между веб-хостерами, поставщиками контента и разработчиками ИИ.
Cloudflare запускает ИИ-инструмент для защиты сайтов от бот-скреперов

Автор: Анна
 

ОСТАВЛЯЙТЕ ЗАЯВКУ БЕСПЛАТНО