Боты на сайте: ИИ-паразиты и SEO-шпионы

Кто стучится в ваш сайт? Разбираем логи: ClaudeBot, Meta, Google, Bing, Semrush. Узнайте цели, нагрузку, риски и получите готовые рекомендации по настройке robots.txt. Особое мнение об ИИ-ботах.

Боты на сайте

Кто на самом деле стучится в ваш сайт: полный разбор ботов из реальных логов

Вы думаете, ваш сайт читают люди? Отчасти да. Но львиную долю трафика на многих ресурсах создают не люди, а роботы. Они сканируют, индексируют, анализируют, собирают данные для ИИ и следят за вашими обновлениями.

В этом материале мы подробно разберем пять реальных записей из логов сервера mosregdata.ru. Вы узнаете:

  • кто скрывается за каждым user-agent,
  • зачем они приходят,
  • насколько они «легальны»,
  • что с ними делать владельцу сайта,
  • и почему игнорировать ботов — опасно.

Структура одной записи

Каждая строка имеет вид:

[время] metric.INFO: {"accept":["*/*"],"user-agent":[...],...} []

Что это значит:

  • metric.INFO — уровень логирования (информационное сообщение).
  • JSON-объект — HTTP-заголовки входящего запроса.
  • [] в конце — пустое тело запроса (боты часто делают GET без тела).

Все боты в этих логах обращались к одному хосту: mosregdata.ru.


1. ClaudeBot (Anthropic) — сбор данных для ИИ

Пример из лога:

[2026-04-12T14:28:22.360442+03:00] metric.INFO: {"user-agent":["Mozilla/5.0... ClaudeBot/1.0; +claudebot@anthropic.com)"],...}

Кто это:
Официальный краулер компании Anthropic, создателя языковой модели Claude (главный конкурент ChatGPT). Бот собирает данные с открытых сайтов для обучения нейросетей.

Что говорит User-Agent:

  • Mozilla/5.0 — маскировка под обычный браузер (стандартная практика).
  • ClaudeBot/1.0 — идентификация себя.
  • +claudebot@anthropic.com — контакт для вопросов.

IP-адрес:216.73.216.126 (проверка показывает — принадлежит Anthropic).

Особенности:

  • Игнорирует robots.txt? Нет, обычно соблюдает (но не всегда).
  • Может создавать высокую нагрузку.
  • Скачивает даже контент под paywall, если он технически доступен.

🔥 Особое мнение:
Anthropic заявляет об «этичном сборе данных». Но этично ли сканировать сайты без явного согласия владельца, а потом продавать подписку на ИИ, который использует эти данные? Многие эксперты считают, что владельцы контента должны получать отчисления.


2. MetaExternalAgent (Facebook / Meta)

Пример:

[2026-04-12T14:08:25.666560+03:00]... "user-agent":["meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)"]

Кто это:
Робот компании Meta (Facebook, Instagram, WhatsApp). Официально используется для:

  • формирования превью при расшаривании ссылок (og:image, title),
  • проверки актуальности кэша,
  • но также — для сбора данных (в том числе для алгоритмов и потенциально для ИИ Meta).

IP:57.141.20.12 (подтвержденная подсеть Meta).

Особенности:

  • Ходит чаще, чем вы думаете (не только при расшаривании).
  • Может игнорировать robots.txt, если вы специально не запретите.
  • В последнее время Meta ужесточила политику, но бот все равно активен.

⚠️ Важно:
Если вы видите много таких запросов, а ваш сайт нигде не шарится — возможно, Meta просто «скармливает» ваш контент своим алгоритмам.


3. Googlebot — классика поиска

Пример:

[2026-04-12T09:33:36.653188+03:00]... "user-agent":["... Googlebot/2.1; +http://www.google.com/bot.html"]

Кто это:
Самый известный бот в мире. Индексирует сайты для поиска Google. Ваш лучший друг (если вы хотите трафик) и главный пожиратель серверных ресурсов (если вы его не ограничиваете).

Маскировка:
User-Agent выглядит как старый Android-смартфон (Nexus 5X, Chrome 146), но в конце честно указано Googlebot/2.1. Это нормально — Googlebot может имитировать мобильные устройства.

IP:66.249.66.1 — официальный диапазон Google.

Что важно:

  • Googlebot уважает robots.txt и crawl-delay.
  • Вы можете управлять частотой обхода в Google Search Console.
  • Игнорировать его нельзя — выпадаете из поиска.

Рекомендация:
Настройте Googlebot отдельно: разрешите /, но ограничьте статические файлы (CSS, JS, изображения).


4. Bingbot (Microsoft)

Пример:

[2026-04-12T09:58:14.660701+03:00]... "user-agent":["... bingbot/2.0; +http://www.bing.com/bingbot.htm"]

Кто это:
Поисковый робот Microsoft Bing (а также Yahoo, DuckDuckGo и других партнеров Bing). Второй по значимости бот в мире (после Google).

Маскировка:
User-Agent имитирует Chrome 116 — стандартный трюк для рендеринга современных страниц.

IP:207.46.13.170 (диапазон Microsoft).

Особенности:

  • Ходит реже Googlebot, но может быть агрессивнее.
  • Поддерживает robots.txt и специальные директивы Bing.
  • Игнорировать не стоит — Bing дает до 10–30% поискового трафика на многих сайтах.

🧠 Факт:
Bingbot также используется для обучения Microsoft Copilot (бывший Bing Chat). Если вы запретите Bingbot — вы можете частично уйти из ИИ Microsoft.


5. SemrushBot — SEO-аналитика

Пример:

[2026-04-12T13:41:13.576986+03:00]... "user-agent":["Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html)"]

Кто это:
Робот Semrush — крупнейшего сервиса SEO-аналитики. Он проверяет позиции сайта, ссылочную массу, структуру, скорость загрузки и т.д.

Маскировка:
Минимальная — честно указывает SemrushBot. IP: 85.208.96.195 (подтвержден Semrush).

Важно понимать:

  • SemrushBot не индексирует сайт для поиска, а собирает данные для отчетов перед другими пользователями (включая ваших конкурентов).
  • Он может ходить очень часто (раз в несколько часов).
  • Некоторые владельцы блокируют его, считая «шпионом».

🔥 Особое мнение:
SemrushBot — паразит с точки зрения малого бизнеса. Он потребляет ваш трафик, нагружает сервер и показывает конкурентам ваши слабые места. При этом вы не получаете ничего взамен.
Моя рекомендация: заблокировать SemrushBot через robots.txt, если вы не пользуетесь их платными услугами.


Сравнительная таблица ботов

БотКомпанияЦельНагрузкаУважает robots.txtСтоит ли блокировать
ClaudeBotAnthropicОбучение ИИВысокаяДаЗависит от вашей позиции по ИИ
MetaExternalAgentMetaПревью + сбор данныхСредняяДаЧастично (только если нет шеринга)
GooglebotИндексирование поискаОгромнаяДаНет (иначе выпадете из поиска)
BingbotMicrosoftИндексирование + ИИВысокаяДаНет (потеряете трафик)
SemrushBotSemrushSEO-аналитикаСредняяДаДа, если не пользуетесь Semrush

Общие рекомендации для владельца сайта

1. Настройте robots.txt грамотно

Пример файла robots.txt:

User-agent: Googlebot Allow: / Crawl-delay: 1 User-agent: Bingbot Allow: / Crawl-delay: 1 User-agent: ClaudeBot Disallow: / User-agent: meta-externalagent Disallow: /private/ User-agent: SemrushBot Disallow: / User-agent: * Allow: / Crawl-delay: 2
2. Используйте более умные методы защиты
  • Rate limiting на уровне Nginx/Apache.
  • CAPTCHA на критических формах.
  • Динамические токены для API.
  • Мониторинг через fail2ban или WAF.
3. Разделяйте ботов на классы
  • Дружественные — Google, Bing, Yandex — максимум 10–20 запросов в секунду.
  • Нейтральные — архиваторы (Wayback Machine), RSS-ридеры.
  • Враждебные — парсеры, SEO-шпионы, агрессивные AI-боты.
4. Проверяйте IP перед блокировкой

Многие боты используют динамические IP. Лучше блокировать по User-Agent + поведению, а не по IP.


Особое мнение

ИИ-боты — это новый вид паразитизма. ClaudeBot, GPTBot (OpenAI), Meta AI крадут ваш контент, перерабатывают его в свои модели и продают доступ к нему же. Вы не получаете ни трафика, ни ссылок, ни денег. Я рекомендую блокировать всех AI-ботов, пока не появится система лицензирования или отчислений.

SemrushBot — бесполезный пожиратель ресурсов. Он не приносит вам посетителей, только нагружает сервер и помогает конкурентам. Заблокируйте без раздумий.

Googlebot и Bingbot — священная корова. Их блокировать нельзя, но ограничивать — обязательно. Иначе ваш сервер ляжет под их же «заботой».

Опубликовано: