Боты на сайте: ИИ-паразиты и SEO-шпионы

Кто стучится в ваш сайт? Разбираем логи: ClaudeBot, Meta, Google, Bing, Semrush. Узнайте цели, нагрузку, риски и получите готовые рекомендации по настройке robots.txt. Особое мнение об ИИ-ботах.

Кто на самом деле стучится в ваш сайт: полный разбор ботов из реальных логов

Вы думаете, ваш сайт читают люди? Отчасти да. Но львиную долю трафика на многих ресурсах создают не люди, а роботы. Они сканируют, индексируют, анализируют, собирают данные для ИИ и следят за вашими обновлениями.

В этом материале мы подробно разберем пять реальных записей из логов сервера mosregdata.ru. Вы узнаете:

кто скрывается за каждым user-agent,
зачем они приходят,
насколько они «легальны»,
что с ними делать владельцу сайта,
и почему игнорировать ботов — опасно.

Структура одной записи

Каждая строка имеет вид:

[время] metric.INFO: {"accept":["*/*"],"user-agent":[...],...} []

Что это значит:

metric.INFO — уровень логирования (информационное сообщение).
JSON-объект — HTTP-заголовки входящего запроса.
[] в конце — пустое тело запроса (боты часто делают GET без тела).

Все боты в этих логах обращались к одному хосту: mosregdata.ru.

1. ClaudeBot (Anthropic) — сбор данных для ИИ

Пример из лога:

[2026-04-12T14:28:22.360442+03:00] metric.INFO: {"user-agent":["Mozilla/5.0... ClaudeBot/1.0; +claudebot@anthropic.com)"],...}

Кто это:
Официальный краулер компании Anthropic, создателя языковой модели Claude (главный конкурент ChatGPT). Бот собирает данные с открытых сайтов для обучения нейросетей.

Что говорит User-Agent:

Mozilla/5.0 — маскировка под обычный браузер (стандартная практика).
ClaudeBot/1.0 — идентификация себя.
+claudebot@anthropic.com — контакт для вопросов.

IP-адрес:216.73.216.126 (проверка показывает — принадлежит Anthropic).

Особенности:

Игнорирует robots.txt? Нет, обычно соблюдает (но не всегда).
Может создавать высокую нагрузку.
Скачивает даже контент под paywall, если он технически доступен.

🔥 Особое мнение:
Anthropic заявляет об «этичном сборе данных». Но этично ли сканировать сайты без явного согласия владельца, а потом продавать подписку на ИИ, который использует эти данные? Многие эксперты считают, что владельцы контента должны получать отчисления.

2. MetaExternalAgent (Facebook / Meta)

Пример:

[2026-04-12T14:08:25.666560+03:00]... "user-agent":["meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)"]

Кто это:
Робот компании Meta (Facebook, Instagram, WhatsApp). Официально используется для:

формирования превью при расшаривании ссылок (og:image, title),
проверки актуальности кэша,
но также — для сбора данных (в том числе для алгоритмов и потенциально для ИИ Meta).

IP:57.141.20.12 (подтвержденная подсеть Meta).

Особенности:

Ходит чаще, чем вы думаете (не только при расшаривании).
Может игнорировать robots.txt, если вы специально не запретите.
В последнее время Meta ужесточила политику, но бот все равно активен.

⚠️ Важно:
Если вы видите много таких запросов, а ваш сайт нигде не шарится — возможно, Meta просто «скармливает» ваш контент своим алгоритмам.

3. Googlebot — классика поиска

Пример:

[2026-04-12T09:33:36.653188+03:00]... "user-agent":["... Googlebot/2.1; +http://www.google.com/bot.html"]

Кто это:
Самый известный бот в мире. Индексирует сайты для поиска Google. Ваш лучший друг (если вы хотите трафик) и главный пожиратель серверных ресурсов (если вы его не ограничиваете).

Маскировка:
User-Agent выглядит как старый Android-смартфон (Nexus 5X, Chrome 146), но в конце честно указано Googlebot/2.1. Это нормально — Googlebot может имитировать мобильные устройства.

IP:66.249.66.1 — официальный диапазон Google.

Что важно:

Googlebot уважает robots.txt и crawl-delay.
Вы можете управлять частотой обхода в Google Search Console.
Игнорировать его нельзя — выпадаете из поиска.

✅ Рекомендация:
Настройте Googlebot отдельно: разрешите /, но ограничьте статические файлы (CSS, JS, изображения).

4. Bingbot (Microsoft)

Пример:

[2026-04-12T09:58:14.660701+03:00]... "user-agent":["... bingbot/2.0; +http://www.bing.com/bingbot.htm"]

Кто это:
Поисковый робот Microsoft Bing (а также Yahoo, DuckDuckGo и других партнеров Bing). Второй по значимости бот в мире (после Google).

Маскировка:
User-Agent имитирует Chrome 116 — стандартный трюк для рендеринга современных страниц.

IP:207.46.13.170 (диапазон Microsoft).

Особенности:

Ходит реже Googlebot, но может быть агрессивнее.
Поддерживает robots.txt и специальные директивы Bing.
Игнорировать не стоит — Bing дает до 10–30% поискового трафика на многих сайтах.

🧠 Факт:
Bingbot также используется для обучения Microsoft Copilot (бывший Bing Chat). Если вы запретите Bingbot — вы можете частично уйти из ИИ Microsoft.

5. SemrushBot — SEO-аналитика

Пример:

[2026-04-12T13:41:13.576986+03:00]... "user-agent":["Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html)"]

Кто это:
Робот Semrush — крупнейшего сервиса SEO-аналитики. Он проверяет позиции сайта, ссылочную массу, структуру, скорость загрузки и т.д.

Маскировка:
Минимальная — честно указывает SemrushBot. IP: 85.208.96.195 (подтвержден Semrush).

Важно понимать:

SemrushBot не индексирует сайт для поиска, а собирает данные для отчетов перед другими пользователями (включая ваших конкурентов).
Он может ходить очень часто (раз в несколько часов).
Некоторые владельцы блокируют его, считая «шпионом».

🔥 Особое мнение:
SemrushBot — паразит с точки зрения малого бизнеса. Он потребляет ваш трафик, нагружает сервер и показывает конкурентам ваши слабые места. При этом вы не получаете ничего взамен.
Моя рекомендация: заблокировать SemrushBot через robots.txt, если вы не пользуетесь их платными услугами.

Сравнительная таблица ботов

Бот	Компания	Цель	Нагрузка	Уважает robots.txt	Стоит ли блокировать
ClaudeBot	Anthropic	Обучение ИИ	Высокая	Да	Зависит от вашей позиции по ИИ
MetaExternalAgent	Meta	Превью + сбор данных	Средняя	Да	Частично (только если нет шеринга)
Googlebot	Индексирование поиска	Огромная	Да	Нет (иначе выпадете из поиска)
Bingbot	Microsoft	Индексирование + ИИ	Высокая	Да	Нет (потеряете трафик)
SemrushBot	Semrush	SEO-аналитика	Средняя	Да	Да, если не пользуетесь Semrush

Общие рекомендации для владельца сайта

1. Настройте `robots.txt` грамотно

Пример файла robots.txt:

User-agent: Googlebot Allow: / Crawl-delay: 1 User-agent: Bingbot Allow: / Crawl-delay: 1 User-agent: ClaudeBot Disallow: / User-agent: meta-externalagent Disallow: /private/ User-agent: SemrushBot Disallow: / User-agent: * Allow: / Crawl-delay: 2

2. Используйте более умные методы защиты

Rate limiting на уровне Nginx/Apache.
CAPTCHA на критических формах.
Динамические токены для API.
Мониторинг через fail2ban или WAF.

3. Разделяйте ботов на классы

Дружественные — Google, Bing, Yandex — максимум 10–20 запросов в секунду.
Нейтральные — архиваторы (Wayback Machine), RSS-ридеры.
Враждебные — парсеры, SEO-шпионы, агрессивные AI-боты.

4. Проверяйте IP перед блокировкой

Многие боты используют динамические IP. Лучше блокировать по User-Agent + поведению, а не по IP.

Особое мнение

ИИ-боты — это новый вид паразитизма. ClaudeBot, GPTBot (OpenAI), Meta AI крадут ваш контент, перерабатывают его в свои модели и продают доступ к нему же. Вы не получаете ни трафика, ни ссылок, ни денег. Я рекомендую блокировать всех AI-ботов, пока не появится система лицензирования или отчислений.

SemrushBot — бесполезный пожиратель ресурсов. Он не приносит вам посетителей, только нагружает сервер и помогает конкурентам. Заблокируйте без раздумий.

Googlebot и Bingbot — священная корова. Их блокировать нельзя, но ограничивать — обязательно. Иначе ваш сервер ляжет под их же «заботой».

Опубликовано: 12.04.2026 15:18:15

Репозитории

@mosregdata

ВКонтакте

@mosregdata

Меню

Боты на сайте: ИИ-паразиты и SEO-шпионы

Структура одной записи

1. ClaudeBot (Anthropic) — сбор данных для ИИ

2. MetaExternalAgent (Facebook / Meta)

3. Googlebot — классика поиска

4. Bingbot (Microsoft)

5. SemrushBot — SEO-аналитика

Сравнительная таблица ботов

Общие рекомендации для владельца сайта

1. Настройте `robots.txt` грамотно

2. Используйте более умные методы защиты

3. Разделяйте ботов на классы

4. Проверяйте IP перед блокировкой

Особое мнение

Популярное на сайте

Репозитории

Telegram

ВКонтакте

Меню

Боты на сайте: ИИ-паразиты и SEO-шпионы

Структура одной записи

1. ClaudeBot (Anthropic) — сбор данных для ИИ

2. MetaExternalAgent (Facebook / Meta)

3. Googlebot — классика поиска

4. Bingbot (Microsoft)

5. SemrushBot — SEO-аналитика

Сравнительная таблица ботов

Общие рекомендации для владельца сайта

1. Настройте robots.txt грамотно

2. Используйте более умные методы защиты

3. Разделяйте ботов на классы

4. Проверяйте IP перед блокировкой

Особое мнение

Популярное на сайте

Репозитории

Telegram

ВКонтакте

1. Настройте `robots.txt` грамотно