Боты на сайте: ИИ-паразиты и SEO-шпионы
Кто стучится в ваш сайт? Разбираем логи: ClaudeBot, Meta, Google, Bing, Semrush. Узнайте цели, нагрузку, риски и получите готовые рекомендации по настройке robots.txt. Особое мнение об ИИ-ботах.
Кто на самом деле стучится в ваш сайт: полный разбор ботов из реальных логов
Вы думаете, ваш сайт читают люди? Отчасти да. Но львиную долю трафика на многих ресурсах создают не люди, а роботы. Они сканируют, индексируют, анализируют, собирают данные для ИИ и следят за вашими обновлениями.
В этом материале мы подробно разберем пять реальных записей из логов сервера mosregdata.ru. Вы узнаете:
- кто скрывается за каждым
user-agent, - зачем они приходят,
- насколько они «легальны»,
- что с ними делать владельцу сайта,
- и почему игнорировать ботов — опасно.
Структура одной записи
Каждая строка имеет вид:
[время] metric.INFO: {"accept":["*/*"],"user-agent":[...],...} []
Что это значит:
- metric.INFO — уровень логирования (информационное сообщение).
- JSON-объект — HTTP-заголовки входящего запроса.
[]в конце — пустое тело запроса (боты часто делаютGETбез тела).
Все боты в этих логах обращались к одному хосту: mosregdata.ru.
1. ClaudeBot (Anthropic) — сбор данных для ИИ
Пример из лога:
[2026-04-12T14:28:22.360442+03:00] metric.INFO: {"user-agent":["Mozilla/5.0... ClaudeBot/1.0; +claudebot@anthropic.com)"],...}Кто это:
Официальный краулер компании Anthropic, создателя языковой модели Claude (главный конкурент ChatGPT). Бот собирает данные с открытых сайтов для обучения нейросетей.
Что говорит User-Agent:
Mozilla/5.0— маскировка под обычный браузер (стандартная практика).ClaudeBot/1.0— идентификация себя.+claudebot@anthropic.com— контакт для вопросов.
IP-адрес:216.73.216.126 (проверка показывает — принадлежит Anthropic).
Особенности:
- Игнорирует
robots.txt? Нет, обычно соблюдает (но не всегда). - Может создавать высокую нагрузку.
- Скачивает даже контент под paywall, если он технически доступен.
🔥 Особое мнение:
Anthropic заявляет об «этичном сборе данных». Но этично ли сканировать сайты без явного согласия владельца, а потом продавать подписку на ИИ, который использует эти данные? Многие эксперты считают, что владельцы контента должны получать отчисления.
2. MetaExternalAgent (Facebook / Meta)
Пример:
[2026-04-12T14:08:25.666560+03:00]... "user-agent":["meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)"]Кто это:
Робот компании Meta (Facebook, Instagram, WhatsApp). Официально используется для:
- формирования превью при расшаривании ссылок (
og:image,title), - проверки актуальности кэша,
- но также — для сбора данных (в том числе для алгоритмов и потенциально для ИИ Meta).
IP:57.141.20.12 (подтвержденная подсеть Meta).
Особенности:
- Ходит чаще, чем вы думаете (не только при расшаривании).
- Может игнорировать
robots.txt, если вы специально не запретите. - В последнее время Meta ужесточила политику, но бот все равно активен.
⚠️ Важно:
Если вы видите много таких запросов, а ваш сайт нигде не шарится — возможно, Meta просто «скармливает» ваш контент своим алгоритмам.
3. Googlebot — классика поиска
Пример:
[2026-04-12T09:33:36.653188+03:00]... "user-agent":["... Googlebot/2.1; +http://www.google.com/bot.html"]Кто это:
Самый известный бот в мире. Индексирует сайты для поиска Google. Ваш лучший друг (если вы хотите трафик) и главный пожиратель серверных ресурсов (если вы его не ограничиваете).
Маскировка:
User-Agent выглядит как старый Android-смартфон (Nexus 5X, Chrome 146), но в конце честно указано Googlebot/2.1. Это нормально — Googlebot может имитировать мобильные устройства.
IP:66.249.66.1 — официальный диапазон Google.
Что важно:
- Googlebot уважает
robots.txtиcrawl-delay. - Вы можете управлять частотой обхода в Google Search Console.
- Игнорировать его нельзя — выпадаете из поиска.
✅ Рекомендация:
Настройте Googlebot отдельно: разрешите/, но ограничьте статические файлы (CSS, JS, изображения).
4. Bingbot (Microsoft)
Пример:
[2026-04-12T09:58:14.660701+03:00]... "user-agent":["... bingbot/2.0; +http://www.bing.com/bingbot.htm"]Кто это:
Поисковый робот Microsoft Bing (а также Yahoo, DuckDuckGo и других партнеров Bing). Второй по значимости бот в мире (после Google).
Маскировка:
User-Agent имитирует Chrome 116 — стандартный трюк для рендеринга современных страниц.
IP:207.46.13.170 (диапазон Microsoft).
Особенности:
- Ходит реже Googlebot, но может быть агрессивнее.
- Поддерживает
robots.txtи специальные директивы Bing. - Игнорировать не стоит — Bing дает до 10–30% поискового трафика на многих сайтах.
🧠 Факт:
Bingbot также используется для обучения Microsoft Copilot (бывший Bing Chat). Если вы запретите Bingbot — вы можете частично уйти из ИИ Microsoft.
5. SemrushBot — SEO-аналитика
Пример:
[2026-04-12T13:41:13.576986+03:00]... "user-agent":["Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html)"]Кто это:
Робот Semrush — крупнейшего сервиса SEO-аналитики. Он проверяет позиции сайта, ссылочную массу, структуру, скорость загрузки и т.д.
Маскировка:
Минимальная — честно указывает SemrushBot. IP: 85.208.96.195 (подтвержден Semrush).
Важно понимать:
- SemrushBot не индексирует сайт для поиска, а собирает данные для отчетов перед другими пользователями (включая ваших конкурентов).
- Он может ходить очень часто (раз в несколько часов).
- Некоторые владельцы блокируют его, считая «шпионом».
🔥 Особое мнение:
SemrushBot — паразит с точки зрения малого бизнеса. Он потребляет ваш трафик, нагружает сервер и показывает конкурентам ваши слабые места. При этом вы не получаете ничего взамен.
Моя рекомендация: заблокировать SemrushBot черезrobots.txt, если вы не пользуетесь их платными услугами.
Сравнительная таблица ботов
| Бот | Компания | Цель | Нагрузка | Уважает robots.txt | Стоит ли блокировать |
|---|---|---|---|---|---|
| ClaudeBot | Anthropic | Обучение ИИ | Высокая | Да | Зависит от вашей позиции по ИИ |
| MetaExternalAgent | Meta | Превью + сбор данных | Средняя | Да | Частично (только если нет шеринга) |
| Googlebot | Индексирование поиска | Огромная | Да | Нет (иначе выпадете из поиска) | |
| Bingbot | Microsoft | Индексирование + ИИ | Высокая | Да | Нет (потеряете трафик) |
| SemrushBot | Semrush | SEO-аналитика | Средняя | Да | Да, если не пользуетесь Semrush |
Общие рекомендации для владельца сайта
1. Настройте robots.txt грамотно
Пример файла robots.txt:
User-agent: Googlebot Allow: / Crawl-delay: 1 User-agent: Bingbot Allow: / Crawl-delay: 1 User-agent: ClaudeBot Disallow: / User-agent: meta-externalagent Disallow: /private/ User-agent: SemrushBot Disallow: / User-agent: * Allow: / Crawl-delay: 22. Используйте более умные методы защиты
- Rate limiting на уровне Nginx/Apache.
- CAPTCHA на критических формах.
- Динамические токены для API.
- Мониторинг через fail2ban или WAF.
3. Разделяйте ботов на классы
- Дружественные — Google, Bing, Yandex — максимум 10–20 запросов в секунду.
- Нейтральные — архиваторы (Wayback Machine), RSS-ридеры.
- Враждебные — парсеры, SEO-шпионы, агрессивные AI-боты.
4. Проверяйте IP перед блокировкой
Многие боты используют динамические IP. Лучше блокировать по User-Agent + поведению, а не по IP.
Особое мнение
ИИ-боты — это новый вид паразитизма. ClaudeBot, GPTBot (OpenAI), Meta AI крадут ваш контент, перерабатывают его в свои модели и продают доступ к нему же. Вы не получаете ни трафика, ни ссылок, ни денег. Я рекомендую блокировать всех AI-ботов, пока не появится система лицензирования или отчислений.
SemrushBot — бесполезный пожиратель ресурсов. Он не приносит вам посетителей, только нагружает сервер и помогает конкурентам. Заблокируйте без раздумий.
Googlebot и Bingbot — священная корова. Их блокировать нельзя, но ограничивать — обязательно. Иначе ваш сервер ляжет под их же «заботой».
Опубликовано:



