Компьютеры и нейросети

Топ-20 ботов для блокировки на сайте

В эпоху цифровизации веб-ресурсы сталкиваются не только с реальными посетителями, но и с целыми армиями автоматизированных ботов. Некоторые из них полезны — например, поисковые краулеры Google или Bing, индексирующие страницы для выдачи. Но существует и другая категория — вредоносные боты, которые могут:

  • замедлять работу сайта;
  • воровать контент;
  • собирать личные данные пользователей;
  • искать уязвимости в системе безопасности.

Блокировка таких ботов — важная часть защиты сайта, SEO и серверных ресурсов. Ниже представлен топ-20 вредоносных ботов, которые стоит ограничить с помощью .htaccess, firewall или плагинов безопасности.

1. AhrefsBot

Несмотря на то что Ahrefs используется для SEO-аналитики, его бот часто интенсивно сканирует сайты, перегружая сервер. Если вы не пользуетесь сервисом — лучше ограничить.

User-Agent: AhrefsBot
Рекомендация: блокировать через robots.txt или брандмауэр.

2. MJ12bot

Старый краулер от Majestic. Часто игнорирует инструкции robots.txt и сильно нагружает сайт.

User-Agent: MJ12bot
Рекомендация: блокировка на уровне сервера.

3. SemrushBot

SEO-сканер от Semrush. Как и AhrefsBot, может вызывать избыточный трафик.

User-Agent: SemrushBot
Рекомендация: блокировать или ограничивать частоту запросов.

4. DotBot

Используется различными SEO-агрегаторами. Часто фиксируется в логах как источник DDoS-подобных нагрузок.

User-Agent: DotBot

5. CensysInspect

Сканер от Censys, часто используемый для автоматического поиска открытых портов, SSL-сертификатов и уязвимых конфигураций. Он регулярно обходит сайты в поисках информации, которую могут использовать как исследователи, так и злоумышленники.

User-Agent: CensysInspect
Рекомендация: блокировать через firewall или .htaccess, если вы не хотите, чтобы ваш сайт появлялся в публичных индексах Censys.

6. ZoominfoBot

Коммерческий бот, который собирает информацию о компаниях, контактные данные и структуру страниц. Нередко он игнорирует robots.txt и может перегружать сайт массовыми запросами.

User-Agent: ZoominfoBot
Рекомендация: ограничить или заблокировать, особенно если ваш сайт не рассчитан на корпоративные базы данных.

7. Scrapy

Фреймворк для автоматического парсинга сайтов. Часто используется для массового воровства контента.

User-Agent: Scrapy

8. python-requests

Библиотека Python, часто применяемая в скриптах для брутфорса, парсинга или фишинга.

User-Agent: python-requests

9. curl / wget

Инструменты командной строки для скачивания страниц. Часто применяются злоумышленниками для автоматических атак.

User-Agent: curl, Wget

10. LinkpadBot

Российский краулер, известный агрессивным индексированием.

User-Agent: LinkpadBot

11. BLEXBot

Краулер SEO-платформы Lexxe. Часто игнорирует правила robots.txt.

User-Agent: BLEXBot

12. SeznamBot

Чешский поисковый бот, который может генерировать ненужный трафик, если вы не работаете на европейском рынке.

User-Agent: SeznamBot

13. OpenLinkProfiler

Инструмент анализа ссылок. Часто загружает сайт чрезмерным количеством запросов.

User-Agent: spbot, OpenLinkProfiler

14. SiteExplorer

Используется различными SEO-сервисами, может вести себя агрессивно.

User-Agent: SiteExplorer

15. XoviBot

Немецкий SEO-краулер. При высокой частоте сканирования может замедлять работу сайта.

User-Agent: XoviBot

16. Cliqzbot

Агрессивный краулер, иногда работает как прокси для сбора данных.

User-Agent: Cliqzbot

17. archive.org_bot / ia_archiver

Бот «Интернета Архива». Может массово загружать контент и кэшировать приватные страницы.

User-Agent: ia_archiver, archive.org_bot
Рекомендация: запрещать доступ к административным и личным зонам сайта.

18. Screaming Frog SEO Spider

Популярный десктопный SEO-инструмент. Если кто-то запускает его против вашего сайта без разрешения, вы увидите лавину запросов.

User-Agent: Screaming Frog SEO Spider

19. masscan / sqlmap

Инструменты хакеров для сканирования портов и поиска уязвимостей.

User-Agent: часто отсутствует или маскируется → фильтровать по поведению и IP.

20. Неизвестные User-Agents

Многие вредоносные скрипты не указывают User-Agent вовсе или используют случайные строки. Такие запросы нужно блокировать через WAF или правила сервера.

Таблица с вредоносными и агрессивными ботами, их типичными User-Agent и примерными IP-адресами/диапазонами, с которых они часто приходят. (IP могут меняться, поэтому важно периодически сверять логи и обновлять список.)

Бот / Название User-Agent (пример) Примерные IP / диапазоны Тип активности
1 AhrefsBot AhrefsBot 54.36.148.0/24 (OVH), 167.114.0.0/16 SEO-скан, высокая нагрузка
2 MJ12bot MJ12bot 5.45.207.0/24, 94.198.41.0/24 Массовый краулинг
3 SemrushBot SemrushBot 185.191.171.0/24 SEO-скан, парсинг ссылок
4 DotBot DotBot 38.99.82.0/24, 64.246.165.0/24 Агрессивный SEO-парсинг
5 CensysInspect CensysInspect 162.142.125.0/24, 167.248.133.0/24 Скан SSL/портов, индексирование
6 ZoominfoBot ZoominfoBot 3.214.0.0/16 (AWS), 52.87.0.0/16 Сбор бизнес-информации
7 Scrapy Scrapy/2.x Разнородные IP (VPN, хостинги) Парсинг контента
8 python-requests python-requests/2.x Разнородные (часто VPS) Брутфорс, парсинг, атаки
9 curl / wget curl/7.x, Wget/1.x VPS, прокси, Tor Скачивание страниц, скрипты
10 LinkpadBot LinkpadBot 185.22.60.0/24 Агрессивный SEO-краулер
11 BLEXBot BLEXBot/1.x 54.36.148.0/24 (OVH) Массовое индексирование
12 SeznamBot SeznamBot/3.x 77.75.74.0/24 Чешский поисковик
13 OpenLinkProfiler spbot, OpenLinkProfiler 144.76.0.0/16 (Hetzner) Анализ ссылок
14 SiteExplorer SiteExplorer/1.x 89.248.172.0/24 SEO-сканер
15 XoviBot XoviBot 185.191.171.0/24 SEO-сканер
16 Cliqzbot Cliqzbot 91.108.184.0/24 Сбор данных, прокси
17 ia_archiver ia_archiver, archive.org_bot 207.241.224.0/20 Архивирование контента
18 Screaming Frog Screaming Frog SEO Spider Разнородные IP (ПК пользователей) Массовый краулинг вручную
19 masscan / sqlmap 45.155.204.0/24, 103.0.0.0/8 Сканеры уязвимостей
20 Неизвестные UA пустой / случайный User-Agent Часто из VPN, Tor Скрипты, фишинг, атаки

Примечания:

  • AWS, OVH, Hetzner и другие крупные дата-центры часто используются ботами — стоит фильтровать по поведению, а не только по IP.
  • Если ваш сайт обслуживает глобальную аудиторию, не блокируйте поисковые боты бездумно — можно ограничить частоту (rate limiting).
  • Для надежной защиты используйте:
    • Firewall уровня сервера (iptables / CSF / WAF)
    • Cloudflare с фильтрацией User-Agent и ASN
    • Fail2Ban для автоматической блокировки по логам

Как блокировать вредоносных ботов

Вот пример правила для .htaccess (Apache):

<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (AhrefsBot|MJ12bot|SemrushBot|Baiduspider|DotBot) [NC]
RewriteRule .* - [F,L]
</IfModule>

Для NGINX:

if ($http_user_agent ~* (AhrefsBot|MJ12bot|SemrushBot|Baiduspider|DotBot)) {
    return 403;
}

Также можно использовать:

  • плагины безопасности (Wordfence, Sucuri, iThemes Security);
  • firewall уровня хостинга;
  • CDN-сервисы вроде Cloudflare с фильтрацией User-Agent.

Вредоносные и агрессивные боты — это не абстрактная угроза, а ежедневная нагрузка на ваши серверы и риски для безопасности. Настроив блокировки для популярных «тяжелых» краулеров и подозрительных User-Agents, вы:

  • уменьшите нагрузку на хостинг;
  • ускорите сайт;
  • защитите контент от несанкционированного парсинга;
  • закроете потенциальные лазейки для атак.

Регулярно анализируйте логи и обновляйте списки блокировки — ландшафт вредоносных ботов постоянно меняется.

Показать больше
Подписаться
Уведомление о
guest
0 Комментарий
Первые
Последние Популярные
Встроенные отзывы
Посмотреть все комментарии
Back to top button