Топ-20 ботов для блокировки на сайте
В эпоху цифровизации веб-ресурсы сталкиваются не только с реальными посетителями, но и с целыми армиями автоматизированных ботов. Некоторые из них полезны — например, поисковые краулеры Google или Bing, индексирующие страницы для выдачи. Но существует и другая категория — вредоносные боты, которые могут:
- замедлять работу сайта;
- воровать контент;
- собирать личные данные пользователей;
- искать уязвимости в системе безопасности.
Блокировка таких ботов — важная часть защиты сайта, SEO и серверных ресурсов. Ниже представлен топ-20 вредоносных ботов, которые стоит ограничить с помощью .htaccess, firewall или плагинов безопасности.
1. AhrefsBot
Несмотря на то что Ahrefs используется для SEO-аналитики, его бот часто интенсивно сканирует сайты, перегружая сервер. Если вы не пользуетесь сервисом — лучше ограничить.
User-Agent: AhrefsBot
Рекомендация: блокировать через robots.txt или брандмауэр.
2. MJ12bot
Старый краулер от Majestic. Часто игнорирует инструкции robots.txt и сильно нагружает сайт.
User-Agent: MJ12bot
Рекомендация: блокировка на уровне сервера.
3. SemrushBot
SEO-сканер от Semrush. Как и AhrefsBot, может вызывать избыточный трафик.
User-Agent: SemrushBot
Рекомендация: блокировать или ограничивать частоту запросов.
4. DotBot
Используется различными SEO-агрегаторами. Часто фиксируется в логах как источник DDoS-подобных нагрузок.
User-Agent: DotBot
5. CensysInspect
Сканер от Censys, часто используемый для автоматического поиска открытых портов, SSL-сертификатов и уязвимых конфигураций. Он регулярно обходит сайты в поисках информации, которую могут использовать как исследователи, так и злоумышленники.
User-Agent: CensysInspect
Рекомендация: блокировать через firewall или .htaccess, если вы не хотите, чтобы ваш сайт появлялся в публичных индексах Censys.
6. ZoominfoBot
Коммерческий бот, который собирает информацию о компаниях, контактные данные и структуру страниц. Нередко он игнорирует robots.txt и может перегружать сайт массовыми запросами.
User-Agent: ZoominfoBot
Рекомендация: ограничить или заблокировать, особенно если ваш сайт не рассчитан на корпоративные базы данных.
7. Scrapy
Фреймворк для автоматического парсинга сайтов. Часто используется для массового воровства контента.
User-Agent: Scrapy
8. python-requests
Библиотека Python, часто применяемая в скриптах для брутфорса, парсинга или фишинга.
User-Agent: python-requests
9. curl / wget
Инструменты командной строки для скачивания страниц. Часто применяются злоумышленниками для автоматических атак.
User-Agent: curl, Wget
10. LinkpadBot
Российский краулер, известный агрессивным индексированием.
User-Agent: LinkpadBot
11. BLEXBot
Краулер SEO-платформы Lexxe. Часто игнорирует правила robots.txt.
User-Agent: BLEXBot
12. SeznamBot
Чешский поисковый бот, который может генерировать ненужный трафик, если вы не работаете на европейском рынке.
User-Agent: SeznamBot
13. OpenLinkProfiler
Инструмент анализа ссылок. Часто загружает сайт чрезмерным количеством запросов.
User-Agent: spbot, OpenLinkProfiler
14. SiteExplorer
Используется различными SEO-сервисами, может вести себя агрессивно.
User-Agent: SiteExplorer
15. XoviBot
Немецкий SEO-краулер. При высокой частоте сканирования может замедлять работу сайта.
User-Agent: XoviBot
16. Cliqzbot
Агрессивный краулер, иногда работает как прокси для сбора данных.
User-Agent: Cliqzbot
17. archive.org_bot / ia_archiver
Бот «Интернета Архива». Может массово загружать контент и кэшировать приватные страницы.
User-Agent: ia_archiver, archive.org_bot
Рекомендация: запрещать доступ к административным и личным зонам сайта.
18. Screaming Frog SEO Spider
Популярный десктопный SEO-инструмент. Если кто-то запускает его против вашего сайта без разрешения, вы увидите лавину запросов.
User-Agent: Screaming Frog SEO Spider
19. masscan / sqlmap
Инструменты хакеров для сканирования портов и поиска уязвимостей.
User-Agent: часто отсутствует или маскируется → фильтровать по поведению и IP.
20. Неизвестные User-Agents
Многие вредоносные скрипты не указывают User-Agent вовсе или используют случайные строки. Такие запросы нужно блокировать через WAF или правила сервера.
Таблица с вредоносными и агрессивными ботами, их типичными User-Agent и примерными IP-адресами/диапазонами, с которых они часто приходят. (IP могут меняться, поэтому важно периодически сверять логи и обновлять список.)
| № | Бот / Название | User-Agent (пример) | Примерные IP / диапазоны | Тип активности |
|---|---|---|---|---|
| 1 | AhrefsBot | AhrefsBot |
54.36.148.0/24 (OVH), 167.114.0.0/16 | SEO-скан, высокая нагрузка |
| 2 | MJ12bot | MJ12bot |
5.45.207.0/24, 94.198.41.0/24 | Массовый краулинг |
| 3 | SemrushBot | SemrushBot |
185.191.171.0/24 | SEO-скан, парсинг ссылок |
| 4 | DotBot | DotBot |
38.99.82.0/24, 64.246.165.0/24 | Агрессивный SEO-парсинг |
| 5 | CensysInspect | CensysInspect |
162.142.125.0/24, 167.248.133.0/24 | Скан SSL/портов, индексирование |
| 6 | ZoominfoBot | ZoominfoBot |
3.214.0.0/16 (AWS), 52.87.0.0/16 | Сбор бизнес-информации |
| 7 | Scrapy | Scrapy/2.x |
Разнородные IP (VPN, хостинги) | Парсинг контента |
| 8 | python-requests | python-requests/2.x |
Разнородные (часто VPS) | Брутфорс, парсинг, атаки |
| 9 | curl / wget | curl/7.x, Wget/1.x |
VPS, прокси, Tor | Скачивание страниц, скрипты |
| 10 | LinkpadBot | LinkpadBot |
185.22.60.0/24 | Агрессивный SEO-краулер |
| 11 | BLEXBot | BLEXBot/1.x |
54.36.148.0/24 (OVH) | Массовое индексирование |
| 12 | SeznamBot | SeznamBot/3.x |
77.75.74.0/24 | Чешский поисковик |
| 13 | OpenLinkProfiler | spbot, OpenLinkProfiler |
144.76.0.0/16 (Hetzner) | Анализ ссылок |
| 14 | SiteExplorer | SiteExplorer/1.x |
89.248.172.0/24 | SEO-сканер |
| 15 | XoviBot | XoviBot |
185.191.171.0/24 | SEO-сканер |
| 16 | Cliqzbot | Cliqzbot |
91.108.184.0/24 | Сбор данных, прокси |
| 17 | ia_archiver | ia_archiver, archive.org_bot |
207.241.224.0/20 | Архивирование контента |
| 18 | Screaming Frog | Screaming Frog SEO Spider |
Разнородные IP (ПК пользователей) | Массовый краулинг вручную |
| 19 | masscan / sqlmap | — | 45.155.204.0/24, 103.0.0.0/8 | Сканеры уязвимостей |
| 20 | Неизвестные UA | пустой / случайный User-Agent | Часто из VPN, Tor | Скрипты, фишинг, атаки |
Примечания:
- AWS, OVH, Hetzner и другие крупные дата-центры часто используются ботами — стоит фильтровать по поведению, а не только по IP.
- Если ваш сайт обслуживает глобальную аудиторию, не блокируйте поисковые боты бездумно — можно ограничить частоту (rate limiting).
- Для надежной защиты используйте:
- Firewall уровня сервера (iptables / CSF / WAF)
- Cloudflare с фильтрацией User-Agent и ASN
- Fail2Ban для автоматической блокировки по логам
Как блокировать вредоносных ботов
Вот пример правила для .htaccess (Apache):
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (AhrefsBot|MJ12bot|SemrushBot|Baiduspider|DotBot) [NC]
RewriteRule .* - [F,L]
</IfModule>
Для NGINX:
if ($http_user_agent ~* (AhrefsBot|MJ12bot|SemrushBot|Baiduspider|DotBot)) {
return 403;
}
Также можно использовать:
- плагины безопасности (Wordfence, Sucuri, iThemes Security);
- firewall уровня хостинга;
- CDN-сервисы вроде Cloudflare с фильтрацией User-Agent.
Вредоносные и агрессивные боты — это не абстрактная угроза, а ежедневная нагрузка на ваши серверы и риски для безопасности. Настроив блокировки для популярных «тяжелых» краулеров и подозрительных User-Agents, вы:
- уменьшите нагрузку на хостинг;
- ускорите сайт;
- защитите контент от несанкционированного парсинга;
- закроете потенциальные лазейки для атак.
Регулярно анализируйте логи и обновляйте списки блокировки — ландшафт вредоносных ботов постоянно меняется.
