如何有效地配置拦截大部分垃圾爬虫及流量

作者:admin 2024-06-04 10:55

指望垃圾爬虫遵守robots.txt协议是太可能的，大多数爬虫可以很快爬趴掉一个小型网站。那么我们只能手动禁止他们。

垃圾爬虫例子

UA	说明
Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/)	Majestic-12是一个用于商业SEO建议目的的分布式爬虫
Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html)	由SEMrush运营的爬虫机器人，该平台提供SEO数据，包括关键字研究和反向链接。
Mozilla/5.0 (compatible; AhrefsBot/6.1; +http://ahrefs.com/robot/)	由Ahrefs运营的爬虫机器人，Ahrefs是一种营销和SEO工具，主要用作反向链接检查器。
Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36	UC收购的一搜，并没有什么用，还密集采集，严重影响性能。
crapy/1.7.3 (+https://scrapy.org)	一个开源爬虫工具
Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com)	一种爬虫程序机器人，可识别电子商务网站，产品名称，价格数据和描述。
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 (compatible; SMTBot/1.0; +http://www.similartech.com/smtbot)	SMTBot，该平台提供SEO数据。疯狂爬取

NGINX下可以采用特征字符屏蔽规则如下

  if ($http_user_agent ~ "Bytespider|SemrushBot|crapy|FeedDemon|DotBot|SMTBot|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|python-requests|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$" ) {
    return 403;
  }

如果您使用的是BT面板之类的自带防火墙

可直接编辑 user-Agent过滤模式添加垃圾爬虫特征符,也可能依据日志时时更新新的规则

APACHE可以在HTACCESS中添加过滤，如

RewriteCond %{HTTP_USER_AGENT} “.*EmbeddedWB.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*QunarBot.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*Windows 98.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “^Mozilla/4.0$”
RewriteRule ^(.*)$ http://google.com/

BT面板全过滤规则

Magento开源商城官网

如何有效地配置拦截大部分垃圾爬虫及流量

相关内容