网站首页 / 资讯 / Magento新闻

如何有效地配置拦截大部分垃圾爬虫及流量

作者:admin

指望垃圾爬虫遵守robots.txt协议是太可能的,大多数爬虫可以很快爬趴掉一个小型网站。那么我们只能手动禁止他们。


垃圾爬虫例子

UA说明
Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/)Majestic-12是一个用于商业SEO建议目的的分布式爬虫
Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html)SEMrush运营的爬虫机器人,该平台提供SEO数据,包括关键字研究和反向链接。
Mozilla/5.0 (compatible; AhrefsBot/6.1; +http://ahrefs.com/robot/)Ahrefs运营的爬虫机器人,Ahrefs是一种营销和SEO工具,主要用作反向链接检查器。
Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36UC收购的一搜,并没有什么用,还密集采集,严重影响性能。
crapy/1.7.3 (+https://scrapy.org)一个开源爬虫工具
Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com)一种爬虫程序机器人,可识别电子商务网站,产品名称,价格数据和描述。
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 (compatible; SMTBot/1.0; +http://www.similartech.com/smtbot)SMTBot,该平台提供SEO数据。疯狂爬取

NGINX下可以采用特征字符屏蔽规则 如下

  if ($http_user_agent ~ "Bytespider|SemrushBot|crapy|FeedDemon|DotBot|SMTBot|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|python-requests|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$" ) {
    return 403;
  }

如果您使用的是BT面板之类的自带防火墙

可直接编辑 user-Agent过滤模式添加垃圾爬虫特征符,也可能依据日志时时更新新的规则

APACHE可以在HTACCESS中添加过滤,如

RewriteCond %{HTTP_USER_AGENT} “.*EmbeddedWB.*” [OR]
      RewriteCond %{HTTP_USER_AGENT} “.*QunarBot.*” [OR]
      RewriteCond %{HTTP_USER_AGENT} “.*Windows 98.*” [OR]
      RewriteCond %{HTTP_USER_AGENT} “^Mozilla/4.0$”
      RewriteRule ^(.*)$ http://google.com/



BT面板 全过滤规则

标签: 服务器安全 网站安全
上一篇:MAGENTO2兼容性能力将做极大程度提升
下一篇:延伸作业:那么多的爬虫哪些是有用的?

相关内容

最近更新
相关产品
综合服务邮箱: magento2#foxmail.com