屏蔽不讲robots规则的国外垃圾蜘蛛
生活随笔
收集整理的這篇文章主要介紹了
屏蔽不讲robots规则的国外垃圾蜘蛛
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
我們經常會在網站日志中看到一些莫名其妙的國外蜘蛛,瘋狂的爬取您的網站,設置robots.txt文件都沒有任何用,果斷把這些沒有用大垃圾知識屏蔽啦。
屏蔽不講robots規則的垃圾蜘蛛方法
?
方法一、屏蔽蜘蛛ip
能屏蔽ip當然最好,但往往這些蜘蛛不只一個ip,這個方法效果就沒有那么明顯了。
方法二、在nginx的server字段中屏蔽
//多蜘蛛屏蔽 if ($http_user_agent ~* (baiduspider|googlebot|bing|sogou|yahoo)){ return 503; } //單個蜘蛛屏蔽 if ($http_user_agent ~* baiduspider){ return 503; }該方法比較有效的,推薦使用方法二。
apache屏蔽蜘蛛 下方代碼復制到.htaccess文件
<IfModule mod_rewrite.c> RewriteEngine On #Block spider RewriteCond %{HTTP_USER_AGENT} "SemrushBot|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|curl|perl|Python|Wget|Xenu|ZmEu" [NC] RewriteRule !(^robots\.txt$) - [F] </IfModule>iis屏蔽蜘蛛??web.config
<?xml version="1.0" encoding="UTF-8"?> <configuration><system.webServer><rewrite><rules><rule name="Block spider"><match url="(^robots.txt$)" ignoreCase="false" negate="true" /><conditions><add input="{HTTP_USER_AGENT}" pattern="SemrushBot|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|curl|perl|Python|Wget|Xenu|ZmEu" ignoreCase="true" /></conditions><action type="AbortRequest"/></rule></rules></rewrite></system.webServer> </configuration>總結
以上是生活随笔為你收集整理的屏蔽不讲robots规则的国外垃圾蜘蛛的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SAP采购定价过程-条件技术介绍
- 下一篇: 反省一刻