如何控制Yahoo! Slurp蜘蛛的抓取频度_国外博客资源站_百度空间
如何控制Yahoo! Slurp蜘蛛的抓取頻度_國外博客資源站_百度空間
如何控制Yahoo! Slurp蜘蛛的抓取頻度2009年08月13日 星期四 5:56上周末豆瓣的阿北給我電話:最近你們雅虎的蜘蛛(Yahoo! Slurp)對豆瓣網(wǎng)的抓取頻度非常高,導(dǎo)致服務(wù)器的速度有些慢,如何才能讓Slurp降低抓取頻度呢? 我首先想到的建議是在網(wǎng)站的robots.txt中增加Crawl-delay: 設(shè)置,這個設(shè)置是目前Slurp獨(dú)有的,用來告訴Slurp蜘蛛2次訪問之間的間隔,單位是秒。 剩下的問題就是Crawl-delay的值該設(shè)置多大,這個要看網(wǎng)站自身可以承受的負(fù)載,假設(shè)你希望Slurp每10秒來訪問一次,這個設(shè)置就是: User-agent: * 我推薦使用 User-agent: * 萬一有其他引擎逐步也支持這個配置呢,而不支持這個配置的引擎也會跳過這句。 可實(shí)際上我從自己網(wǎng)站的日志中看到:Slurp的壓力卻不止10秒一次,原因是這樣:雅虎美國和雅虎中國有2套蜘蛛在運(yùn)行,因此實(shí)際的訪問可能是這樣: 1.1.1.1 30/Jun/2006:00:00:03 Yahoo! Slurp China 每個蜘蛛都是遵循Crawl-delay間隔的,因此為了進(jìn)一步降低Slurp壓力,希望達(dá)到10秒一次請求的頻道 實(shí)際的Crawl-delay配置就要*2。 但是實(shí)際上我看到的雅虎的蜘蛛是分布在很多臺服務(wù)器上的:而多個服務(wù)器集群之間也是不相互協(xié)調(diào)同一網(wǎng)站的抓取頻度的 1.1.1.1 30/Jun/2006:00:00:03 Yahoo! Slurp China 我統(tǒng)計(jì)了一下:Slurp來源于40多個IP網(wǎng)段,同網(wǎng)段內(nèi)的蜘蛛?yún)f(xié)調(diào)抓取頻度。因此:實(shí)際的Slurp設(shè)置,需要設(shè)置為10*40 = 400秒,才能達(dá)到期望的Slurp每10秒訪問一次頻度。 給豆瓣推薦的Crawl-delay: 100 平均2.5秒訪問一次,應(yīng)該沒有問題了。 注:我查了一下Slurp的意思,就是咂吧嘴的聲音,發(fā)音聽著很像在吃面條吧? |
總結(jié)
以上是生活随笔為你收集整理的如何控制Yahoo! Slurp蜘蛛的抓取频度_国外博客资源站_百度空间的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 开放平台_XAuth
- 下一篇: 软区域