搜索引擎蜘蛛给网站带来的危害,有效指引爬虫对应的措施(最准确搜索引擎蜘蛛名称)...
生活随笔
收集整理的這篇文章主要介紹了
搜索引擎蜘蛛给网站带来的危害,有效指引爬虫对应的措施(最准确搜索引擎蜘蛛名称)...
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
原創(chuàng)作品,允許轉(zhuǎn)載,轉(zhuǎn)載時請務(wù)必以超鏈接形式標明文章 原始出處 、作者信息和本聲明。否則將追究法律責(zé)任。http://jimmyli.blog.51cto.com/3190309/1183766搜索引擎蜘蛛給網(wǎng)站帶來的危害,有效指引爬蟲對應(yīng)的措施(最準確搜索引擎蜘蛛名稱)
簡要:
1.搜索引擎爬蟲的危害,蜘蛛對網(wǎng)站的負面影響。
2.有效指引搜索引擎對應(yīng)的措施,及解決方法。
3.收集最新最準確各大搜索引擎蜘蛛名稱。一、搜索引擎的蜘蛛,是不是爬得越多越好?
? ? ?當(dāng)然不是!不論什么搜索引擎的爬蟲,來抓取你網(wǎng)站的頁面的時候,肯定在消耗你的網(wǎng)站資源,例如網(wǎng)站的連接數(shù)、網(wǎng)絡(luò)帶寬資源(空間流量)、服務(wù)器的負載。
另外,搜索引擎的爬蟲來抓取你的頁面數(shù)據(jù)后,它也不一定收用數(shù)據(jù)。只代表它“到此一游”留下痕跡而已。因此你的網(wǎng)站為它“服務(wù)過、接待過”。對于一個原創(chuàng)內(nèi)容豐富,URL結(jié)構(gòu)合理易于爬取的網(wǎng)站來說,簡直就是各種爬蟲的盤中大餐,很多網(wǎng)站的訪問流量構(gòu)成當(dāng)中,爬蟲帶來的流量要遠遠超過真實用戶訪問流量,甚至爬蟲流量要高出真實流量一個數(shù)量級。像提高網(wǎng)站有效利用率雖然設(shè)置了相當(dāng)嚴格的反爬蟲策略,但是網(wǎng)站處理的動態(tài)請求數(shù)量仍然是真實用戶訪問流量的2倍。可以肯定的說,當(dāng)今互聯(lián)網(wǎng)的網(wǎng)絡(luò)流量至少有2/3的流量爬蟲帶來的。因此反爬蟲是一個值得網(wǎng)站長期探索和解決的問題。搜索引擎的主要工作流程(圖)
1.網(wǎng)站有限的帶寬資源,而爬蟲的量過多,導(dǎo)致正常用戶訪問緩慢。
例如,原本虛擬主機主機的連接數(shù)受限,帶寬資源也是有限。這種情況搜索引擎爬蟲受影響呈現(xiàn)更明顯。
不論是實際生產(chǎn)監(jiān)控,還是網(wǎng)友反映,部分搜索引擎爬蟲可用幾個詞來形容“壞蜘蛛”“惡爬蟲”。很多討論搜索引擎相關(guān)的文章,已經(jīng)將它們列過排行榜。有興趣的可更多了解它。百度蜘蛛工作圖3.與網(wǎng)站主題不相關(guān)的搜索引擎爬蟲消耗資源。
例如,典型的例子搜索引擎“一淘網(wǎng)蜘蛛(EtaoSpider)為一淘網(wǎng)抓取工具。”被各大電子商務(wù)購物網(wǎng)站屏蔽。拒絕一淘網(wǎng)抓取其商品信息及用戶產(chǎn)生的點評內(nèi)容。被禁止的原因首先應(yīng)該是它們之間沒有合作互利的關(guān)系,還有就是EtaoSpider爬蟲是一個抓取最瘋狂的蜘蛛。統(tǒng)計發(fā)現(xiàn)EtaoSpider爬蟲的一天爬行量比“百度蜘蛛:Baiduspider”“360蜘蛛:360Spider”“SOSO蜘蛛:Sosospider”等主流蜘蛛爬蟲多幾倍,并且是遠遠的多。重點是EtaoSpider被抓取只會消耗你的網(wǎng)站資源,它不會給你帶來訪問量,或者其它對你有利用的。中文成語詞典可用一個詞來形容,這個詞留給大家想吧。4.一些搜索引擎開發(fā)程序員,它們寫的爬蟲程序在測試爬行。你懂的...5.robots.txt文件不是萬能!
肯定有很多人認為,在robots.txt設(shè)置屏蔽搜索引擎爬蟲即可,或者允許某些特定的搜索引擎爬蟲,能達到你預(yù)想效果。
不錯正規(guī)的搜索引擎會遵守規(guī)則,且不會及時生效。實際中某些蜘蛛往往不是這樣的,先掃描抓取你的頁面,無視你的robots.txt。也可能它抓取后不一定留用;或者它只是統(tǒng)計信息,收集互聯(lián)網(wǎng)行業(yè)趨勢分析統(tǒng)計。6.還有一種它們不是蜘蛛,但其有蜘蛛的特性。例如采集軟件,采集程序,網(wǎng)絡(luò)掃描e-mail地址的工具,各式各樣的SEO分析統(tǒng)計工具,千奇百怪的網(wǎng)站漏洞掃描工具,等等,只有你想不到的工具,沒有它做不到的...二、有效指引搜索引擎對應(yīng)的措施,及解決方法:
1.依據(jù)空間流量實際情況,就保留幾個常用的屏蔽掉其它蜘蛛以節(jié)省流量。以暫時空間流量還足夠使用,先保證正常瀏覽器優(yōu)先。
2.從服務(wù)器防火墻iptable直接屏蔽蜘蛛IP段、詳細的IP。這是最直接、有效的屏蔽方法。
3.WWW服務(wù)器層面做限制。例如Nginx,Squid,Lighttpd,直接通過“http_user_agent”屏蔽搜索引擎爬蟲。
4.最后robots.txt文件做限制。搜索引擎國際規(guī)則還是要遵循規(guī)則的,讓robots.txt明示公布于眾。
根據(jù)線上空間的訪問日志來整理常見的蜘蛛名稱,不求最全,但力求爬蟲信息資料最新最準確。以下搜索引擎蜘蛛名稱都是根據(jù)線上空間日志親手提取。
各種搜索引擎的蜘蛛爬蟲會不斷地訪問抓取我們站點的內(nèi)容,也會消耗站點的一定流量,有時候就需要屏蔽某些蜘蛛訪問我們的站點。
其實有效常用的搜索引擎就那么幾個,只要在robots.txt文件里把常用的幾個搜索引擎蜘蛛允許放行就好了,其它的爬蟲統(tǒng)統(tǒng)通過通配符(*)禁止掉,屏蔽某些蜘蛛。現(xiàn)況:
從網(wǎng)上獲取的搜索引擎蜘蛛名稱,幾乎都是原文復(fù)制粘貼的轉(zhuǎn)載又轉(zhuǎn)載的文章,而且很多的資料都是過期的了,這些舊資料根本就沒修正和更新(實際用處不大),并且關(guān)于蜘蛛名稱、大小寫眾說不一,根本就獲取不到一個準確無誤的資料信息。
1、百度蜘蛛:Baiduspider
網(wǎng)上的資料百度蜘蛛名稱有BaiduSpider、baiduspider等,都洗洗睡吧,那是舊黃歷了。百度蜘蛛最新名稱為Baiduspider。日志中還發(fā)現(xiàn)了Baiduspider-p_w_picpath這個百度旗下蜘蛛,查了下資料(其實直接看名字就可以了……),是抓取圖片的蜘蛛。
常見百度旗下同類型蜘蛛還有下面這些:Baiduspider-mobile(抓取wap)、Baiduspider-p_w_picpath(抓取圖片)、Baiduspider-video(抓取視頻)、Baiduspider-news(抓取新聞)。
注:以上百度蜘蛛目前常見的是Baiduspider和Baiduspider-p_w_picpath兩種。2、谷歌蜘蛛:Googlebot
這個爭議較少,但也有說是GoogleBot的。谷歌蜘蛛最新名稱為“compatible; Googlebot/2.1;”。還發(fā)現(xiàn)了Googlebot-Mobile,看名字是抓取wap內(nèi)容的。3、360蜘蛛:360Spider,它是一個很“勤奮抓爬”的蜘蛛。4、SOSO蜘蛛:Sosospider,也可為它頒一個“勤奮抓爬”獎的蜘蛛。5、雅虎蜘蛛:“Yahoo! Slurp China”或者Yahoo!
名稱中帶“Slurp”和空格,名稱有空格robots里名稱可以使用“Slurp”或者“Yahoo”單詞描述,不知道有效無效。6、有道蜘蛛:YoudaoBot,YodaoBot(兩個名字都有,中文拼音少了個U字母讀音差別很大嘎,這都會少?)7、搜狗蜘蛛:Sogou News Spider
搜狗蜘蛛還包括如下這些:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider,
(參考一些網(wǎng)站的robots文件,搜狗蜘蛛名稱可以用Sogou概括,無法驗證不知道有沒有效)看看最權(quán)威的百度的robots.txt ,http://www.baidu.com/robots.txt 就為Sogou搜狗蜘蛛費了不少字節(jié),占了一大塊領(lǐng)地。
“Sogou web spider;Sogou inst spider;Sogou spider2;Sogou blog;Sogou News Spider;Sogou Orion spider”目前6個,名稱都帶空格。線上常見"Sogou web spider/4.0" ;"Sogou News Spider/4.0" ;"Sogou inst spider/4.0" 可以為它頒個“占名為王”獎。8、MSN蜘蛛:msnbot,msnbot-media(只見到msnbot-media在狂爬……)9、必應(yīng)蜘蛛:bingbot
線上(compatible; bingbot/2.0;)10、一搜蜘蛛:YisouSpider11、Alexa蜘蛛:ia_archiver12、宜搜蜘蛛:EasouSpider13、即刻蜘蛛:JikeSpider14、一淘網(wǎng)蜘蛛:EtaoSpider
"Mozilla/5.0 (compatible; EtaoSpider/1.0; http://省略/EtaoSpider)"根據(jù)上述蜘蛛中選擇幾個常用的允許抓取,其余的都可以通過robots屏蔽抓取。如果你暫時空間流量還足夠使用,等流量緊張了就保留幾個常用的屏蔽掉其它蜘蛛以節(jié)省流量。至于那些蜘蛛抓取對網(wǎng)站能帶來有利用的價值,網(wǎng)站的管理者眼睛是雪亮的。另外還發(fā)現(xiàn)了如 YandexBot、AhrefsBot和ezooms.bot這些蜘蛛,據(jù)說這些蜘蛛國外噶,對中文網(wǎng)站用處很小。那不如就節(jié)省下資源。小結(jié):
這次分析了對搜索引擎爬蟲的危害,蜘蛛對網(wǎng)站的負面影響;如何有效指引搜索引擎對應(yīng)的措施,及解決方法;收集來源線上最新最準確各大搜索引擎蜘蛛名稱。
簡要:
1.搜索引擎爬蟲的危害,蜘蛛對網(wǎng)站的負面影響。
2.有效指引搜索引擎對應(yīng)的措施,及解決方法。
3.收集最新最準確各大搜索引擎蜘蛛名稱。一、搜索引擎的蜘蛛,是不是爬得越多越好?
? ? ?當(dāng)然不是!不論什么搜索引擎的爬蟲,來抓取你網(wǎng)站的頁面的時候,肯定在消耗你的網(wǎng)站資源,例如網(wǎng)站的連接數(shù)、網(wǎng)絡(luò)帶寬資源(空間流量)、服務(wù)器的負載。
另外,搜索引擎的爬蟲來抓取你的頁面數(shù)據(jù)后,它也不一定收用數(shù)據(jù)。只代表它“到此一游”留下痕跡而已。因此你的網(wǎng)站為它“服務(wù)過、接待過”。對于一個原創(chuàng)內(nèi)容豐富,URL結(jié)構(gòu)合理易于爬取的網(wǎng)站來說,簡直就是各種爬蟲的盤中大餐,很多網(wǎng)站的訪問流量構(gòu)成當(dāng)中,爬蟲帶來的流量要遠遠超過真實用戶訪問流量,甚至爬蟲流量要高出真實流量一個數(shù)量級。像提高網(wǎng)站有效利用率雖然設(shè)置了相當(dāng)嚴格的反爬蟲策略,但是網(wǎng)站處理的動態(tài)請求數(shù)量仍然是真實用戶訪問流量的2倍。可以肯定的說,當(dāng)今互聯(lián)網(wǎng)的網(wǎng)絡(luò)流量至少有2/3的流量爬蟲帶來的。因此反爬蟲是一個值得網(wǎng)站長期探索和解決的問題。搜索引擎的主要工作流程(圖)
1.網(wǎng)站有限的帶寬資源,而爬蟲的量過多,導(dǎo)致正常用戶訪問緩慢。
例如,原本虛擬主機主機的連接數(shù)受限,帶寬資源也是有限。這種情況搜索引擎爬蟲受影響呈現(xiàn)更明顯。
不論是實際生產(chǎn)監(jiān)控,還是網(wǎng)友反映,部分搜索引擎爬蟲可用幾個詞來形容“壞蜘蛛”“惡爬蟲”。很多討論搜索引擎相關(guān)的文章,已經(jīng)將它們列過排行榜。有興趣的可更多了解它。百度蜘蛛工作圖3.與網(wǎng)站主題不相關(guān)的搜索引擎爬蟲消耗資源。
例如,典型的例子搜索引擎“一淘網(wǎng)蜘蛛(EtaoSpider)為一淘網(wǎng)抓取工具。”被各大電子商務(wù)購物網(wǎng)站屏蔽。拒絕一淘網(wǎng)抓取其商品信息及用戶產(chǎn)生的點評內(nèi)容。被禁止的原因首先應(yīng)該是它們之間沒有合作互利的關(guān)系,還有就是EtaoSpider爬蟲是一個抓取最瘋狂的蜘蛛。統(tǒng)計發(fā)現(xiàn)EtaoSpider爬蟲的一天爬行量比“百度蜘蛛:Baiduspider”“360蜘蛛:360Spider”“SOSO蜘蛛:Sosospider”等主流蜘蛛爬蟲多幾倍,并且是遠遠的多。重點是EtaoSpider被抓取只會消耗你的網(wǎng)站資源,它不會給你帶來訪問量,或者其它對你有利用的。中文成語詞典可用一個詞來形容,這個詞留給大家想吧。4.一些搜索引擎開發(fā)程序員,它們寫的爬蟲程序在測試爬行。你懂的...5.robots.txt文件不是萬能!
肯定有很多人認為,在robots.txt設(shè)置屏蔽搜索引擎爬蟲即可,或者允許某些特定的搜索引擎爬蟲,能達到你預(yù)想效果。
不錯正規(guī)的搜索引擎會遵守規(guī)則,且不會及時生效。實際中某些蜘蛛往往不是這樣的,先掃描抓取你的頁面,無視你的robots.txt。也可能它抓取后不一定留用;或者它只是統(tǒng)計信息,收集互聯(lián)網(wǎng)行業(yè)趨勢分析統(tǒng)計。6.還有一種它們不是蜘蛛,但其有蜘蛛的特性。例如采集軟件,采集程序,網(wǎng)絡(luò)掃描e-mail地址的工具,各式各樣的SEO分析統(tǒng)計工具,千奇百怪的網(wǎng)站漏洞掃描工具,等等,只有你想不到的工具,沒有它做不到的...二、有效指引搜索引擎對應(yīng)的措施,及解決方法:
1.依據(jù)空間流量實際情況,就保留幾個常用的屏蔽掉其它蜘蛛以節(jié)省流量。以暫時空間流量還足夠使用,先保證正常瀏覽器優(yōu)先。
2.從服務(wù)器防火墻iptable直接屏蔽蜘蛛IP段、詳細的IP。這是最直接、有效的屏蔽方法。
3.WWW服務(wù)器層面做限制。例如Nginx,Squid,Lighttpd,直接通過“http_user_agent”屏蔽搜索引擎爬蟲。
4.最后robots.txt文件做限制。搜索引擎國際規(guī)則還是要遵循規(guī)則的,讓robots.txt明示公布于眾。
根據(jù)線上空間的訪問日志來整理常見的蜘蛛名稱,不求最全,但力求爬蟲信息資料最新最準確。以下搜索引擎蜘蛛名稱都是根據(jù)線上空間日志親手提取。
各種搜索引擎的蜘蛛爬蟲會不斷地訪問抓取我們站點的內(nèi)容,也會消耗站點的一定流量,有時候就需要屏蔽某些蜘蛛訪問我們的站點。
其實有效常用的搜索引擎就那么幾個,只要在robots.txt文件里把常用的幾個搜索引擎蜘蛛允許放行就好了,其它的爬蟲統(tǒng)統(tǒng)通過通配符(*)禁止掉,屏蔽某些蜘蛛。現(xiàn)況:
從網(wǎng)上獲取的搜索引擎蜘蛛名稱,幾乎都是原文復(fù)制粘貼的轉(zhuǎn)載又轉(zhuǎn)載的文章,而且很多的資料都是過期的了,這些舊資料根本就沒修正和更新(實際用處不大),并且關(guān)于蜘蛛名稱、大小寫眾說不一,根本就獲取不到一個準確無誤的資料信息。
1、百度蜘蛛:Baiduspider
網(wǎng)上的資料百度蜘蛛名稱有BaiduSpider、baiduspider等,都洗洗睡吧,那是舊黃歷了。百度蜘蛛最新名稱為Baiduspider。日志中還發(fā)現(xiàn)了Baiduspider-p_w_picpath這個百度旗下蜘蛛,查了下資料(其實直接看名字就可以了……),是抓取圖片的蜘蛛。
常見百度旗下同類型蜘蛛還有下面這些:Baiduspider-mobile(抓取wap)、Baiduspider-p_w_picpath(抓取圖片)、Baiduspider-video(抓取視頻)、Baiduspider-news(抓取新聞)。
注:以上百度蜘蛛目前常見的是Baiduspider和Baiduspider-p_w_picpath兩種。2、谷歌蜘蛛:Googlebot
這個爭議較少,但也有說是GoogleBot的。谷歌蜘蛛最新名稱為“compatible; Googlebot/2.1;”。還發(fā)現(xiàn)了Googlebot-Mobile,看名字是抓取wap內(nèi)容的。3、360蜘蛛:360Spider,它是一個很“勤奮抓爬”的蜘蛛。4、SOSO蜘蛛:Sosospider,也可為它頒一個“勤奮抓爬”獎的蜘蛛。5、雅虎蜘蛛:“Yahoo! Slurp China”或者Yahoo!
名稱中帶“Slurp”和空格,名稱有空格robots里名稱可以使用“Slurp”或者“Yahoo”單詞描述,不知道有效無效。6、有道蜘蛛:YoudaoBot,YodaoBot(兩個名字都有,中文拼音少了個U字母讀音差別很大嘎,這都會少?)7、搜狗蜘蛛:Sogou News Spider
搜狗蜘蛛還包括如下這些:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider,
(參考一些網(wǎng)站的robots文件,搜狗蜘蛛名稱可以用Sogou概括,無法驗證不知道有沒有效)看看最權(quán)威的百度的robots.txt ,http://www.baidu.com/robots.txt 就為Sogou搜狗蜘蛛費了不少字節(jié),占了一大塊領(lǐng)地。
“Sogou web spider;Sogou inst spider;Sogou spider2;Sogou blog;Sogou News Spider;Sogou Orion spider”目前6個,名稱都帶空格。線上常見"Sogou web spider/4.0" ;"Sogou News Spider/4.0" ;"Sogou inst spider/4.0" 可以為它頒個“占名為王”獎。8、MSN蜘蛛:msnbot,msnbot-media(只見到msnbot-media在狂爬……)9、必應(yīng)蜘蛛:bingbot
線上(compatible; bingbot/2.0;)10、一搜蜘蛛:YisouSpider11、Alexa蜘蛛:ia_archiver12、宜搜蜘蛛:EasouSpider13、即刻蜘蛛:JikeSpider14、一淘網(wǎng)蜘蛛:EtaoSpider
"Mozilla/5.0 (compatible; EtaoSpider/1.0; http://省略/EtaoSpider)"根據(jù)上述蜘蛛中選擇幾個常用的允許抓取,其余的都可以通過robots屏蔽抓取。如果你暫時空間流量還足夠使用,等流量緊張了就保留幾個常用的屏蔽掉其它蜘蛛以節(jié)省流量。至于那些蜘蛛抓取對網(wǎng)站能帶來有利用的價值,網(wǎng)站的管理者眼睛是雪亮的。另外還發(fā)現(xiàn)了如 YandexBot、AhrefsBot和ezooms.bot這些蜘蛛,據(jù)說這些蜘蛛國外噶,對中文網(wǎng)站用處很小。那不如就節(jié)省下資源。小結(jié):
這次分析了對搜索引擎爬蟲的危害,蜘蛛對網(wǎng)站的負面影響;如何有效指引搜索引擎對應(yīng)的措施,及解決方法;收集來源線上最新最準確各大搜索引擎蜘蛛名稱。
本文出自 “Jimmy Li我站在巨人肩膀上” 博客,請務(wù)必保留此出處http://jimmyli.blog.51cto.com/3190309/1183766
轉(zhuǎn)載于:https://blog.51cto.com/night820/1261842
總結(jié)
以上是生活随笔為你收集整理的搜索引擎蜘蛛给网站带来的危害,有效指引爬虫对应的措施(最准确搜索引擎蜘蛛名称)...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 开机出现“CPU fan error
- 下一篇: 共享内存mmap