當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Tomcat和搜索引擎网络爬虫的攻防

發(fā)布時間：2023/12/19 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了 Tomcat和搜索引擎网络爬虫的攻防小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

不知道廣大程序員朋友們注意到一個現(xiàn)象么？使用百度是無法搜索到淘寶網(wǎng)的網(wǎng)頁。為什么會造成這種現(xiàn)象？這就要從網(wǎng)絡(luò)爬蟲說起了。

咱們程序員假如自己搭設(shè)個人網(wǎng)站，在上面分享少量自己的技術(shù)文章，面臨的一個重要問題就是讓搜索引擎能夠搜索到自己的個人網(wǎng)站，這樣才能讓更多的讀者訪問到。

而搜索引擎如百度和微軟Bing搜索，Google搜索等通過什么方式才能收錄我們的個人網(wǎng)站呢？

答案是搜索引擎的網(wǎng)絡(luò)爬蟲。網(wǎng)絡(luò)爬蟲是一個很形象的名詞，是屬于搜索引擎的工具，只有被這些網(wǎng)絡(luò)爬蟲“爬過”的內(nèi)容才有機會出現(xiàn)在對應(yīng)搜索引擎的搜索結(jié)果中。

個人站長對網(wǎng)絡(luò)爬蟲是又愛又恨。一方面，網(wǎng)絡(luò)爬蟲可以讓我們的個人網(wǎng)站出現(xiàn)在搜索結(jié)果里，對我們的個人網(wǎng)站進(jìn)行擴散。另一方面，假如網(wǎng)絡(luò)爬蟲太多太頻繁地訪問個人網(wǎng)站，會肯定程度上影響正常使用戶的請求解決。

于是就有了文章開頭我提到的百度搜不到淘寶產(chǎn)品信息的文章。

在瀏覽器里輸入https://www.taobao.com/robots.txt，

能看到淘寶網(wǎng)的一個文件robots.txt:

隨意選一段解釋：這個robots.txt的意思是，淘寶網(wǎng)做出了規(guī)定，假如網(wǎng)絡(luò)請求來自百度爬蟲(Baiduspider), 那么只允許(allow)百度爬蟲讀取article, oshtml和/ershou, 不允許讀取的是product。

User-agent: Baiduspider

Allow: /article

Allow: /oshtml

Allow: /ershou

Disallow: /product/

Disallow: /

那么淘寶網(wǎng)怎樣知道一個請求是來自百度爬蟲，還是來自真正的使用戶訪問呢？答案就是HTTP請求的User-agent字段。

下圖是我使用Chrome訪問淘寶網(wǎng)的HTTP請求的User-agent：

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36

再回到Tomcat。假如有大量來自網(wǎng)絡(luò)爬蟲的讀取請求，Web服務(wù)器需要為每一個請求創(chuàng)立一個session。當(dāng)Session數(shù)量變得巨大時，消耗的服務(wù)器內(nèi)存和資源也是巨大的。

因而，Tomcat對于來自網(wǎng)絡(luò)爬蟲的請求，用同一個session來解決。

我們打開Tomcat的源代碼來學(xué)習(xí)。

Tomcat的源代碼可以到其官網(wǎng)去下載：

https://tomcat.apache.org/download-70.cgi

點這個鏈接：

我下載的是7.0.90版本，只有7MB大。

這里需要注意，即便Spider顯式的傳了一個 sessionId過來，也會棄使用，而是根據(jù)client Ip 來進(jìn)行判斷，即對于相同的 Spider 只提供一個Session。

在下載好的源代碼文件夾里，找到這個子文件夾：\apache-tomcat-7.0.90-src\java\org\apache\catalina\valves

打開CrawlerSessionManagerValve.java：

可以看到從第192行代碼開始都是Tomcat使用來檢測進(jìn)來的網(wǎng)絡(luò)請求能否是網(wǎng)絡(luò)爬蟲：

通過這個類里定義的正則表達(dá)式檢測HTTP請求的user-agent字段來判斷究竟該請求能否來自網(wǎng)絡(luò)爬蟲：

“.[bB]ot.|.Yahoo! Slurp.|.Feedfetcher-Google.”

一旦正則表達(dá)式在第205行匹配成功，將第206行的標(biāo)志位設(shè)成true。

假如檢測到是網(wǎng)絡(luò)爬蟲，則使用clientIdSessionId.get這個API獲取Tomcat專門為網(wǎng)絡(luò)爬蟲預(yù)留的sessionId, 而后在第226行把該sessionId分配到進(jìn)來的網(wǎng)絡(luò)爬蟲請求，這樣就避免了白費太多的資源申請session來服務(wù)海量的網(wǎng)絡(luò)爬蟲請求，節(jié)省了Web服務(wù)器的資源。

要獲取更多Jerry的原創(chuàng)技術(shù)文章，請關(guān)注公眾號"汪子熙"或者掃描下面二維碼:

總結(jié)

以上是生活随笔為你收集整理的Tomcat和搜索引擎网络爬虫的攻防的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：一人之下！特斯拉任命朱晓彤为汽车业务高级
下一篇：暴雪公布《暗黑破坏神 4》游戏上线时间：

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

Tomcat和搜索引擎网络爬虫的攻防

總結(jié)