就因为微信误删了几行字 公众号文章能被别家搜到了?
前天世超看到一個帖子說,在 Google 和 Bing能搜到微信公眾號的文章了。
呸,怎么可能。
世超一邊不信,一邊趕緊拿 Google 測試了一下,發(fā)現(xiàn)差評的文章確實有被收錄進去。
嚯,要這樣下去,在百度里搜微信文章是不是也快了?
想必除了世超,很多網(wǎng)友應(yīng)該都挺期待這件事的。畢竟有時候搜資料,在百度和微信之間切來切去還挺麻煩的。
誰想到世超還沒樂呵夠,騰訊馬上就辟謠了:
嗐,搞半天白高興一場。
不過,今天世超還是想就這個 robots 協(xié)議和大家探討一下。
因為說起來你可能不信,我們在百度里前搜不到公眾號文章,后搜不到淘寶商品,都是因為 robots 協(xié)議。
robots 協(xié)議其實很簡單,就是一個放在網(wǎng)站根目錄的文本,它寫明了搜索引擎可以/不可以收錄哪些信息。
微信公眾號的 robots 協(xié)議▼
有人可能會說,原來就是這幾行字害得互聯(lián)網(wǎng)不能互聯(lián)了?不不,這鍋robots 協(xié)議可不背。
robots 協(xié)議原本只是幫助搜索引擎更高效地收錄信息,只不過現(xiàn)在人們用著用著逐漸變了味。
這事還得從上世紀 90 年代初期說起。
在搜索引擎誕生之前,人們要查資料,只能一個個進入相關(guān)網(wǎng)頁,效率非常低下。
后來有了搜索引擎,搜索引擎通過釋放網(wǎng)絡(luò)爬蟲( 也可以叫蜘蛛),抓取各個網(wǎng)頁里的信息,并把這些信息收錄起來供大家查詢,這才極大提高了人們的效率。
但是,那會爬蟲就跟小黑胖一樣,抓取信息來完全不挑食。
不管是沒用的垃圾信息,還是網(wǎng)站重要的內(nèi)部數(shù)據(jù),不分青紅皂白地一頓亂抓,全都要。
這種粗暴的抓法不僅降低了用戶搜到有用信息的效率,還會讓網(wǎng)頁的重要數(shù)據(jù)泄露,服務(wù)器過載無法運行。
所以在 1994 年初,荷蘭有位網(wǎng)絡(luò)工程師提出了 robots 協(xié)議。
就好比賓館房間門上掛著的“ 請勿打擾 ”,“ 歡迎打掃 ”牌子,告訴阿姨哪些房間是可以打掃的。
每個網(wǎng)站的根目錄下也擺著一份 robots 協(xié)議,協(xié)議里告訴爬蟲:哪些東西你可以抓,哪些東西你不能抓。
雖說這個 robots 協(xié)議目前還沒被任何國際組織采納,沒有制約性,只能算個君子協(xié)議:你不聽,就不是個正人君子。
但它畢竟為了幫助搜索爬蟲更有效地抓取對用戶有用的信息,更好促進信息共享。所以在國外不管是早期的 altavista 還是后來的 Google 、必應(yīng),大家也都遵守著這一套協(xié)議。同樣 2012 年 11 月中國互聯(lián)網(wǎng)協(xié)會發(fā)布了《 互聯(lián)網(wǎng)搜索引擎服務(wù)自律公約 》,也規(guī)定了:搜索引擎要遵守網(wǎng)站的robots協(xié)議,但前提是這個robots 協(xié)議是合理的。
這個公約對 12 家發(fā)起單位生效,成員包括百度、騰訊、奇虎 360、搜狗、網(wǎng)易、新浪等。圖源百度百科▼
如今絕大多數(shù)搜索引擎的爬蟲在訪問網(wǎng)站時,第一件事就先讀下網(wǎng)站的 robots 協(xié)議。在了解哪些信息是可以抓取之后,才會行動。比如淘寶的 robots 協(xié)議,雖然只有簡單的 4 行字,但寫明了:百度爬蟲( Baiduspider )不允許( Disallow )抓取任何內(nèi)容( / )。百度爬蟲過來看到協(xié)議后,就算心里難受,也只能啥也不碰馬上離開。
那可能有人說,這既然是君子協(xié)議,會不會有人不當“ 君子 ”呢?當然有,robots 協(xié)議只相當于一個告知書,爬蟲( 背后的人 )可以不聽你的。和大家說兩個違背 robots 協(xié)議的例子。第一個例子是 BE 和 eBay 的糾紛。
BE 是一個提供拍賣信息的聚合網(wǎng)站。它利用爬蟲抓取 eBay 等拍賣網(wǎng)站的商品信息,然后放在自己網(wǎng)站上賺取流量。盡管 eBay 早已寫好了 robots 協(xié)議,告訴 BE 爬蟲不準抓取任何內(nèi)容。但 BE 認為這類拍賣信息都是大眾上傳的,eBay 設(shè)置 robots 協(xié)議不讓自己抓取,不合理啊。
后來法院經(jīng)過多方調(diào)查取證,認為ebay 網(wǎng)站上內(nèi)容屬于私有財產(chǎn),它用 robots 協(xié)議保護私有財產(chǎn)是合理的。最后認定 BE 侵權(quán)。想必大家能看出來,法院判定結(jié)果并不是單純看有沒有違背robots 協(xié)議,最主要還得看這個robots 協(xié)議合不合理。
同樣,還有個例子也證明了這點。大部分人都知道 3Q 大戰(zhàn),但可能沒聽過 360 和百度的“ 3B 大戰(zhàn) ”。
2012 年 8 月 360 搜索剛上線,它抓取了百度旗下的內(nèi)容( 百度知道,貼吧 )并以快照的形式提供給用戶。但是,百度的 robots 協(xié)議寫明了只有部分搜索引擎可以抓取,當中沒包括 360 搜索。也就是說 360 違背了百度 robots 協(xié)議。
圖源百度百科▼
后來百度想了一個法子,只要在 360 搜索中搜到百度相關(guān)網(wǎng)站,點擊后就會跳轉(zhuǎn)到百度搜索引擎網(wǎng)站。再到后來他們鬧上了法庭。
這件事去年才算正式結(jié)案,判決書大概有一萬多字吧,可把世超看了好一會。不管是 360 把百度快照提供給用戶,還是百度的跳轉(zhuǎn)措施,這些操作法院都進行了相應(yīng)的判決,但是跟我們文章沒太大關(guān)系。世超只在這里說下:對于 360 搜索違背百度 robots 協(xié)議的抓取行為,是怎么判定的。首先 360 在 2012 年 8 月違背 robots 協(xié)議是有不合理在先,但是同年 11 月發(fā)布了《 自律條約》。
條約可是規(guī)定了robots 協(xié)議限制搜索引擎得有正當理由:比如為了保護敏感信息、公眾利益或者維持網(wǎng)站正常運行。但百度限制 360 搜索抓取的內(nèi)容,既不是重要敏感信息,被抓取了也不會讓百度不能運行了或者損害了公共利益。。
這就可以判定百度沒有正當理由拒絕 360 抓取,360 的抓取行為也并非不正當競爭行為。
所以啊,不是寫了 robots 協(xié)議就一定在理,你這個協(xié)議首先得合理才行。但關(guān)鍵是,這個合理的界限有時候不是很好定。。比如現(xiàn)在不少互聯(lián)網(wǎng)公司用 robots 協(xié)議阻止搜索引擎收錄,限制了信息分享。你說他們是在合理設(shè)置 robots 也沒錯,畢竟是為了保護自己的數(shù)據(jù)權(quán)益。但這是不是和互聯(lián)網(wǎng)的初衷背道而馳了呢。。
就拿世超自己經(jīng)歷來講。之前寫個反詐騙的文章,百度查了大半天資料不夠,差點放棄。后來在微信里搜,才在一家公眾號文章上找到相關(guān)資料。最后要找視頻作為動圖素材,我又跑去短視頻平臺。。要知道曾幾何時,我們明明可以很輕易的查詢到信息,現(xiàn)在因為各大網(wǎng)站的 robots 協(xié)議變成了如此困難。。
更諷刺的是, robots 協(xié)議原本做出來只是為了提高爬蟲效率,更好地促進信息流動的。。這是不是有點變味了。。
總結(jié)
以上是生活随笔為你收集整理的就因为微信误删了几行字 公众号文章能被别家搜到了?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 刀山火海是谁写的呢?
- 下一篇: 梦见与死人说话是什么预兆