网页快照(Snapshot)使用的相关研究(萌新向总结)
參考鏈接
- 網頁快照
- 百度快照怎么用
- 如何批量采集獲取百度快照鏈接?
- 教您用百度快照復制文庫中不可復制的內容
- 利用百度快照復制文字
- 用案例的方式告訴seo如何解決百度快照劫持
網頁快照(Snapshot)的相關研究
目錄
1. 前言
2. 什么是網頁快照?
3. 網頁快照的作用是什么?
4. 哪些搜索引擎具有快照功能?
5. 如何使用網頁快照?
6. 關于快照使用技巧
7. 如何獲取指定的網頁快照?
8. 關于自動化的看法?
9. 總結
一、前言 ?
網頁快照是個好工具,無論是對建站人員還是用戶都是很有用的。合理地使用網頁快照,將使自己的上網技能(不是打游戲 O(∩_∩)O~)大大增強,Search-Fu 也是一門手藝/技能,還是要多加練習,讓自己內功上漲,在搜索能力境界上更加強大。
二、什么是網頁快照? ?
首先的問題,什么是網頁快照呢?
先來看一下 百度百科 上是怎么說的吧:
搜索引擎在收錄網頁時,對網頁進行備份,存在自己的服務器緩存里,當用戶在搜索引擎中點擊“網頁快照”鏈接時,搜索引擎將 Spider 系統當時所抓取并保存的網頁內容展現出來,稱為“網頁快照”。
大概的意思就是說:
像百度這樣的搜索引擎,會抓取某個網站的頁面放在自己的服務器里,如果用戶點擊百度快照,百度服務器將返回所抓取的快照內容。
另外:
如果某個網站上刪除一張網頁(等等),那么搜索引擎數據庫中的復制品 —— 網頁快照并不會立刻被刪除,而是要過一段才會被刪除。網頁快照是某個網站過時信息的一個副本,當然這個副本不可能很完整地顯示某個網站的完整頁面(除非它自己的),
三、網頁快照的作用是什么? ?
網頁快照的作用:
- 網頁快照能保留網頁修改前的內容信息。
- 網頁快照能體現蜘蛛爬行網站的頻率。
- 網頁快照能作為現有網站內容和蜘蛛抓取內容的參照。
- 網頁快照能體現網站階段性的內容更新狀況。
- 網頁快照能體現階段搜索引擎信任度。
轉載自 網頁快照 - 百度百科
除此之外:
對于普通人來說,快照能夠快速打開一個加載緩慢的網站,可能這個網站是海外的,訪問速度會比較慢,如果事先某個搜索引擎對其進行了快照,那么直接點擊快照就會快上許多,或者某個網站已經更新了消息,過期消息無法看見,或者頁面失效,快照此時就能幫上大忙。相信如果找到僅有這么一家網站具有想要獲取的資源,但是點擊之后便出現了失效頁面或刪除(等等),這將是一個噩耗。。。
四、哪些搜索引擎具有快照功能 ?
可能不全,但是能夠擁有快照技術的搜索引擎,必定實力不弱的:
- 谷歌(Google)- 網頁快照
- 百度(Baidu)- 百度快照
- 搜狗(sogou)- 快照
- 360(360)- 快照
如果后續,仍有相關搜索引擎具有快照功能,應該會補充一下。
五、如何使用網頁快照? ?
其實很簡單啦,就簡單說一下【水~~ 來。。。】
以百度快照為例:
在搜索框中,鍵入想要搜的內容,回車之后,一般第一條下面就會有個百度快照,點擊一下,就能進入某個網站的快照結果。
如下:
我們可以看到黃色高亮的,標出的就是我們的關鍵字,后面的日期就可以看出快照時間,看來 CSDN 的快照過去挺久的還沒有更新。
B 站的快照,就比較新一點。
六、關于快照使用技巧 ?
快照適合查看文字比較多的網站,圖片比較多的就沒辦法顯示了,很多相關解釋認為可以把快照想象成純文本頁面,但是好像也能加載出一些圖片,這就有點懵了。
用 B 站的快照,來驗證一下:
打開 F12,可以看見實際上都請求了這些圖片,但是都請求失敗了,
單獨摘出來一個:
https://i0.hdslb.com/bfs/archive/979c4b6dd024b28a1f0f3b9ae2c29448aa3e0717.jpg@880w_440h.jpg
嘗試請求一下這個圖片鏈接,顯示結果如下:
??? 盡然還可以請求,看來不是 B 站的問題,是快照的問題。【本來不想扯出去,竟然寫到這就繼續寫吧!】
先看一下 快照 鏈接的請求頭
一眼看過去,Referer 參數 emmmm… ,應該就是你搞事情,Referer 參數對于鏈接正確響應還是很重要的。
將 Referer 頭修改一下:
(⊙o⊙)… 因為它不是 快照使用 的內容,就省略一些。
再次刷新,請求,結果如下:
對比,下面是圖片請求失敗的頁面:
我估摸著,這可能就是所說的 “純文本” 的意思,因為圖片鏈接無法正常訪問,而一般頁面怎么改頭部,還都是能夠顯示網頁主體,而嵌入的圖片等,需要網站 api 所相應的參數,而不是百度的 Referer 這樣的參數就能直接訪問的。
七、如何獲取指定網頁快照 ?
可以直接看這一篇:利用百度快照復制文字
首先要準備你想要的網站的鏈接
比如:http://baijiahao.baidu.com/s?id=1645833616997925349&wfr=spider&for=pc
在某個搜索引擎中,直接鍵入鏈接
點擊快照
進入即可
注意事項:
搜索結果只能是已經收錄過的,已經有快照。搜索引擎也是有節操的,不能什么都爬,都收錄一份【不然會被。。】
據說,對于文檔類有奇效。
八、關于自動化的看法 ?
之前查找資料的時候,發現自動化拼接快照地址,保存下來的例子。突然感覺,好厲害的樣子。那么我也稍稍 研究 一小下 吧:
測試網站:嗶哩嗶哩 (゜-゜)つロ 干杯~-bilibili
百度:
快照鏈接如下:
http://cache.baiducontent.com/c?m=9d78d513d99907e91aac837f7d01d6150e54f1743ca6c7140f91d60d84652b564711f4ba57724b5a889527395ab8482cfdf04165367371eac4dccf0a83b4c86e69ca6623716f9b5c57965cb8cb31759a7ecb0ab2f142f0ba8763cef1cf&p=9e759a46d7c207f617f7c7710f5996&newp=857f861f85cc43ff57ee957f7f648a231610db2151d7d11f6b82c825d7331b001c3bbfb42327110fd9c77d6006a8435cebf23d71330923a3dda5c91d9fb4c57479&user=baidu&fm=sc&query=https%3A//www%2Ebilibili%2Ecom/&qid=c742c2fc000505ef&p1=1
我暈~! 這都啥玩意兒啊?這誰頂得住啊。。。
如果要自動化,我想到辦法就是前面指定鏈接找快照地址的辦法。因為快照直接嵌入在搜索結果頁面中,進行相關提取操作之后,還是可以實現的。
360:
http://c.360webcache.com/c?m=660d5965e6ddfbc4acc64acf27b0a4e2&q=https%3A%2F%2Fwww.bilibili.com%2F&u=https%3A%2F%2Fwww.bilibili.com%2F
還是有個問題的,就是 m 參數不知道,q 后面是請求鏈接。所以直接拼接對我來說不現實(菜是原罪)。解決辦法只能同上。
搜狗
http://snapshot.sogoucdn.com/websnapshot?ie=utf8&url=https://www.bilibili.com/&did=0575016fe303c2dc-9bfb9f3030b1ab56-e0ed1515e1e7fde535fbd6a8f2e09cfb&k=15c3e7c2b9ff9a6a632566c1101637ee&encodedQuery=https://www.bilibili.com/&query=https://www.bilibili.com/&&p=40040100&dp=1&w=01020400&m=0&st=0
也是一堆不知道的,那么方法也是同上吧。
抱歉 打擾了.jpg
九、總結?
誒~ 只是簡單地研究一下怎么使用,背后的技術不是我能觸及的,太高深了。畢竟我是普通用戶,對面提供的服務,我正常使用即可,不用這么費勁,死磕。而且,還是有委曲求全的辦法的。
吐槽一下,好久不寫這樣的博文,好累啊。。。 總想把一件事講講全,講講明白,但是實力不允許。
ヾ(?°?°?)ノ゙ 繼續加油~~!
點我回頂部 ?
?
?
?
?
?
?
?
Fin.
總結
以上是生活随笔為你收集整理的网页快照(Snapshot)使用的相关研究(萌新向总结)的全部內容,希望文章能夠幫你解決所遇到的問題。