万维网的信息检索系统【计算机网络】
1.全文檢索搜索與分類目錄搜索
萬維網是一個大規模的、聯機式的信息儲藏所。那么,應當采用什么方法才能找到所需的信息呢?如果已經知道存放該信息的網點,那么只要在瀏覽器的地址(Location)框內鍵入該網點的URL和回車鍵,就可進入該網點。但是,若不知道要找的信息在何網點,那就要使用萬維網的搜索工具。
在萬維網中用來進行搜索的工具叫做搜索引擎(search engine)。搜索引擎的種類很多,但大體上可劃分為兩大類,即全文檢索搜索引擎和分類目錄搜索引擎。
全文檢索搜索引擎是一種純技術型的檢索工具。它的工作原理是通過搜索軟件(例如一種叫做“蜘蛛”或“網絡機器人”的Spider程序)到因特網上的各網站收集信息,找到一個網站后可以從這個網站再鏈接到另一個網站,像蜘蛛爬行一樣。然后按照一定的規則建立一個很大的在線數據庫供用戶查詢。用戶在查詢時只要輸入關鍵詞,就從己經建立的索引數據庫上進行查詢(并不是實時地在因特網上檢索到的信息)。因此很可能有些查到的信息己經是過時的。建立這種索引數據庫的網站必須定期對已建立的數據庫進行更新維護。現在最出名的全文檢索搜索引擎就是Google(谷歌)網站(www.google.com),它搜集的網頁數量超過80億個,圖片超過10億個,在整個搜索引擎市場中占有的份額超過50%。我們接著將介紹Google搜索技術的特點。在中文搜索引擎中,最出名的是百度網站(www.baidu.com) 。
分類目錄搜索引擎并不采集網站的任何信息,而是利用各網站向搜索引擎提交的網站信息時填寫的關鍵詞和網站描述等信息,經過人工審核編輯后,如果認為符合網站登錄的條件,則輸入到分類目錄的數據庫中,供網上用戶查詢。因此,分類目錄搜索也叫做分類網站搜索。分類目錄的好處就是用戶可根據網站設計好的目錄有針對性地逐級查詢所需要的信息,查詢時不需要使用關鍵詞,只需要按照分類(先找大類,再找下面的小類),因而查詢的準確性較好。但分類目錄查詢的結果并不是具體的頁面,而是被收錄網站主頁的URL地址,因而所得到的內容就比較有限。相比之下,全文檢索可以檢索出大量的信息(一次檢索的結果是幾百萬條,甚至是千萬條以上),但缺點是查詢結果不夠準確,往往是羅列出了海量的信息(如上千萬個頁面),使用戶無法迅速找到所需的信息。在分類目錄搜索引擎中最著名的就是雅虎(www.yahoo.com)。國內著名的分類搜索引擎有雅虎中國(cn.yahoo.com)、新浪(www.sina.com)、搜狐(www.sohu.com)、網易(www.163.com)等。
從用戶的角度看,使用這兩種不同的搜索引擎都能夠實現自己查詢信息的目的。但用戶得到的信息的形式并不一樣。全文檢索搜索引擎往往可直接檢索到相關內容的網頁,但分類目錄搜索引擎一般只能檢索到相關信息的網址。為了使用戶能夠更加方便地搜索到有用信息,目前許多網站往往同時具有全文檢索搜索和分類目錄搜索的功能。在因特網上搜索信息需要經驗的積累,要多實踐才能掌握從因特網獲取信息的技巧。
值得注意的是,目前出現了垂直搜索引擎(Vertical Search Engine),它針對某一特點領域、特定人群或某一特點需求提供搜索服務。垂直搜索也是提供關鍵字來進行搜索的,但被放到了一個行業知識的上下文中,返回的結果更傾向于信息、消息、條目等。例如,對買房的人講,他希望查找的是房子的具體供求信息(如面積、地點、價格等),而不是有關房子供求的一般性的論文或新聞、政策等。目前熱門的垂直搜索行業有:購物、旅游、汽車、求職、房產、交友等行業。還有一種元搜索引擎(Meta Search Engine),它把用戶提交的檢索請求發送到多個獨立的搜索引擎上去搜索,并把檢索結果集中統一處理,以統一的格式提供給用戶,因此是搜索引擎之上的搜索引擎。它的主要精力放在提高搜索速度、智能化處理搜索結果、個性化搜索功能的設置和用戶檢索界面的友好性上。元搜索引擎的查全率和查準率都比較高。
2. Google搜索技術的特點
Google的搜索引擎性能優良,因為它使用了先進的硬件和軟件。以往的大多數的搜索引擎是使用少量大型服務器。在訪問高峰期,搜索的速度就會明顯減慢。Google則利用在因特網上相互鏈接的PC來快速查找每個搜索的答案,并且成功地縮短了查找的相應時間。Google的搜索軟件可同時進行許多運算,它的核心技術就是PageRank,譯為網頁排名。 ? ?PageRank對搜索出來的結果按重要性進行排序,這是Google的兩個創始人Larry Page和Sergey Brin共同開發出來的「W-GOGGLE]。由于用戶在有限的時間內,不可能閱讀全部的搜索結果(因為數量往往非常大),而通常僅僅是查閱一下前幾個(或前幾十個)項目。因此用戶希望檢索結果能夠按重要性來排序。但怎樣確定某個頁面的重要性呢?傳統的搜索引擎往往是檢查關鍵字在網頁上出現的頻率。PageRank技術則把整個互聯網當作了一個整體對待,檢查整個網絡鏈接的結構,并確定哪些網頁重要性最高。更具體些,就是如果有很多網站上的鏈接都指向頁面A,那么頁面A就比較重要。PageRank對鏈接的數目進行加權統計一。對來自重要網站的鏈接,其權重也較大。統計鏈接數目的問題是一個二維矩陣相乘的問題,從理淪上講,這種二維矩陣的元素數是網頁數目的平方。對于1億個網頁,這個矩陣就有1億億個元素。這樣大的矩陣相乘,計算量是非常大的。Larry Page和Sergey Brin兩人利用稀疏矩陣計算的技巧,大大的簡化了計算量。他們用迭代的方法解決了這個問題。他們先假定所有網頁的排名是相同的,并且根據此初始值,算出各個網頁的第一次迭代排名,再根據第一次迭代排名算出第二次的排名。他們從理論上證明了不論初始值如何選取,這種算法都保證了網頁排名的估計值能收斂到排名的真實值。這種算法是完全沒有任何人工干預,廠商不可能用金錢購買網頁的排名。Google還要進行超文本匹配分析,以確定哪些網頁與正在執行的特定搜索相關。在綜合考慮整體重要性以及與特定查詢的相關性之后,Google就把最相關、最可靠的搜索結果放在首位。
?
?
參考資料:《計算機網絡》 第六版 謝希仁
總結
以上是生活随笔為你收集整理的万维网的信息检索系统【计算机网络】的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 地平线,已经不把Mobileye当竞争对
- 下一篇: 中国移动老总洗澡