百度文档搜索与Google文档搜索的简单比较
很多有具有參考價值的資料,比如學生寫論文報告,老師做課件,找工作準備簡歷都需要參考其他人的成果。在互聯網上,這類資料一般不是普通的html網頁,而是以Word、ppt(s)、Excel、pdf等格式存在的。雖然這些文件不象Html文件那樣多,但由于它通常會包含一些別處沒有的數據和資料,因而顯得特別重要。對互聯網上這類資源的挖掘和利用,既是搜索引擎的必備功能,也是網民主要的搜索需求之一。例如,北大的天網搜索就將文件搜索作為與網頁搜索并列的另一功能;百度和搜狗,就為它們的文檔搜索專門建立了一個查詢網頁,百度文檔搜索和搜狗特色功能——文檔查詢;Google和雅虎的高級搜索中也可以限定文檔的類型,并支持網頁搜索中的語法查詢。
查詢方式
百度提供3種方式來搜索文檔,分別是在網頁搜索中使用高級語法——filetype:文檔格式 關鍵詞(或關鍵詞 filetype:文檔格式),在高級搜索中限定搜索網頁格式和進入百度文檔搜索中搜索。Google除了沒有提供專門的文檔搜索頁面之外,另外兩種方式與百度相同。
支持的文檔類型
百度主要支持doc、ppt、xls、pdf、rtf等5種文檔格式的查詢,而Google支持的文檔格式則有doc、ppt、xls、pdf、ps、rtf、xml、rss、txt、wiki、dwf、swf等,可見Google在支持文檔類型上要勝于百度。
檢全率
也就是查詢結果數量,以查詢“電子商務”相關的ppt課件為例,在百度上找到相關網頁約2,760篇,而在Google上約有15,300項符合filetype:ppt 電子商務的查詢結果,Google的結果數量大概是百度的7倍,可見在檢全率上Google也要勝于百度。特別的,如果是查找英文文檔,比如查找“search engine”相關的pdf文獻,Google返回382,000項結果,而百度中只有3,820篇,巧得很,剛好是100倍。
檢準率
也就是查詢結果與關鍵字的相關性與匹配度,同樣以搜索“電子商務”相關的ppt課件為例,下面兩張圖分別是百度和Google搜索結果的第一頁:
百度搜索“電子商務”ppt文檔第一頁結果
Google搜索“電子商務”ppt文檔第一頁結果
從以上結果頁面可看出,從搜索結果的相關性上來看,百度文檔搜索要優于Google文檔搜索,百度對文檔標題的提取能力要強于Google。在Google中搜索出來的文檔,似乎多數是文件名,而不是文章中的標題。
綜上所述,百度文檔搜索與Google文檔搜索各有千秋,在中文文檔的搜索上,百度的相關性更好,但是返回數量略顯不夠;Google雖沒有提供簡單、人性化的文檔搜索頁面,但支持的文檔類型和返回結果數量十分豐富,并且Google在英文文獻的查找上是具有先天的優勢的。
作者/出處:一個叫搜索引擎的家伙
本文地址:http://hi.baidu.com/ccnuzxy/blog/item/adf15b8936a7d3b70e244453.html
轉載于:https://www.cnblogs.com/panliang188/archive/2010/04/27/1722358.html
總結
以上是生活随笔為你收集整理的百度文档搜索与Google文档搜索的简单比较的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 强大js web甘特图制作之甘特图组件和
- 下一篇: 《夜听妓诗》第六句是什么