博客搜索引擎索引博文数量分析与评估
生活随笔
收集整理的這篇文章主要介紹了
博客搜索引擎索引博文数量分析与评估
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
???????/*版權聲明:可以任意轉載,轉載時請務必標明文章原始出處和作者信息 .*/????????????????????
???????? 博客搜索引擎索引博文數量分析與評估
????????
?????????????? CopyMiddle:張俊林
?????????????? TimeStamp:2007/1/25??????????????????
??
?? 我一直希望能夠通過一種手段統計出目前博客世界的一些情況,比如現在中文博文大約總數有多少。? 比如中國的博客總數有多少,比如博客中的色情狂有多少等等嚴肅的學術問題。出于這個目的,著手進行 調查,本文主要探討中文博文數量的總體估計以及各個博客搜索引擎的索引量的評估。?
??
????? 調查目的:目前各個博客搜索引擎索引博文數量范圍。由此推出可能的中文博文數量;?? 調查方法:抽樣調查法。我自己建立一個小的博客搜索引擎,索引博文5000條,然后 挑選高頻,中頻和低頻的詞匯作為查詢詞匯,看看5000篇文章包含多少相關?文章,然后再和目前博客搜索引擎返回的結果數量對比,由此推算出現有博客搜索引擎的索引量。
???????????????? 這5000篇相當于對博客世界進行抽樣,由于詞匯的分布在語料集合里面基本 符合Zipf分布,所以其在不同大小的語料集合的相對比例是滿足Zipf分布。而其縱向比較基本能夠估算出其索引數量的大小。
?????? 調查范圍:自己的5000數據集;百度博客搜索;奇虎博客搜索;有道博客搜索;souyo博客搜索?????????
????????????????
??????? 示例:
???????????? 這里給出部分查詢的數據對比信息,真實的查詢要大于給出的例子。其中, 橫坐標代表查詢詞,比如“李湘”等代表提交給搜索引擎的查詢詞;縱坐標是搜索引擎;其中數據代表:有多少文章包含這個查詢詞,比如? 第一個5代表我自己的5000數據中有5篇文章包含查詢"李湘".
????????????
????????????
??????????????????? 李湘???????? 黃健翔?????????? 研究生????????? 大學??????????? 李宇春?
????
?????? 5000數據:? 5????????????? 80?????????????? 53???????????? ?452????????????????? 25
??????
?????? 百度:????? 45000????????? 103000????????? 608000?????? 905,000????? 168,000
??????
?????? 奇虎:????? 34775????????? 83886??????????? 456969????? 4,233,610??? 102,117
??????
?????? souyo:????? 1434?????????? 1581???????????? 10060?????? 121149?????? 3032
??????
?????? 有道:?????? 11600??????? 30200??????????? 130100?????? 107萬???????? 3萬7800
??????
???
??? 估算結果:
?????????????????????????????????
??????????????????????
??????? 1.平均來說,查詢奇虎的返回結果大約是我的5000數據集合返回結果的1萬倍左右。所以估計奇虎的索引量
??????? 大約是5000*1萬=5000萬條博文。
??????? 2. 百度:大約6000-7000萬條
??????? 3.有道:大約2000倍左右,5000*2000=1000-1500萬左右索引量
??????? 4. souyo: 大約200-300倍之間:5000*200=100萬-2百萬之間索引量
????????
????????
????
???? 排序:百度》奇虎》有道》souyo
????
????????? 奇虎的索引量大約是百度的80%,有道大約是奇虎的30%,souyo大約是有道的10%-15%
????????????
???
??? 百度一貫多報查詢結果,比如“芭比機器”,返回顯示結果1000條,實際上只有760條。所以適當給百度的數量縮水,其索引數量
??? 應該和奇虎基本相當;也就是說,目前中文博文數量大約是5000萬條左右。
???
????????????????????????? ?
???????? 博客搜索引擎索引博文數量分析與評估
????????
?????????????? CopyMiddle:張俊林
?????????????? TimeStamp:2007/1/25??????????????????
??
?? 我一直希望能夠通過一種手段統計出目前博客世界的一些情況,比如現在中文博文大約總數有多少。? 比如中國的博客總數有多少,比如博客中的色情狂有多少等等嚴肅的學術問題。出于這個目的,著手進行 調查,本文主要探討中文博文數量的總體估計以及各個博客搜索引擎的索引量的評估。?
??
????? 調查目的:目前各個博客搜索引擎索引博文數量范圍。由此推出可能的中文博文數量;?? 調查方法:抽樣調查法。我自己建立一個小的博客搜索引擎,索引博文5000條,然后 挑選高頻,中頻和低頻的詞匯作為查詢詞匯,看看5000篇文章包含多少相關?文章,然后再和目前博客搜索引擎返回的結果數量對比,由此推算出現有博客搜索引擎的索引量。
???????????????? 這5000篇相當于對博客世界進行抽樣,由于詞匯的分布在語料集合里面基本 符合Zipf分布,所以其在不同大小的語料集合的相對比例是滿足Zipf分布。而其縱向比較基本能夠估算出其索引數量的大小。
?????? 調查范圍:自己的5000數據集;百度博客搜索;奇虎博客搜索;有道博客搜索;souyo博客搜索?????????
????????????????
??????? 示例:
???????????? 這里給出部分查詢的數據對比信息,真實的查詢要大于給出的例子。其中, 橫坐標代表查詢詞,比如“李湘”等代表提交給搜索引擎的查詢詞;縱坐標是搜索引擎;其中數據代表:有多少文章包含這個查詢詞,比如? 第一個5代表我自己的5000數據中有5篇文章包含查詢"李湘".
????????????
????????????
??????????????????? 李湘???????? 黃健翔?????????? 研究生????????? 大學??????????? 李宇春?
????
?????? 5000數據:? 5????????????? 80?????????????? 53???????????? ?452????????????????? 25
??????
?????? 百度:????? 45000????????? 103000????????? 608000?????? 905,000????? 168,000
??????
?????? 奇虎:????? 34775????????? 83886??????????? 456969????? 4,233,610??? 102,117
??????
?????? souyo:????? 1434?????????? 1581???????????? 10060?????? 121149?????? 3032
??????
?????? 有道:?????? 11600??????? 30200??????????? 130100?????? 107萬???????? 3萬7800
??????
???
??? 估算結果:
?????????????????????????????????
??????????????????????
??????? 1.平均來說,查詢奇虎的返回結果大約是我的5000數據集合返回結果的1萬倍左右。所以估計奇虎的索引量
??????? 大約是5000*1萬=5000萬條博文。
??????? 2. 百度:大約6000-7000萬條
??????? 3.有道:大約2000倍左右,5000*2000=1000-1500萬左右索引量
??????? 4. souyo: 大約200-300倍之間:5000*200=100萬-2百萬之間索引量
????????
????????
????
???? 排序:百度》奇虎》有道》souyo
????
????????? 奇虎的索引量大約是百度的80%,有道大約是奇虎的30%,souyo大約是有道的10%-15%
????????????
???
??? 百度一貫多報查詢結果,比如“芭比機器”,返回顯示結果1000條,實際上只有760條。所以適當給百度的數量縮水,其索引數量
??? 應該和奇虎基本相當;也就是說,目前中文博文數量大約是5000萬條左右。
???
????????????????????????? ?
總結
以上是生活随笔為你收集整理的博客搜索引擎索引博文数量分析与评估的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 搜索引擎CACHE策略研究
- 下一篇: 互联网大鳄的成长模式