语言统计学中的几个定律,可作为设计检索的参考
生活随笔
收集整理的這篇文章主要介紹了
语言统计学中的几个定律,可作为设计检索的参考
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
30定律:出現(xiàn)頻率最高的30個詞占全文本總詞數(shù)的30% 如果剔除150個最高頻率的詞(由于df過大被認為是停用詞):倒排表記錄總個數(shù)會減少25-30% Zipf定律: 在自然語料庫中所有term的freq(頻度)排名和其freq(頻度)的乘積大致是一個常數(shù) freq_NO1 *?1 =?freq_NO2 *?2?=?freq_NO3 *?3?=?freq_NOn * N 那也就是說排名第二多的詞的頻度是第一多的一半,排名第三的詞頻度是第一的1/3,這樣以此類推 heaps定律,在自然語料庫中不重復(fù)term的個數(shù)和語料庫數(shù)據(jù)量成指數(shù)關(guān)系 因為是指數(shù)關(guān)系,可以知道下面幾個特征 1 文檔數(shù)無限增大,不重復(fù)term的個數(shù)也不會趨于一個常數(shù) 2?隨著文檔數(shù)的增加,不重復(fù)term的增長率會有所下降,增長率漸漸趨于平穩(wěn) Benford law:在自然形成的十進制數(shù)據(jù)中,任何一個數(shù)據(jù)的第一個數(shù)字d出現(xiàn)的概率大致log10(1+1/d)
轉(zhuǎn)載于:https://www.cnblogs.com/hdflzh/p/4034622.html
總結(jié)
以上是生活随笔為你收集整理的语言统计学中的几个定律,可作为设计检索的参考的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 年龄和收入对数的线性回归_(CFA教材详
- 下一篇: 第八讲:tapestry组件