python处理词项的停用词_词项邻近 停用词 词干还原
【詞項鄰近】
鄰近操作符(proximity)用于指定查詢中的兩個詞項應該在文檔中互相靠近,靠近程度通常采用兩者之間的詞的個數或者是否同在某個結構單元(如句 子或段落)中出現來衡量。
【停用詞】
一些常見詞在文檔和用戶需求進行匹配時價值并不大, 需要徹底從詞匯表中去除。這些詞稱為停用詞(stop word)。一個常用的生成停用詞表的方法就是將詞項按照文檔集頻率(collection frequency,每個詞項在文檔集中出現的頻率)從高到低排列,然后手工選擇那些語義內容與文檔主題關系不大的高頻詞作為停用詞。停用詞表中的每個詞將在索引過程中被忽略。圖 2-5 給出了一個停用詞表的片段。使用停用詞表可以大大減小系統所需要存儲的倒排記錄表的數目,具體的統計數字可以參見表 5-1。不對停用詞建立索引一般情況下不會對系統造成太大的影響,比如搜索時采用 the 或 by 進行查詢似乎沒有什么意義。但是,對于短語查詢來說情況并非如此,比如短語查詢 President of the United States 中包含兩個停用詞,但是它比查詢President AND “United States”更精確。如果忽略掉 to,那么 flights to London 的意義將會丟失。搜索 Vannevar Bush 的那篇經典文章 As we may think 時,如果將前 3 個單詞都看作停用詞,那么搜索將會很困難,因為系統只返回包含 think 的文章。更為嚴重的是,一些特定的查詢類型會受到更大的影響。比如一些歌名或者著名的詩歌片段可能全部由常用的停用詞組成(如 To be or not?to be,Let It Be,I don’t want to be 等)
在信息檢索系統不斷發展的歷程中,有從大停用詞表(200~300 個詞)到小停用詞表(7~12個詞)最后到不用停用詞的趨勢。Web 搜索引擎通常都不用停用詞表。一些現代 IR 系統更關注如何利用語言的統計特性來更好地處理常見詞問題。對于現代 IR 系統來說,不論是對于索引大小還是查詢處理的時間而言,不去除停用詞所增加的開銷并沒有那么大。
【詞干還原】
出于語法上的要求,文檔中常常會使用詞的不同形態,比如 organize、organizes 和 organizing。另外,語言中也存在大量意義相近的同源詞,比如 democracy、democratic 和 democratization。在很多情況下,如果輸入其中一個詞能返回包含其同源詞的文檔,那么這樣的搜索似乎非常有用。
詞干還原和詞形歸并的目的都是為了減少屈折變化的形式,并且有時會將派生詞轉化為基本形式。比如:am, are, is ? be , ?car, cars, car’s, cars’ ? car?利用上述方式對文本進行映射處理,可以得到類似如下的結果:
The boy’s cars are different colors ?the boy car be differ color
然而,詞干還原(stemming)和詞形歸并(lemmatization)這兩個術語所代表的意義是不同的。前者通常指的是一個很粗略的去除單詞兩端詞綴的啟發式過程,?這個過程也常常包括去除派生詞綴。而詞形歸并通常指利用詞匯表和詞形分析來去除屈折詞綴,從而返回詞的原形或詞典中的詞的過程,返回的結果稱為詞元(lemma) 假如給定詞條 saw。詞干還原過程可能僅返回 s,?而詞形歸并過程將返回 see 或者 saw,當然具體返回哪個詞取決于在當前上下文中 saw 到底是動詞還是名詞。
總結
以上是生活随笔為你收集整理的python处理词项的停用词_词项邻近 停用词 词干还原的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【OS学习笔记】二十 保护模式六:保户模
- 下一篇: Doxygen从零学起———安装和配置