python文本关联分析_如何对文本内的某个词的关联词进行提取?
簡(jiǎn)單提供幾個(gè)思路。
比較常見(jiàn)的做法是通過(guò)訓(xùn)練詞向量,計(jì)算詞向量的相似度。正如題主所說(shuō)的word2vec就是最常見(jiàn)的是訓(xùn)練詞向量的方法。
word2vec是Google的一個(gè)開(kāi)源工具,通過(guò)將詞轉(zhuǎn)化成向量的形式,可以把對(duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間中的向量運(yùn)算,往往會(huì)結(jié)合余弦相似度來(lái)計(jì)算向量空間上的相似度,來(lái)表示文本語(yǔ)意上的相似度。
例如:
word2vec訓(xùn)練詞向量的方法是通過(guò)上下文去預(yù)測(cè)某個(gè)詞或者通過(guò)一個(gè)詞去預(yù)測(cè)上下文,所以除了得到語(yǔ)義相近的詞,往往還會(huì)得到搭配比較多的關(guān)聯(lián)詞。所以word2vec是可行的。同理,其他訓(xùn)練詞向量的方法也是可以的,比如glove或者fasttext等。而對(duì)于計(jì)算相似度的方法就更多了,就不概述了。
還有通過(guò)句子結(jié)構(gòu)分析和詞與詞之間的事理關(guān)系也是可以得到一些關(guān)聯(lián)詞,比如存在“不僅A而且B”這種句式時(shí),A和B是很有可能是關(guān)聯(lián)詞,甚至是近義詞。除了并列,還有順承,轉(zhuǎn)折等關(guān)系也是可以尋找關(guān)聯(lián)詞的。
只從詞本身看,有時(shí)候研究詞與詞的共現(xiàn)關(guān)系或者根據(jù)相同上下文相鄰詞的頻數(shù)也可以挖掘關(guān)聯(lián)詞。
總結(jié)
以上是生活随笔為你收集整理的python文本关联分析_如何对文本内的某个词的关联词进行提取?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 当兵的目标和计划_新兵下连时,一定要弄明
- 下一篇: voronoi变焦