自然语言处理期末复习(6)话题模型
一、LAS
1.向量空間模型通過(guò)計(jì)算文檔向量間的相似度來(lái)衡量?jī)蓚€(gè)文檔之間的相關(guān)性,常用的相似度為(夾角)余弦相似度。
2.LSA的核心在于將秩r的詞項(xiàng)-文檔矩陣C進(jìn)行SVD分解,并尋求詞項(xiàng)-文檔矩陣的k秩逼近Ck 此時(shí)我們可以說(shuō),在進(jìn)行潛在語(yǔ)義分析之前,文檔被隱含表示成r維空間中的向量,而在潛在語(yǔ)義分析之后,文檔被表示為k維空間中的向量,也就是潛在語(yǔ)義空間中的向量,向量的維數(shù)縮減為k維。
維數(shù)k可以被解釋為隱含在文檔集合中的話(huà)題數(shù)量,因此LSA可以被視作一種話(huà)題模型
3. LSA要點(diǎn):
(1) 基于詞(項(xiàng))-文檔矩陣歸納語(yǔ)義信息
(2) 基于維數(shù)縮減歸納語(yǔ)義信息
(3) 文檔和詞(項(xiàng))被視作歐式空間中的點(diǎn)進(jìn)行計(jì)算
二、概率話(huà)題模型
1. 混合模型(mixture model),分布表示為若干部件分布按照一定的比例進(jìn)行組合。
(1) 文檔是關(guān)于話(huà)題的分布, 不同文檔擁有不同的話(huà)題比例p(z)。
(2) 話(huà)題是定義在詞表上的概率分布p(w|z),不同的話(huà)題是定義在詞表上的不同分布,與LSA不同,話(huà)題有著直觀的物理解釋。
話(huà)題模型是生成模型,文檔是話(huà)題模型規(guī)定的概率過(guò)程的產(chǎn)物
(1) 對(duì)每一個(gè)文檔,首先選擇一個(gè)話(huà)題分布p(z)
(2) 對(duì)文檔中的每一個(gè)詞位,按照話(huà)題分布p(z)選擇一個(gè)話(huà)題
(3) 按照話(huà)題-詞分布p(w|z)選擇一個(gè)詞
? 在話(huà)題模型中,文檔中每個(gè)詞都對(duì)應(yīng)著一個(gè)隱含的話(huà)題,這些隱含的話(huà)題可以通過(guò)統(tǒng)計(jì)推斷的技術(shù)從大量的文檔集合中提取得到。
2.pLSA是一種概率話(huà)題模型,LDA可視作是對(duì)pLSA的改進(jìn)
– 文檔視作話(huà)題的混合模型
– 話(huà)題視作詞的不同分布
總結(jié)
以上是生活随笔為你收集整理的自然语言处理期末复习(6)话题模型的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 自然语言处理期末复习(7)平行文本与机器
- 下一篇: 自然语言处理期末复习(3)-(5)模型与