十二、主题模型
- 一、pLSA
- 二、LDA模型
 
一、pLSA
每個文檔都會在主題上有一個分布,每個主題在各個詞上也有一個分布
p(wj)=∑k[p(wj|zk)?p(zk)]p(wj)=∑k[p(wj|zk)?p(zk)]只是將p(wj)p(wj)變成了p(wj|di)p(wj|di),p(wj|zk)p(wj|zk)未變的原因是一旦給定了z,d和w就是獨立,也就是p(wj|zk)=p(wj|zk,di)p(wj|zk)=p(wj|zk,di)就省略掉了。
 
 上式是關于w,zk,di的部分可觀測的函數,所以用EM算法求解
求給定樣本之下的主題的后驗概率:
pLSA的進一步思考:
原來相當于是一個二層的模型,只要文檔和詞給定了,得到的結果就是一樣的,不需要先驗信息就可以完成學習,既是優勢也是劣勢。
二、LDA模型
主要問題:
貝葉斯模型:假設參數是不斷變化的,參數本身也服從某個分布,貝葉斯學派能夠得到一個稍微好點的目標函數,也能比較方便的分析相關關系。
大數據的情況是頻率學派的一個逆襲,因為在數據很多的情況下,我們就不需要對其先驗進行猜測了,直接利用極大似然估計就有較好的效果。
貝葉斯學派說,我可以用小樣本來做事情。
如果認為所有的先驗P(θ)P(θ)都是一樣的話,那就退化成了極大似然估計。
共軛分布:兩者滿足同樣的分布率
為什么要提出共軛先驗分布:
平方和損失的正則化,就是假定參數theta服從高斯分布的貝葉斯學派的思想,
因為次數已知,所以是關于p的函數h(p),求偏導=0,可得朝上的概率p,頻率的程度是概率。
 
 修正,更符合常理,但是5和10是什么?為什么可以加上,背后的理論是什么?
理論解釋:
貝葉斯理論,可以使得在小樣本的情況下是更合理的,+5和+10是防止過擬合。
共軛先驗的推廣:
多項分布的先驗分布是狄利克雷分布
狄利克雷函數:
一般選定alpha是相等的,因為沒有先驗信息,退化成均勻分布(對稱狄利克雷分布)。
- alpha=1,平的,均勻分布 
- alpha<1,圖中的情況(alpha=0.3),取某一個維度的概率是最高的,取三個都相等的概率是最低的; 
- alpha>1,圖中情況的反向(也就是類似于鍋蓋),取某一個維度的概率是最低的,取三個維度都相等的概率是最高的。 
p1,p2,p3…就是我們要求的概率,而關于概率我們做了一個超參數alpha,比如x1=x2=0的點,此時x3等于某個值,該值最大,也就是該點的概率值大,
x1+x2+x3=1,因此沒必要畫三個參數的圖像,因為x3=1-x2-x1,也就是取得x1=a,x2=b的概率就是縱軸,即三維圖是(x1,x2,ln(p(x1,x2)))
利于做收斂,詞匯集中到某個點去,alpha越小,說明主題越鮮明;
alpha=1時,表示每個主題被取到的概率是一樣的,說明主題最不鮮明。
當alpha繼續增大的時候,假如到達了10,相當于這個文檔的主題是相等的。
當我們樣本數量足夠大的時候,alpha的影響已經不太大了,先驗的影響已經不大了。
LDA:
m個文章是樣本,K個主題是我們給定的
比如第一個文章涉及了70%的武俠,30%的愛情,這就是主題分布,主題分布在每個主題上都可能發生,所以是一個多項分布,主題的參數服從狄利克雷分布,該分布的參數即為alpha。
武俠這個主題,可能會涉及到降龍十八掌、段譽、大理等,任何一個主題在詞典的所有詞上都有一個取到的概率,每個主題有各自特定的詞分布,詞分布也是多項分布,該多項分布的參數服從狄利克雷分布,參數為beta。
有K個詞分布,每個詞分布是一個V維的向量,
利用狄利克雷分布的參數α?α?決定一個主題分布θm?θm?利用該主題分布采樣出來一個主題zm,nzm,n(第m個文檔的第n個詞應該屬于哪個主題)
利用狄利克雷分布的參數β?β?采樣一個詞分布?k?k(有k個主題就有k個詞分布,每個詞分布是v維的)
利用采樣得到的主題zm,nzm,n和該主題對應的詞分布?k?k來共同得到一個可觀測的詞,也就是第m個文檔的第n個詞。
總結
 
                            
                        - 上一篇: cq量化交易是什么意思
- 下一篇: 深度学习与计算机视觉(一)图像分类与KN
