极大似然估计的理解
先大概講下:極大似然估計提供了一種給定觀察數據來評估模型參數的方法,即:“模型已定,參數未知”。簡單而言,假設我們要統計全國人口的身高,首先假設這個身高服從服從正態分布,但是該分布的均值與方差未知。我們沒有人力與物力去統計全國每個人的身高,但是可以通過采樣,獲取部分人的身高,然后通過極大似然估計來獲取上述假設中的正態分布的均值與方差。 
 極大似然估計中采樣需滿足一個很重要的假設,就是所有的采樣都是獨立同分布的。
舉個別人博客中的例子,假如有一個罐子,里面有黑白兩種顏色的球,數目多少不知,兩種顏色的比例也不知。我 們想知道罐中白球和黑球的比例,但我們不能把罐中的球全部拿出來數。現在我們可以每次任意從已經搖勻的罐中拿一個球出來,記錄球的顏色,然后把拿出來的球 再放回罐中。這個過程可以重復,我們可以用記錄的球的顏色來估計罐中黑白球的比例。假如在前面的一百次重復記錄中,有七十次是白球,請問罐中白球所占的比例最有可能是多少?很多人馬上就有答案了:70%。而其后的理論支撐是什么呢? 
 我們假設罐中白球的比例是p,那么黑球的比例就是1-p。因為每抽一個球出來,在記錄顏色之后,我們把抽出的球放回了罐中并搖勻,所以每次抽出來的球的顏 色服從同一獨立分布。這里我們把一次抽出來球的顏色稱為一次抽樣。題目中在一百次抽樣中,七十次是白球的概率是P(Data|M),這里Data是所有的數據,M是所給出的模型,表示每次抽出來的球是白色的概率為p。如果第一抽樣的結果記為x1,第二抽樣的結果記為x2... 那么Data=(x1,x2,…,x100)。這樣, 
那么 p在取什么值的時候,P(Data|M)的值最大呢?將 p70(1?p)30對 p求導,并其等于零。
70?p69(1?p)30?p70?30?(1?p)29=0。
解方程可以得到: p=0.7。
注意:極大似然估計只考慮某個模型能產生某個給定觀察序列的概率。而未考慮該模型本身的概率。這點與貝葉斯估計區別。
概率和似然
下面是通俗的理解: 
 舉一個經典而又簡單的例子,擲硬幣:現在我們討論的是似然,但為了避免和我們想討論的概率混淆,我們把硬幣的“正面”出現的概率稱為硬幣的參數。 
 概率:有了硬幣的參數,就可以去推測拋硬幣的各種情況的可能性,這稱為概率。比如就可以推測扔10次硬幣,出現5次“正面”朝上的概率。 
 似然:我們對硬幣的參數并不清楚,要通過拋硬幣的情況去推測硬幣的參數,這稱為似然。簡單講就是根據現有的事實或者樣本結果反過來推斷參數。 
 極大似然估計: 
 所謂最大似然估計,就是假設硬幣的參數,然后計算實驗結果的概率是多少,概率越大的,那么這個假設的參數就越可能是真的。所以似然是這樣一個·過程,在有似然函數的前提下,似然是推測參數的分布,而求極大似然的問題就成了求似然函數的極值。 
 在試驗過程中:
- 隨著實驗次數的增多,可選的參數的分布越集中。越多的實驗結果,讓參數越來越明確。
數學名詞: 
 一次實驗:拋硬幣10次,出現6次“花”,就是一次實驗。 
 二項分布:拋硬幣10次,出現6次“花”的概率為0.25,出現5次“花”的概率為0.21,所有的可能的結果(比如拋硬幣10次,出現11次“花”,這就是不可能)的概率,放在一起就是二項分布 
 而極大似然估計真正的用途是針對多次實驗。。。 
 通過多次實驗進行最大似然估計: 
 上面的二項分布用通俗點的話來說,就是描述了拋10次硬幣的結果的概率,其中“花”出現的概率為 θ 。 
 針對上面的二項分布,現在進行6次實驗(也就是總共6次,每次拋10次硬幣) 
 我們用 x1,x2,?,xn表示每次實驗結果,因為每次實驗都是獨立的,所以似然函數可以寫作(得到這個似然函數很簡單,獨立事件的聯合概率,直接相乘就可以得到): 
 L(θ)=f(x1∣θ)f(x2∣θ)?f(xn∣θ) 
 f(xn∣θ)表示在同一個參數下的實驗結果,也可以認為是條件概率。 
 下面是對實驗的圖像化:
圖中的{3,5,4,2,5,4}是在參數θ=0.37的時候的6次實驗結果,第一次的結果是出現3次“花”,第二次的結果是出現5次“花”,以此類推。而θ是每個硬幣出現“花的概率”。從上圖可以看出推測的θ值和給出的值很接近,之所以有差別是因為實驗本身具有二項隨機性,相信試驗次數越多,推測會越準確。
以上就是對極大似然估計的一些理解,具體的參數計算方法就很簡單了。
參考: http://www.matongxue.com/madocs/447.html#/madoc
總結
 
                            
                        - 上一篇: 二次规划
- 下一篇: 公积金汇缴是什么意思
