最大似然估计(MLE:样本观测总体参数)是如何工作的?
1. MLE的意義:樣本估計總體分布參數
假定一個事件的觀測樣本服從如下分布,我們如何確定總體數據的分布模型?
首先應該想到是建立線性回歸模型,然而由于該變量不是正態分布的,而且是不對稱的,因此不符合線性回歸的假設。
常用的方法是對變量進行對數、平方根、倒數等轉換,使轉換后的變量服從正態分布,并進行線性回歸建模。變換后的效果如下
不幸的是,所有這些都不接近正態分布,那么應該如何對這些數據進行建模,才能不違背線性模型(高斯分布或者近似高斯分布)的基本假設?
如何利用正態分布以外的其他分布來建模這些數據呢?如果使用了不同的分布,又將如何來估計系數/參數?這便是最大似然估計(MLE)的主要優勢。
2. MLE意義:實例分析
Comment:數據呈現高斯分布或者近似高斯分布,可以使用線性回歸進行建模;
Comment:數據偏離高斯分布非常嚴重,建議使用最大似然建模并估計模型參數;
示例如下:
在研究統計和概率時,諸如x>100的概率,因為x服從正態分布,平均值為50,標準差為10。在這些問題中,我們已經知道分布(在這種情況下是正態分布)及其參數(均值和標準差),但在實際生活問題中,這些參數是未知的,并且必須從數據中估計出來。MLE可以幫助我們確定給定數據的分布參數。可以用下面例子加深理解:假設用數據來表示班級中學生的體重。數據如下圖所示:
看起來這組數據似乎遵循正態分布(其實偏差還是蠻嚴重的)。即使我們假設該組數據已經滿足了正態分布,那么我們該如何得到這個正態分布的均值和標準差呢?
一種方法是直接計算給定數據的平均值和標準差,分別為49.8公斤和11.37公斤。這些值能很好地表示給定的數據,但還不能最好地描述總體情況(也就是我們通常說的模型泛化能力差,在樣本數據集上表現良好,在測試集/樣本總體上表現差)。
這種情況下,我們就可以使用最大似然MLE來獲得更穩健的參數估計。因此,MLE可以定義為從樣本數據中估計總體參數(如均值和方差、泊松率(Lambda)等)的方法,從而使獲得觀測數據的概率(可能性)最大化。
3. 技術細節
3.1 分布參數
所謂的分布參數可以理解為一個概率分布的量化指數,它是樣本總數的數值特征或一個統計模型。
例如,高斯分布就是通過均值、方差兩個分布參數唯一確定的:
同樣,泊松分布是由分布參數λ唯一控制,即事件在時間或空間間隔內發生的次數:
大多數數據分布都有1個或2個參數控制,但有些分布可以有多達4個參數,比如4參數β分布。
3.2 似然,對數似然,最大化似然函數
通過概率論的基本分布:對于任意分布(非均勻分布),總是在某些數值位置上出現的概率大,而在其他的位置上出現的概率小。
現實中我們需要做的是:在已知的少量觀測樣本上,如何建立模型,估計模型參數,進而最大概率地估計樣本總體。
在MLE中,假定似然函數L(θ;x),其中θ是分布參數向量,x是觀測集。需要做的是尋找具有給定觀測值(x值)的最大可能性的θ值。
?
如果假設觀測集(Xi)是獨立的同分布IID隨機變量,概率分布為f0(其中f0=正態分布,例如圖1),似然函數可以簡化為:
為了求似然函數的極大值/極小值,取此似然函數的導數,并將其設為0。所以:
?
為找到對數似然函數LL的極大值,可以:
-
取對數似然函數的一階導數,并將其等價于0;
-
取對數似然函數的二階導數,并確認其為負值。
在許多情況下,微積分對最大化似然估計沒有直接幫助,但最大值仍然可以很容易地識別出來。在尋找最大對數似然值的參數值時,沒有任何東西比一階導數等于零具有更為 “優先”或特殊的位置。當需要估計一些參數時,它僅僅是一個方便的工具而已。
4. 反思
我們自然而言會想到:參數空間中是否存在比標準線性模型估計更好的系數。正態分布是缺省分布,也是最廣泛使用的分布形式,但如果采用其它更為正確的分布,則可以得到更好的結果。最大似然估計是一種可以用于估計分布參數而不考慮所使用的分布的技術。因此,如果遇見數據建模問題時,應該首先看看數據的分布情況,看看有沒有比正態分布更有意義的分布!
總結
以上是生活随笔為你收集整理的最大似然估计(MLE:样本观测总体参数)是如何工作的?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 异常的使用心得
- 下一篇: Faster R-CNN理解、讨论