深度学习中的最大似然估计简介
統計領域為我們提供了很多工具來實現機器學習目標,不僅可以解決訓練集上的任務,還可以泛化。例如參數估計、偏差和方差,對于正式地刻畫泛化、欠擬合和過擬合都非常有幫助。
點估計:點估計試圖為一些感興趣的量提供單個”最優”預測。一般地,感興趣的量可以是單個參數,或是某些參數模型中的一個向量參數,但是也有可能是整個函數。點估計也可以指輸入和目標變量之間關系的估計。我們將這種類型的點估計稱為函數估計。
函數估計:有時我們會關注函數估計(或函數近似)。這時我們試圖從輸入向量x預測變量y。我們假設有一個函數f(x)表示y和x之間的近似關系。例如,我們可能假設y=f(x)+ε,其中ε是y中未能從x預測的一部分。在函數估計中,我們感興趣的是用模型估計去近似f。
偏差:估計的偏差被定義為:
均值的標準差在機器學習實驗中非常有用。我們通常用測試集樣本的誤差均值來估計泛化誤差。測試集中樣本的數量決定了這個估計的精確度。中心極限定理告訴我們均值會接近一個高斯分布,我們可以用標準差計算出真實期望落在選定區間的概率。
權衡偏差和方差以最小化均方誤差:偏差和方差度量著估計量的兩個不同誤差來源。偏差度量著偏離真實函數或參數的誤差期望。而方差度量著數據上任意特定采樣可能導致的估計期望的偏差。均方誤差(mean squared error, MSE):
MSE度量著估計和真實參數θ之間平方誤差的總體期望偏差。MSE估計包含了偏差和方差。偏差和方差的關系和機器學習容量、欠擬合和過擬合的概念緊密相聯。用MSE度量泛化誤差(偏差和方差對于泛化誤差都是有意義的)時,增加容量會增加方差,降低偏差。
一致性:一致性保證了估計量的偏差會隨數據樣本數目的增多而減少。然而,反過來是不正確的。考慮一組含有m個樣本的數據集X={x(1),…,x(m)},獨立地由未知的真實數據生成分布pdata(x)生成。令pmodel(x;θ)是一族由θ確定在相同空間上的概率分布。換言之,pmodel(x; θ)將任意輸入x映射到實數來估計真實概率pdata(x)。
對θ的最大似然估計被定義為:
最大似然估計最吸引人的地方在于,它被證明當樣本數目m→∞時,就收斂率而言是最好的漸進估計。
在合適的條件下,最大似然估計具有一致性,意味著訓練樣本數目趨向于無窮大時,參數的最大似然估計會收斂到參數的真實值。這些條件是:
(1)、真實分布pdata必須在模型族pmodel(?;θ)中。否則,沒有估計可以還原pdata.
(2)、真實分布pdata必須剛好對應一個θ值。否則,最大似然估計恢復出真實分布pdata后,也不能決定數據生成過程使用哪個θ。
在統計學中,最大似然估計(Maximum likelihood estimation, MLE),也稱為最大概似估計,是用來估計一個概率模型(概率模型是用來描述不同隨機變量之間關系的數學模型,通常情況下刻畫了一個或多個隨機變量之間的相互非確定性的概率關系)的參數的一種方法。
最大似然估計的原理:給定一個概率分布D,已知其概率密度函數(連續分布)或概率質量函數(離散分布)為fD,以及一個分布參數θ,我們可以從這個分布中抽出一個具有n個值的采樣X1,X2,…,Xn,利用fD計算出概率:P(x1,x2,…,xn)=fD(x1,…,xn|θ)。
但是,我們可能不知道θ的值,盡管我們知道這些采樣數據來自于分布D。那么我們如何才能估計出θ呢?一個自然的想法是從這個分布中抽出一個具有n個值的采樣X1,X2,…,Xn,然后用這些采樣數據來估計θ。
一旦我們獲得X1,X2,…,Xn,我們就能求得一個關于θ的估計。最大似然估計會尋找關于θ的最可能的值(即,在所有可能的θ取值中,尋找一個值使這個采樣的”可能性”最大化)。
要在數學上實現最大似然估計法,我們首先要定義似然函數:lik(θ)= fD(x1,…,xn|θ),并且在θ的所有取值上通過令一階導數等于零,使這個函數取得最大值。這個使可能性最大的θ’值即稱為θ的最大似然估計。
注意:這里的似然函數是指x 1,…,x n不變時,關于θ的一個函數;最大似然估計函數不一定是惟一的,甚至不一定存在。以上內容主要摘自:?《深度學習中文版》?和 ?維基百科
GitHub:https://github.com/fengbingchun/NN_Test
總結
以上是生活随笔為你收集整理的深度学习中的最大似然估计简介的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: C++/C++11中头文件functio
- 下一篇: C++/C++11中头文件algorit