机器学习中的常用概率分布
1、伯努利分布
伯努利分布是單個二值型隨機變量的分布。
它由單個參數?∈[0,1]\phi \in [0, 1]?∈[0,1]控制,?\phi?給出了等于1的概率。它具有如下的一些性質:
P(x=1)=?P(x=0)=1??P(x=x)=?x(1??)1?xEx[x]=?Varx(x)=?(1??)\begin{aligned} P(x =1) = \phi \\ P(x =0) = 1-\phi \\ P(x = x) = \phi^x (1-\phi)^{1-x} \\ E_{x}[x] = \phi \\ Var_{x}(x) = \phi(1-\phi) \\ \end{aligned} P(x=1)=?P(x=0)=1??P(x=x)=?x(1??)1?xEx?[x]=?Varx?(x)=?(1??)?
2、多項式分布
多項式分布是指在具有kkk個不同狀態的單個離散型隨機變量上的分布,其中kkk是一個有限值。多項式分布的參數由向量p∈[0,1]k?1\rm p \in [0, 1]^{k-1}p∈[0,1]k?1參數化,其中每一個分量pip_ipi?表示第iii個狀態的概率。最后的第kkk個狀態的概率可以通過1?1?p1-\bf 1^\top \rm p1?1?p給出。
注意我們必須限制1?p≤1\bf 1^\top \rm p \le 11?p≤1。多項式分布經常用來表示對象分類的分布,所以我們很少假設狀態1具有數值1之類的。
因此,我們通常不需要去計算多項式分布的隨機變量的期望和方差。
多項式分布和伯努利分布足夠用來描述在它們領域內的任意分布。
它們能夠描述這些分布,不是因為它們特別強大,而是因為它們的領域很簡單;
它們可以對那些,能夠將所有的狀態進行枚舉的離散型進行建模。
當處理的是連續型時,會有不可數無限多的狀態,所以任何通過少量參數描述的都必須在分布上加以嚴格的限制。
3、高斯分布
實數上最常用的分布就是高斯分布,也稱為正態分布:
下圖畫出來標準的正態分布:
正態分布由兩個參數控制,μ∈R\mu \in Rμ∈R和σ∈(0,∞)\sigma \in (0, \infty)σ∈(0,∞)。
參數μ\muμ給出了中心峰值的坐標,這也是分布的均值:E[x]=μE[x] = \muE[x]=μ。
分布的標準誤差用σ\sigmaσ表示,方差用σ2\sigma^2σ2表示。
當我們要對概率密度函數求值時,我們需要對σ\sigmaσ平方并且取倒數。
當我們需要經常對不同參數下的概率密度函數求值時,一種更高效使用參數描述分布的方式是使用參數β∈(0,∞)\beta \in (0, \infty)β∈(0,∞),來控制分布的精度(或方差的倒數):
KaTeX parse error: Undefined control sequence: \cal at position 2: \?c?a?l? ?N(x; \mu, \beta…
采用正態分布在很多應用中都是一個明智的選擇。
當我們由于缺乏關于某個實數上分布的先驗知識而不知道該選擇怎樣的形式時,正態分布是默認的比較好的選擇,其中有兩個原因。
正態分布可以推廣到RnR^nRn空間,略。
4、指數分布和拉普拉斯分布
在深度學習中,我們經常會需要一個在x=0x=0x=0點處取得邊界點(sharp
point)的分布。 為了實現這一目的,我們可以使用指數分布:
p(x;λ)=λ1x≥0exp?(?λx)p(x; \lambda) = \lambda \bf 1_{x\ge 0} \exp(-\lambda x) p(x;λ)=λ1x≥0?exp(?λx)
典型的指數分布:
指數分布使用指示函數(indicator
function)1x≥0\bf 1_{x\ge 0}1x≥0?來使得當xxx取負值時的概率為零。
一個聯系緊密的是拉普拉斯分布,它允許我們在任意一點μ\muμ處設置概率質量的峰值
Laplace(x;μ,γ)=12γexp?(?∣x?μ∣γ)\text{Laplace}(x; \mu, \gamma) = \frac{1}{2\gamma} \exp \left( -\frac{|x-\mu|}{\gamma} \right) Laplace(x;μ,γ)=2γ1?exp(?γ∣x?μ∣?)
5、Dirac分布和經驗分布
在一些情況下,我們希望概率分布中的所有質量都集中在一個點上。 這可以通過Dirac delta函數
δ(x)\delta(x)δ(x)定義概率密度函數來實現:
p(x)=δ(x?μ)p(x) = \delta(x-\mu) p(x)=δ(x?μ)
Dirac delta函數被定義成在除了0以外的所有點的值都為0,但是積分為1。
不像普通函數一樣對xxx的每一個值都有一個實數值的輸出,它是一種不同類型的數學對象,被稱為廣義函數,是依據積分性質定義的數學對象。
我們可以把Dirac delta函數想成一系列函數的極限點,這一系列函數把除0以外的所有點的概率密度越變越小。
通過把p(x)p(x)p(x)定義成δ\deltaδ函數左移?μ-\mu?μ個單位,我們得到了一個在x=μx=\mux=μ處具有無限窄也無限高的峰值的概率質量。
Dirac delta函數經常作為經驗分布的一個組成部分出現:
p^(x)=1m∑i=1mδ(x?x(i))\hat{p}(x) = \frac{1}{m} \sum_{i=1}^m \delta(x - x^{(i)}) p^?(x)=m1?i=1∑m?δ(x?x(i))
經驗分布將概率密度1m\frac{1}{m}m1?賦給mmm個點x(1),…,x(m)x^{(1)}, \dots, x^{(m)}x(1),…,x(m)中的每一個,這些點是給定的數據集或者采樣的集合。
Dirac delta函數只有在定義連續型的經驗分布時,才是必要的。
對于離散型,情況更加簡單:可以被定義成一個多項式分布,對于每一個可能的輸入,其概率可以簡單地設為在訓練集上那個輸入值的。
當我們在訓練集上訓練模型時,我們可以認為從這個訓練集上得到的指明了我們采樣來源的分布。
關于另外一種重要的觀點是,它是訓練數據的似然最大的那個概率密度函數。
總結
以上是生活随笔為你收集整理的机器学习中的常用概率分布的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 概率分布:PMF与PDF
- 下一篇: 机器学习中的向量