深入浅出深度学习(四)概率统计基础
一、數(shù)學期望、方差、協(xié)方差
1、數(shù)學期望——反映隨機變量平均取值的大小的統(tǒng)計量
2、方差——度量隨機變量與其數(shù)學期望之間的偏離程度或分散程度的統(tǒng)計
量。數(shù)據(jù)越集中則方差越小,數(shù)據(jù)越分散則方差越大。
3、協(xié)方差——衡量多維隨機變量之間相關性的一種統(tǒng)計量
方差是衡量一個變量與期望間的偏離程度,而協(xié)方差是衡量兩個變量間的線性相關性,當X=Y時,協(xié)方差就等于方差。
協(xié)方差大于0時,表示隨機變量X與隨機變量Y是正相關,即變化趨勢相同。
協(xié)方差小于0時,表示隨機變量X與隨機變量Y是負相關,即變化趨勢相反。
協(xié)方差等于0時,表示隨機變量X與Y間無線性相關性。
線性不相關與獨立的區(qū)別:
如果X和Y相互獨立,則協(xié)方差必為0,即線性不相關;
如果X和Y線性不相關時,隨機變量之間不一定獨立,因為獨立性考察一般性關系,而協(xié)方差是度量線性關系。
協(xié)方差和相關系數(shù):
協(xié)方差描述了兩個隨機變量間的正負線性相關性,而相關系數(shù)通過歸一化提供了一種衡量相關性大小的統(tǒng)計量:
相關系數(shù)是在協(xié)方差的基礎上添加了正則化因子,從而將其限定在[-1,1]內(nèi)。
協(xié)方差矩陣:
二、信息論基礎
1、信息熵——簡稱熵,表示隨機變量不確定性的度量。
設X是離散隨機變量,其概率分布為:
隨機變量的信息熵定義為:
(log是以2為底的對數(shù))
當pi=0/1時,熵為0,pi=0.5時,熵最大(類似開口向下的拋物線),熵越大說明包含的信息越多,隨機變量的不確定性就越大,
最大熵定理:當離散隨機變量的概率分布是等概率分布時,H(X)取最大值,結(jié)果為,n表示隨機變量X有n個不同的取值。
2、條件熵——在已知隨機變量X的條件下,隨機變量Y的不確定性。
從感知上說,條件熵的值要比信息熵小,因為當我們有了更多的背景知識時,信息的不確定性自然也就下降了。
3、互信息——也稱為信息增益,描述兩個隨機變量之間的相關性程度,也就是給定一個隨機變量X后,另一個隨機變量Y不確定性的削弱程度,即為:
當X與Y完全相關時,,取最大值
當X與Y完全無關時,,取最小值
4、相對熵與交叉熵
機器學習和深度學習的目的歸結(jié)為盡量準確的學習到數(shù)據(jù)間的變量關系,還原樣本數(shù)據(jù)的概率分布。交叉熵和相對熵正是衡量概率分布或函數(shù)間相似性的度量方法。
設有隨機變量X,其真實概率分布為p(x),通過模型訓練得到的概率分布模型為q(x)。
①相對熵(Kullback-Leibler Divergence,也稱KL散度、KL距離)
·相對熵不是傳統(tǒng)意義上的“距離”,因為相對熵不具有對稱性,即
·當預測與真實分布完全相同時,相對熵為0·若兩個分布相差越大,則相對熵越大;若兩個分布相差越小,則相對熵越小。②交叉熵(cross-entropy)
表示X的信息熵,,由于真實分布p(x)為一個固定值,所以是一個不變量,故有成立。
化簡:
交叉熵比相對熵更為簡潔,且兩者存在一定的等價關系,因此一般用交叉熵來度量兩個分布的相似性。
三、 概率圖模型
概率統(tǒng)計模型參數(shù)量大且難以存儲,但實際上變量之間往往存在很多獨立性或近似獨立性的假設,也就是說每一個隨機變量只和極少數(shù)的隨機變量相關。概率圖模型(Probabilistic Graphical Model,PGM),根據(jù)變量間的獨立性假設,為我們提供了解決這類問題的機制,PGM以圖論和概率論為基礎,通過圖結(jié)構(gòu)將概率模型可視化,使我們能夠觀察復雜分布中變量的關系,同時把概率上的復雜過程理解為在圖上進行信息傳遞的過程,無須關注太多的復雜表達式。
1.生成模型與判別模型
從形式上來說,監(jiān)督學習模型可以分為概率模型和非概率模型,概率模型利用訓練樣本的數(shù)據(jù),通過學習條件概率分布來進行推斷決策;非概率模型通過學習得到?jīng)Q策函數(shù)來進行判斷。
從算法層面來說,監(jiān)督學習又可以分為生成模型和判別模型。
生成模型:目標是求取聯(lián)合概率分布,然后由條件概率公式求取條件概率分布:.
典型的生成模型包括:樸素貝葉斯模型,隱馬爾科夫模型等。
之所以稱上式為生成模型是因為模型不但可以用來預測結(jié)果輸出,還可以通過聯(lián)合分布來生成新樣本數(shù)據(jù)集。
判別模型:由訓練數(shù)據(jù)直接求取決策函數(shù)或條件分布,判別模型并不需要關心X和Y之間的生成關心,直接關心的是對于給定的輸入X應該得到怎么樣的輸出Y。機器學習中的大部分分類模型都屬于判別模型,如感知機、決策樹、支持向量機、條件隨機場等。
總結(jié):一般來說,兩種模型之間適合于不同條件下的學習問題,生成模型除了可以應用在預測數(shù)據(jù)外,還可以還原出數(shù)據(jù)的聯(lián)合分布函數(shù),因此生成模型的應用領域更廣泛。判別模型得到條件概率或決策函數(shù)直接用于預測,因此在監(jiān)督學習中準確率更高。
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
以上是生活随笔為你收集整理的深入浅出深度学习(四)概率统计基础的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: i5 9600k和i7 8700的有哪些
- 下一篇: 你比我猜游戏爆笑词语有哪些(汉典你字的基