【数学基础】一份非常适合人工智能学习的概率论基础材料中文版 (CS229概率论)...
本文是斯坦福大學 CS229 機器學習課程的基礎材料,原始文件下載[1]
原文作者:Arian Maleki , Tom Do
翻譯:石振宇[2]
審核和修改制作:黃海廣[3]
備注:請關注github[4]的更新。線性代數的翻譯見(這篇文章)。
CS229 機器學習課程復習材料-概率論
概率論復習和參考
概率論是對不確定性的研究。通過這門課,我們將依靠概率論中的概念來推導機器學習算法。這篇筆記試圖涵蓋適用于CS229的概率論基礎。概率論的數學理論非常復雜,并且涉及到“分析”的一個分支:測度論。在這篇筆記中,我們提供了概率的一些基本處理方法,但是不會涉及到這些更復雜的細節。
1. 概率的基本要素
為了定義集合上的概率,我們需要一些基本元素,
樣本空間:隨機實驗的所有結果的集合。在這里,每個結果??可以被認為是實驗結束時現實世界狀態的完整描述。
事件集(事件空間):元素??的集合(稱為事件)是??的子集(即每個??是一個實驗可能結果的集合)。
備注:需要滿足以下三個條件:
(1)?
(2)?
(3)?
概率度量:函數是一個的映射,滿足以下性質:
對于每個?,,
如果?是互不相交的事件 (即 當時,?), 那么:
以上三條性質被稱為概率公理。
舉例:
考慮投擲六面骰子的事件。樣本空間為,,,,,。最簡單的事件空間是平凡事件空間.另一個事件空間是的所有子集的集合。對于第一個事件空間,滿足上述要求的唯一概率度量由,給出。對于第二個事件空間,一個有效的概率度量是將事件空間中每個事件的概率分配為,這里?是這個事件集合中元素的數量;例如,。
性質:
如果,則:
(布爾不等式):
(全概率定律):如果,,是一些互不相交的事件并且它們的并集是,那么它們的概率之和是 1
1.1 條件概率和獨立性
假設是一個概率非 0 的事件,我們定義在給定的條件下?的條件概率為:
換句話說,)是度量已經觀測到事件發生的情況下事件發生的概率,兩個事件被稱為獨立事件當且僅當(或等價地,)。因此,獨立性相當于是說觀察到事件對于事件的概率沒有任何影響。
2. 隨機變量
考慮一個實驗,我們翻轉 10 枚硬幣,我們想知道正面硬幣的數量。這里,樣本空間的元素是長度為 10 的序列。例如,我們可能有。然而,在實踐中,我們通常不關心獲得任何特定正反序列的概率。相反,我們通常關心結果的實值函數,比如我們 10 次投擲中出現的正面數,或者最長的背面長度。在某些技術條件下,這些函數被稱為隨機變量。
更正式地說,隨機變量是一個的函數。通常,我們將使用大寫字母或更簡單的(其中隱含對隨機結果的依賴)來表示隨機變量。我們將使用小寫字母來表示隨機變量的值。
舉例:在我們上面的實驗中,假設是在投擲序列中出現的正面的數量。假設投擲的硬幣只有 10 枚,那么只能取有限數量的值,因此它被稱為離散隨機變量。這里,與隨機變量相關聯的集合取某個特定值的概率為:
舉例:假設是一個隨機變量,表示放射性粒子衰變所需的時間。在這種情況下,具有無限多的可能值,因此它被稱為連續隨機變量。我們將在兩個實常數和之間取值的概率(其中)表示為:
2.1 累積分布函數
為了指定處理隨機變量時使用的概率度量,通常可以方便地指定替代函數(CDF、PDF和PMF),在本節和接下來的兩節中,我們將依次描述這些類型的函數。
累積分布函數(CDF)是函數,它將概率度量指定為:
通過使用這個函數,我們可以計算任意事件發生的概率。圖 1 顯示了一個樣本CDF函數。
圖1:一個累計分布函數(CDF)性質:2.2 概率質量函數
當隨機變量取有限種可能值(即,是離散隨機變量)時,表示與隨機變量相關聯的概率度量的更簡單的方法是直接指定隨機變量可以假設的每個值的概率。特別地,概率質量函數(PMF)是函數?,這樣:
在離散隨機變量的情況下,我們使用符號表示隨機變量可能假設的一組可能值。例如,如果是一個隨機變量,表示十次投擲硬幣中的正面數,那么,,,,。
性質:
2.3 概率密度函數
對于一些連續隨機變量,累積分布函數處可微。在這些情況下,我們將概率密度函數(PDF)定義為累積分布函數的導數,即:
請注意,連續隨機變量的概率密度函數可能并不總是存在的(即,如果它不是處處可微)。
根據微分的性質,對于很小的,
CDF和PDF(當它們存在時!)都可用于計算不同事件的概率。但是應該強調的是,任意給定點的概率密度函數(PDF)的值不是該事件的概率,即。例如,可以取大于 1 的值(但是在的任何子集上的積分最多為 1)。
性質:
2.4 期望
假設是一個離散隨機變量,其PMF為?,是一個任意函數。在這種情況下,可以被視為隨機變量,我們將的期望值定義為:
如果是一個連續的隨機變量,其PDF 為,那么的期望值被定義為:
直覺上,的期望值可以被認為是對于不同的值可以取的值的“加權平均值”,其中權重由或給出。作為上述情況的特例,請注意,隨機變量本身的期望值,是通過令得到的,這也被稱為隨機變量的平均值。
性質:
對于任意常數?,
對于任意常數?,
(線性期望):
對于一個離散隨機變量,
2.5 方差
隨機變量的方差是隨機變量的分布圍繞其平均值集中程度的度量。形式上,隨機變量的方差定義為:
使用上一節中的性質,我們可以導出方差的替代表達式:
其中第二個等式來自期望的線性,以及相對于外層期望實際上是常數的事實。
性質:
對于任意常數?,
對于任意常數?,
舉例:
計算均勻隨機變量的平均值和方差,任意,,其PDF為?,其他地方為 0。
舉例:
假設對于一些子集,有,計算?
離散情況:
連續情況:
2.6 一些常見的隨機變量
離散隨機變量
伯努利分布:硬幣擲出正面的概率為(其中:),如果正面發生,則為 1,否則為 0。
二項式分布:擲出正面概率為(其中:)的硬幣次獨立投擲中正面的數量。
幾何分布:擲出正面概率為(其中:)的硬幣第一次擲出正面所需要的次數。
泊松分布:用于模擬罕見事件頻率的非負整數的概率分布(其中:)。
連續隨機變量
均勻分布:在和之間每個點概率密度相等的分布(其中:$a
指數分布:在非負實數上有衰減的概率密度(其中:)。
正態分布:又被稱為高斯分布。
一些隨機變量的概率密度函數和累積分布函數的形狀如圖 2 所示。
圖2:一些隨機變量的概率密度函數(PDF)和累積分布函數(CDF)下表總結了這些分布的一些特性:3. 兩個隨機變量
到目前為止,我們已經考慮了單個隨機變量。然而,在許多情況下,在隨機實驗中,我們可能有不止一個感興趣的量。例如,在一個我們擲硬幣十次的實驗中,我們可能既關心出現的正面數量,也關心連續最長出現正面的長度。在本節中,我們考慮兩個隨機變量的設置。
3.1 聯合分布和邊緣分布
假設我們有兩個隨機變量,一個方法是分別考慮它們。如果我們這樣做,我們只需要和。但是如果我們想知道在隨機實驗的結果中,和同時假設的值,我們需要一個更復雜的結構,稱為和的聯合累積分布函數,定義如下:
可以證明,通過了解聯合累積分布函數,可以計算出任何涉及到和的事件的概率。
聯合CDF:?和每個變量的聯合分布函數和分別由下式關聯:
這里我們稱和為?的邊緣累積概率分布函數。
性質:
3.2 聯合概率和邊緣概率質量函數
如果和是離散隨機變量,那么聯合概率質量函數?由下式定義:
這里, 對于任意,,, 并且?
兩個變量上的聯合 PMF分別與每個變量的概率質量函數有什么關系?事實上:
對于類似。在這種情況下,我們稱為的邊際概率質量函數。在統計學中,將一個變量相加形成另一個變量的邊緣分布的過程通常稱為“邊緣化”。
3.3 聯合概率和邊緣概率密度函數
假設和是兩個連續的隨機變量,具有聯合分布函數。在在和中處處可微的情況下,我們可以定義聯合概率密度函數:
如同在一維情況下,,而是:
請注意,概率密度函數的值總是非負的,但它們可能大于 1。盡管如此,可以肯定的是?
與離散情況相似,我們定義:
作為的邊際概率密度函數(或邊際密度),對于也類似。
3.4 條件概率分布
條件分布試圖回答這樣一個問題,當我們知道必須取某個值時,上的概率分布是什么?在離散情況下,給定的條件概率質量函數是簡單的:
假設分母不等于 0。
在連續的情況下,在技術上要復雜一點,因為連續隨機變量的概率等于零。忽略這一技術點,我們通過類比離散情況,簡單地定義給定的條件概率密度為:
假設分母不等于 0。
3.5 貝葉斯定理
當試圖推導一個變量給定另一個變量的條件概率表達式時,經常出現的一個有用公式是貝葉斯定理。
對于離散隨機變量和:
對于連續隨機變量和:
3.6 獨立性
如果對于和的所有值,,則兩個隨機變量和是獨立的。等價地,
對于離散隨機變量, 對于任意,??,。
對于離散隨機變量,?當對于任意且。
對于連續隨機變量,??對于任意?。
對于連續隨機變量,??,當對于任意。
非正式地說,如果“知道”一個變量的值永遠不會對另一個變量的條件概率分布有任何影響,那么兩個隨機變量和是獨立的,也就是說,你只要知道和就知道關于這對變量,的所有信息。以下引理將這一觀察形式化:
引理 3.1
如果和是獨立的,那么對于任何,,我們有:
利用上述引理,我們可以證明如果與無關,那么的任何函數都與的任何函數無關。
3.7 期望和協方差
假設我們有兩個離散的隨機變量,并且是這兩個隨機變量的函數。那么的期望值以如下方式定義:
對于連續隨機變量,,類似的表達式是:
我們可以用期望的概念來研究兩個隨機變量之間的關系。特別地,兩個隨機變量的協方差定義為:
使用類似于方差的推導,我們可以將它重寫為:
在這里,說明兩種協方差形式相等的關鍵步驟是第三個等號,在這里我們使用了這樣一個事實,即和實際上是常數,可以被提出來。當,時,我們說和不相關。
性質:
(期望線性)?
如果和相互獨立, 那么?
如果和相互獨立, 那么?.
4. 多個隨機變量
上一節介紹的概念和想法可以推廣到兩個以上的隨機變量。特別是,假設我們有個連續隨機變量,。在本節中,為了表示簡單,我們只關注連續的情況,對離散隨機變量的推廣工作類似。
4.1 基本性質
我們可以定義的聯合累積分布函數、聯合概率密度函數,以及給定時的邊緣概率密度函數為:
為了計算事件的概率,我們有:
鏈式法則:
從多個隨機變量的條件概率的定義中,可以看出:
獨立性:對于多個事件,,我們說?是相互獨立的,當對于任何子集,,我們有:
同樣,我們說隨機變量是獨立的,如果:
這里,相互獨立性的定義只是兩個隨機變量獨立性到多個隨機變量的自然推廣。
獨立隨機變量經常出現在機器學習算法中,其中我們假設屬于訓練集的訓練樣本代表來自某個未知概率分布的獨立樣本。為了明確獨立性的重要性,考慮一個“壞的”訓練集,我們首先從某個未知分布中抽取一個訓練樣本,然后將完全相同的訓練樣本的個副本添加到訓練集中。在這種情況下,我們有:
盡管訓練集的大小為,但這些例子并不獨立!雖然這里描述的過程顯然不是為機器學習算法建立訓練集的明智方法,但是事實證明,在實踐中,樣本的不獨立性確實經常出現,并且它具有減小訓練集的“有效大小”的效果。
4.2 隨機向量
假設我們有n個隨機變量。當把所有這些隨機變量放在一起工作時,我們經常會發現把它們放在一個向量中是很方便的...我們稱結果向量為隨機向量(更正式地說,隨機向量是從到的映射)。應該清楚的是,隨機向量只是處理個隨機變量的一種替代符號,因此聯合概率密度函數和綜合密度函數的概念也將適用于隨機向量。
期望:
考慮中的任意函數。這個函數的期望值 被定義為
其中,是從到的個連續積分。如果是從到的函數,那么的期望值是輸出向量的元素期望值,即,如果是:
那么,
協方差矩陣:對于給定的隨機向量,其協方差矩陣是平方矩陣,其輸入由給出。從協方差的定義來看,我們有:
其中矩陣期望以明顯的方式定義。協方差矩陣有許多有用的屬性:
;也就是說,是正半定的。
;也就是說,是對稱的。
4.3 多元高斯分布
隨機向量上概率分布的一個特別重要的例子叫做多元高斯或多元正態分布。隨機向量被認為具有多元正態(或高斯)分布,當其具有均值和協方差矩陣(其中指對稱正定矩陣的空間)
我們把它寫成。請注意,在的情況下,它降維成普通正態分布,其中均值參數為,方差為。
一般來說,高斯隨機變量在機器學習和統計中非常有用,主要有兩個原因:
首先,在統計算法中對“噪聲”建模時,它們非常常見。通常,噪聲可以被認為是影響測量過程的大量小的獨立隨機擾動的累積;根據中心極限定理,獨立隨機變量的總和將趨向于“看起來像高斯”。
其次,高斯隨機變量便于許多分析操作,因為實際中出現的許多涉及高斯分布的積分都有簡單的封閉形式解。我們將在本課程稍后遇到這種情況。
5. 其他資源
一本關于CS229所需概率水平的好教科書是謝爾頓·羅斯的《概率第一課》(A First Course on Probability by Sheldon Ross)。
參考資料
[1]
原始文件下載: http://cs229.stanford.edu/summer2019/cs229-prob.pdf
[2]石振宇: https://github.com/szy2120109
[3]黃海廣: https://github.com/fengdu78
[4]github: https://github.com/fengdu78/Data-Science-Notes/tree/master/0.math
本文首發于“機器學習初學者”公眾號
總結
以上是生活随笔為你收集整理的【数学基础】一份非常适合人工智能学习的概率论基础材料中文版 (CS229概率论)...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 高额奖金+实习机会+官方证书 丨微众银行
- 下一篇: 【Python基础】本地利用ssh远程连