机器学习理论引导 电子版_机器学习理论篇1:机器学习的数学基础(2)
本節(jié)主要就是講述的機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ),提到數(shù)學(xué)基礎(chǔ),可能一眼就會是滿眼的枯燥、沒意思,但是成就英雄的路上注定了孤獨(dú),要想要真正的在學(xué)術(shù)上有所突破就必須挨得住寂寞,受得住孤獨(dú),才能真正的走進(jìn)熟悉直到完全掌握機(jī)器學(xué)習(xí)的真諦,萬事開頭難,而且做什么事情都要打好地基,空中樓閣并不是現(xiàn)實(shí)中存在的,所以我們從本期課程開始再次從基礎(chǔ)開始學(xué)習(xí)吧!本節(jié)內(nèi)容為第三部分:概率。
三、概率
3-1、為什么使用概率?
概率論是用于表示不確定性陳述的數(shù)學(xué)框架,即它是對事物不確定性的度量。
在人工智能領(lǐng)域,我們主要以兩種方式來使用概率論。首先,概率法則告訴我們AI系統(tǒng)應(yīng)該如何推理,所以我們設(shè)計一些算法來計算或者近似由概率論導(dǎo)出的表達(dá)式。其次,我們可以用概率和統(tǒng)計從理論上分析我們提出的AI系統(tǒng)的行為。
計算機(jī)科學(xué)的許多分支處理的對象都是完全確定的實(shí)體,但機(jī)器學(xué)習(xí)卻大量使用概率論。實(shí)際上如果你了解機(jī)器學(xué)習(xí)的工作原理你就會覺得這個很正常。因為機(jī)器學(xué)習(xí)大部分時候處理的都是不確定量或隨機(jī)量。
3-2、隨機(jī)變量
隨機(jī)變量可以隨機(jī)地取不同值的變量。我們通常用小寫字母來表示隨機(jī)變量本身,而用帶數(shù)字下標(biāo)的小寫字母來表示隨機(jī)變量能夠取到的值。例如,X1 和?X2 都是隨機(jī)變量X可能的取值。
對于向量值變量,我們會將隨機(jī)變量寫成X,它的一個值為x。就其本身而言,一個隨機(jī)變量只是對可能的狀態(tài)的描述;它必須伴隨著一個概率分布來指定每個狀態(tài)的可能性。
隨機(jī)變量可以是離散的或者連續(xù)的。
3-3、概率分布
給定某隨機(jī)變量的取值范圍,概率分布就是導(dǎo)致該隨機(jī)事件出現(xiàn)的可能性。
從機(jī)器學(xué)習(xí)的角度來看,概率分布就是符合隨機(jī)變量取值范圍的某個對象屬于某個類別或服從某種趨勢的可能性。
3-4、條件概率
很多情況下,我們感興趣的是某個事件在給定其它事件發(fā)生時出現(xiàn)的概率,這種概率叫條件概率。
我們將給定X=x時Y=y發(fā)生的概率記為P(Y=y|X=x),這個概率可以通過下面的公式來計算:
3-5、貝葉斯公式
先看看什么是“先驗概率”和“后驗概率”,以一個例子來說明:
假設(shè)某種病在人群中的發(fā)病率是0.001,即1000人中大概會有1個人得病,則有:P(患病)=0.1%;即:在沒有做檢驗之前,我們預(yù)計的患病率為P(患病)=0.1%,這個就叫作"先驗概率"。
再假設(shè)現(xiàn)在有一種該病的檢測方法,其檢測的準(zhǔn)確率為95%;即:如果真的得了這種病,該檢測法有95%的概率會檢測出陽性,但也有5%的概率檢測出陰性;或者反過來說,但如果沒有得病,采用該方法有95%的概率檢測出陰性,但也有5%的概率檢測為陽性。用概率條件概率表示即為:P(顯示陽性|患病)=95%
現(xiàn)在我們想知道的是:在做完檢測顯示為陽性后,某人的患病率P(患病|顯示陽性),這個其實(shí)就稱為"后驗概率"。
而這個叫貝葉斯的人其實(shí)就是為我們提供了一種可以利用先驗概率計算后驗概率的方法,我們將其稱為“貝葉斯公式”。
在這個例子里就是:
貝葉斯公式貫穿了機(jī)器學(xué)習(xí)中隨機(jī)問題分析的全過程。從文本分類到概率圖模型,其基本分類都是貝葉斯公式。
期望、方差、協(xié)方差等主要反映數(shù)據(jù)的統(tǒng)計特征,機(jī)器學(xué)習(xí)的一個很大應(yīng)用就是數(shù)據(jù)挖掘等,因此這些基本的統(tǒng)計概念也是很有必要掌握。另外,像后面的EM算法中,就需要用到期望的相關(guān)概念和性質(zhì)。
3-6、期望
在概率論和統(tǒng)計學(xué)中,數(shù)學(xué)期望是試驗中每次可能結(jié)果的概率乘以其結(jié)果的總和。它是最基本的數(shù)學(xué)特征之一,反映隨機(jī)變量平均值的大小。
假設(shè)X是一個離散隨機(jī)變量,其可能的取值有:{x1,x2,......,xn},各個取值對應(yīng)的概率取值為:P(Xk),k=1,2,......,n,則其數(shù)學(xué)期望被定義為:
假設(shè)X是一個連續(xù)型隨機(jī)變量,其概率密度函數(shù)為則其數(shù)學(xué)期望被定義為:
3-7、方差
概率中,方差用來衡量隨機(jī)變量與其數(shù)學(xué)期望之間的偏離程度;統(tǒng)計中的方差為樣本方差,是各個樣本數(shù)據(jù)分別與其平均數(shù)之差的平方和的平均數(shù)。數(shù)學(xué)表達(dá)式如下:
3-8、協(xié)方差
在概率論和統(tǒng)計學(xué)中,協(xié)方差被用于衡量兩個隨機(jī)變量X和Y之間的總體誤差。數(shù)學(xué)定義式為:
3-9、常見分布函數(shù)
1)0-1分布
0-1分布是單個二值型離散隨機(jī)變量的分布,其概率分布函數(shù)為:
2)幾何分布
幾何分布是離散型概率分布,其定義為:在n次伯努利試驗中,試驗k次才得到第一次成功的機(jī)率。即:前k-1次皆失敗,第k次成功的概率。其概率分布函數(shù)為:
性質(zhì):
3)二項分布
二項分布即重復(fù)n次伯努利試驗,各次試驗之間都相互獨(dú)立,并且每次試驗中只有兩種可能的結(jié)果,而且這兩種結(jié)果發(fā)生與否相互對立。如果每次試驗時,事件發(fā)生的概率為p,不發(fā)生的概率為1-p,則n次重復(fù)獨(dú)立試驗中發(fā)生k次的概率為:
4)高斯分布
高斯分布又叫正態(tài)分布,其曲線呈鐘型,兩頭低,中間高,左右對稱因其曲線呈鐘形,如下圖所示:
5)指數(shù)分布
指數(shù)分布是事件的時間間隔的概率,它的一個重要特征是無記憶性。例如:如果某一元件的壽命的壽命為T,已知元件使用了t小時,它總共使用至少t+s小時的條件概率,與從開始使用時算起它使用至少s小時的概率相等。下面這些都屬于指數(shù)分布:
嬰兒出生的時間間隔
網(wǎng)站訪問的時間間隔
奶粉銷售的時間間隔
指數(shù)分布的公式可以從泊松分布推斷出來。如果下一個嬰兒要間隔時間t,就等同于t之內(nèi)沒有任何嬰兒出生,即:
指數(shù)分布的圖像如下:
6)泊松分布
日常生活中,大量事件是有固定頻率的,比如:
某醫(yī)院平均每小時出生3個嬰兒
某網(wǎng)站平均每分鐘有2次訪問
某超市平均每小時銷售4包奶粉
它們的特點(diǎn)就是,我們可以預(yù)估這些事件的總數(shù),但是沒法知道具體的發(fā)生時間。已知平均每小時出生3個嬰兒,請問下一個小時,會出生幾個?有可能一下子出生6個,也有可能一個都不出生,這是我們沒法知道的。
泊松分布就是描述某段時間內(nèi),事件具體的發(fā)生概率。其概率函數(shù)為:
其中:
P表示概率,N表示某種函數(shù)關(guān)系,t表示時間,n表示數(shù)量,1小時內(nèi)出生3個嬰兒的概率,就表示為P(N(1)=3);λ表示事件的頻率。
還是以上面醫(yī)院平均每小時出生3個嬰兒為例,則λ=3;
那么,接下來兩個小時,一個嬰兒都不出生的概率可以求得為:
【注】上面的指數(shù)分布和泊松分布參考了阮一峰大牛的博客:“泊松分布和指數(shù)分布:10分鐘教程”,在此說明,也對其表示感謝!
3-10、Lagrange乘子法
對于一般的求極值問題我們都知道,求導(dǎo)等于0就可以了。但是如果我們不但要求極值,還要求一個滿足一定約束條件的極值,那么此時就可以構(gòu)造Lagrange函數(shù),其實(shí)就是把約束項添加到原函數(shù)上,然后對構(gòu)造的新函數(shù)求導(dǎo)。
對于一個要求極值的函數(shù)f(x,y),圖上的藍(lán)圈就是這個函數(shù)的等高圖,就是說f(x,y)=c1,c2,...,cn 分別代表不同的數(shù)值(每個值代表一圈,等高圖),我要找到一組(x,y),使它的值ci越大越好,但是這點(diǎn)必須滿足約束條件g(x,y)(在黃線上)。
也就是說f(x,y)和g(x,y)相切,或者說它們的梯度▽f和▽g平行,因此它們的梯度(偏導(dǎo))成倍數(shù)關(guān)系;那我么就假設(shè)為 λ 倍,然后把約束條件加到原函數(shù)后再對它求導(dǎo),其實(shí)就等于滿足了下圖上的式子。
在支持向量機(jī)模型(SVM)的推導(dǎo)中一步很關(guān)鍵的就是利用拉格朗日對偶性將原問題轉(zhuǎn)化為對偶問題。
3-11、最大似然估計
最大似然也稱為最大概似估計,即:在“模型已定,參數(shù)θ未知”的情況下,通過觀測數(shù)據(jù)估計未知參數(shù)θ的一種思想或方法。
其基本思想是:給定樣本取值后,該樣本最有可能來自參數(shù)為何值的總體。即:尋找使得觀測到樣本數(shù)據(jù)的可能性最大。
舉個例子,假設(shè)我們要統(tǒng)計全國人口的身高,首先假設(shè)這個身高服從服從正態(tài)分布,但是該分布的均值與方差未知。由于沒有足夠的人力和物力去統(tǒng)計全國每個人的身高,但是可以通過采樣(所有的采樣要求都是獨(dú)立同分布的),獲取部分人的身高,然后通過最大似然估計來獲取上述假設(shè)中的正態(tài)分布的均值與方差。
求極大似然函數(shù)估計值的一般步驟:
1、寫出似然函數(shù);
2、對似然函數(shù)取對數(shù);
3、兩邊同時求導(dǎo)數(shù);
4、令導(dǎo)數(shù)為0解出似然方程。
在機(jī)器學(xué)習(xí)中也會經(jīng)常見到極大似然的影子。比如后面的邏輯斯特回歸模型(LR),其核心就是構(gòu)造對數(shù)損失函數(shù)后運(yùn)用極大似然估計。
矩陣做約
內(nèi)容提要:
*天氣寒冷,注意保暖!
*寒假不可怕,就怕學(xué)霸玩轉(zhuǎn)寒假!
*知識點(diǎn)都已經(jīng)寫得這么明顯了,你還要錯過嗎?
雷課:
? ? ? ?讓教育更有質(zhì)量,
? ? ? ?讓教育更有想象!
總結(jié)
以上是生活随笔為你收集整理的机器学习理论引导 电子版_机器学习理论篇1:机器学习的数学基础(2)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 比亚迪汽车:某自媒体捏造“雇群众演员去
- 下一篇: 铁篱笆刺根的功效与作用、禁忌和食用方法