转载:概率与梳理统计||数学基础
導(dǎo)言:本文從微積分相關(guān)概念,梳理到概率論與數(shù)理統(tǒng)計(jì)中的相關(guān)知識(shí),但本文之壓軸戲在本文第4節(jié)(徹底顛覆以前讀書時(shí)大學(xué)課本灌輸給你的觀念,一探正態(tài)分布之神秘芳蹤,知曉其前后發(fā)明歷史由來),相信,每一個(gè)學(xué)過概率論與數(shù)理統(tǒng)計(jì)的朋友都有必要了解數(shù)理統(tǒng)計(jì)學(xué)簡史,因?yàn)?#xff0c;只有了解各個(gè)定理.公式的發(fā)明歷史,演進(jìn)歷程.相關(guān)聯(lián)系,才能更好的理解你眼前所見到的知識(shí),才能更好的運(yùn)用之。
前言
? ??一個(gè)月余前,在微博上感慨道,不知日后是否有無機(jī)會(huì)搞DM,微博上的朋友只看不發(fā)的圍脖評(píng)論道:算法研究領(lǐng)域,那里要的是數(shù)學(xué),你可以深入學(xué)習(xí)數(shù)學(xué),將算法普及當(dāng)興趣。想想,甚合我意。自此,便從rickjin寫的“正態(tài)分布的前世今生”開始研習(xí)數(shù)學(xué)。
? ? 如之前微博上所說,“今年5月接觸DM,循序?qū)W習(xí)決策樹.貝葉斯,SVM.KNN,感數(shù)學(xué)功底不足,遂補(bǔ)數(shù)學(xué),從‘正態(tài)分布的前后今生’中感到數(shù)學(xué)史有趣,故買本微積分概念發(fā)展史讀,在嘆服前人偉大的創(chuàng)造之余,感微積分概念模糊,復(fù)習(xí)高等數(shù)學(xué)上冊(cè),完后學(xué)概率論與數(shù)理統(tǒng)計(jì),感概道:微積分是概數(shù)統(tǒng)計(jì)基礎(chǔ),概數(shù)統(tǒng)計(jì)則是DM&ML之必修課。”包括讀者相信也已經(jīng)感覺到,我在寫這個(gè)Top 10 Algorithms in Data Mining系列的時(shí)候,其中涉及到諸多的數(shù)學(xué)概念與基礎(chǔ)知識(shí)(例如此篇SVM文章內(nèi)諸多max.s.t.對(duì)偶.KKT條件.拉格朗日.松弛因子等問題則皆屬于數(shù)學(xué)內(nèi)一分支:最優(yōu)化理論與算法范疇內(nèi)),特別是概率論與數(shù)理統(tǒng)計(jì)部分。更進(jìn)一步,在寫上一篇文章的時(shí)候,看到機(jī)器學(xué)習(xí)中那么多距離度量的表示法,發(fā)現(xiàn)連最起碼的期望,方差,標(biāo)準(zhǔn)差等基本概念都甚感模糊,于此,便深感數(shù)學(xué)之重要性。
? ? 很快,我便買了一本高等教育出版社出版的概率論與數(shù)理統(tǒng)計(jì)一書,此書“從0-1分布、到二項(xiàng)分布、正態(tài)分布,概率密度函數(shù),從期望到方差、標(biāo)準(zhǔn)差、協(xié)方差,中心極限定理,樣本和抽樣,從最大似然估計(jì)量到各種置信區(qū)間,從方差分析到回歸分析,bootstrap方法,最后到馬爾可夫鏈,以前在學(xué)校沒開概率論與數(shù)理統(tǒng)計(jì)這門課,現(xiàn)在有的學(xué)有的看了”。且人類發(fā)明計(jì)算機(jī),是為了輔助人類解決現(xiàn)實(shí)生活中遇到的問題,然計(jì)算機(jī)科學(xué)畢竟只發(fā)展了數(shù)十年,可在數(shù)學(xué).統(tǒng)計(jì)學(xué)中,諸多現(xiàn)實(shí)生活問題已經(jīng)思考了數(shù)百年甚至上千年,故,計(jì)算機(jī)若想更好的服務(wù)人類解決問題,須有效借鑒或參考數(shù)學(xué).統(tǒng)計(jì)學(xué)。世間萬事萬物,究其本質(zhì)乃數(shù)學(xué),于變化莫測(cè)中尋其規(guī)律謂之統(tǒng)計(jì)學(xué)。
? ? 話休絮煩。本文結(jié)合高等數(shù)學(xué)上下冊(cè)、微積分概念發(fā)展史,概率論與數(shù)理統(tǒng)計(jì)、數(shù)理統(tǒng)計(jì)學(xué)簡史等書,及rickjin寫的“正態(tài)分布的前世今生”系列(此文亦可看作讀書筆記或讀后感)與wikipedia整理而成,對(duì)數(shù)據(jù)挖掘中所需的概率論與數(shù)理統(tǒng)計(jì)相關(guān)知識(shí)概念作個(gè)總結(jié)梳理,方便你我隨時(shí)查看復(fù)習(xí)相關(guān)概念,而欲深入學(xué)習(xí)研究的課后還需參看相關(guān)專業(yè)書籍.資料。同時(shí),本文篇幅會(huì)比較長,簡單來說:
? ? 5部分起承轉(zhuǎn)合,彼此依托,層層遞進(jìn)。且在本文中,會(huì)出現(xiàn)諸多并不友好的大量各種公式,但基本的概念.定理是任何復(fù)雜問題的根基,所以,你我都有必要硬著頭皮好好細(xì)細(xì)閱讀。最后,本文若有任何問題或錯(cuò)誤,懇請(qǐng)廣大讀者朋友們不吝批評(píng)指正,謝謝。
第一節(jié)、微積分的基本概念
? ? 開頭前言說,微積分是概數(shù)統(tǒng)計(jì)基礎(chǔ),概數(shù)統(tǒng)計(jì)則是DM&ML之必修課”,是有一定根據(jù)的,包括后續(xù)數(shù)理統(tǒng)計(jì)當(dāng)中,如正態(tài)分布的概率密度函數(shù)中用到了相關(guān)定積分的知識(shí),包括最小二乘法問題的相關(guān)探討求證都用到了求偏導(dǎo)數(shù)的等概念,這些都是跟微積分相關(guān)的知識(shí)。故咱們第一節(jié)先復(fù)習(xí)下微積分的相關(guān)基本概念。
? ? 事實(shí)上,古代數(shù)學(xué)中,單單無窮小、無窮大的概念就討論了近200年,而后才由無限發(fā)展到極限的概念。
1.1、極限
? ? 極限又分為兩部分:數(shù)列的極限和函數(shù)的極限。
1.1.1、數(shù)列的極限
? ? 定義??如果數(shù)列{xn}與常a?有下列關(guān)系:對(duì)于任意給定的正數(shù)e?(不論它多么小),?總存在正整數(shù)N?,?使得對(duì)于n?>N?時(shí)的一切xn,?不等式?|xn-a?|<e都成立,?則稱常數(shù)a?是數(shù)列{xn}的極限,?或者稱數(shù)列{xn}收斂于a?,?記為或
? ? 也就是說,
1.1.2、函數(shù)的極限
? ? 設(shè)函數(shù)f(x)在點(diǎn)x0的某一去心鄰域內(nèi)有定義.?如果存在常數(shù)A,?對(duì)于任意給定的正數(shù)e?(不論它多么小),?總存在正數(shù)d,?使得當(dāng)x滿足不等式0<|x-x0|<d 時(shí),?對(duì)應(yīng)的函數(shù)值f(x)都滿足不等式?????|f(x)-A|<e?, 那么常數(shù)A就叫做函數(shù)f(x)時(shí)的極限,?記為
? ? 也就是說,
? ? 幾乎沒有一門新的數(shù)學(xué)分支是某個(gè)人單獨(dú)的成果,如笛卡兒和費(fèi)馬的解析幾何不僅僅是他們兩人研究的成果,而是若干數(shù)學(xué)思潮在16世紀(jì)和17世紀(jì)匯合的產(chǎn)物,是由許許多多的學(xué)者共同努力而成。
? ? 甚至微積分的發(fā)展也不是牛頓與萊布尼茨兩人之功。在17世紀(jì)下半葉,數(shù)學(xué)史上出現(xiàn)了無窮小的概念,而后才發(fā)展到極限,到后來的微積分的提出。然就算牛頓和萊布尼茨提出了微積分,但微積分的概念尚模糊不清,在牛頓和萊布尼茨之后,后續(xù)經(jīng)過一個(gè)多世紀(jì)的發(fā)展,諸多學(xué)者的努力,才真正清晰了微積分的概念。
? ? 也就是說,從無窮小到極限,再到微積分定義的真正確立,經(jīng)歷了幾代人幾個(gè)世紀(jì)的努力,而課本上所呈現(xiàn)的永遠(yuǎn)只是冰山一角。
1.2、導(dǎo)數(shù)
設(shè)有定義域和取值都在實(shí)數(shù)域中的函數(shù)。若在點(diǎn)的某個(gè)鄰域內(nèi)有定義,則當(dāng)自變量在處取得增量(點(diǎn)仍在該鄰域內(nèi))時(shí),相應(yīng)地函數(shù)取得增量;如果與之比當(dāng)時(shí)的極限存在,則稱函數(shù)在點(diǎn)處可導(dǎo),并稱這個(gè)極限為函數(shù)在點(diǎn)處的導(dǎo)數(shù),記為。即:? ? 也可記為:,或。
1.3、微分
設(shè)函數(shù)在某區(qū)間內(nèi)有定義。對(duì)于內(nèi)一點(diǎn),當(dāng)變動(dòng)到附近的(也在此區(qū)間內(nèi))時(shí)。如果函數(shù)的增量可表示為(其中是不依賴于的常數(shù)),而是比高階的無窮小,那么稱函數(shù)在點(diǎn)是可微的,且稱作函數(shù)在點(diǎn)相應(yīng)于自變量增量的微分,記作,即,是的線性主部。通常把自變量的增量稱為自變量的微分,記作,即。?實(shí)際上,前面講了導(dǎo)數(shù),而微積分則是在導(dǎo)數(shù)的基礎(chǔ)上加個(gè)后綴,即為:。1.4、積分?
積分是微積分學(xué)與數(shù)學(xué)分析里的一個(gè)核心概念。通常分為定積分和不定積分兩種。不定積分的定義一個(gè)函數(shù)的不定積分,也稱為原函數(shù)或反導(dǎo)數(shù),是一個(gè)導(dǎo)數(shù)等于的函數(shù),即不定積分的有換元積分法,分部積分法等求法。定積分的定義直觀地說,對(duì)于一個(gè)給定的正實(shí)值函數(shù),在一個(gè)實(shí)數(shù)區(qū)間上的定積分:定積分與不定積分區(qū)別在于不定積分便是不給定區(qū)間,也就是說,上式子中,積分符號(hào)沒有a、b。下面,介紹定積分中值定理。如果函數(shù)f(x)在閉區(qū)間[a,b]上連續(xù),?則在積分區(qū)間[a,b]上至少存在一個(gè)點(diǎn),使下式成立:這個(gè)公式便叫積分中值公式。牛頓-萊布尼茨公式接下來,咱們講介紹微積分學(xué)中最重要的一個(gè)公式:牛頓-萊布尼茨公式。如果函數(shù)F?(x)是連續(xù)函數(shù)f(x)在區(qū)間[a,?b]上的一個(gè)原函數(shù),?則此公式稱為牛頓-萊布尼茨公式,?也稱為微積分基本公式。這個(gè)公式由此便打通了原函數(shù)與定積分之間的聯(lián)系,它表明:一個(gè)連續(xù)函數(shù)在區(qū)間[a,?b]上的定積分等于它的任一個(gè)原函數(shù)在區(qū)間[a,?b]上的增量,如此,便給定積分提供了一個(gè)有效而極為簡單的計(jì)算方法,大大簡化了定積分的計(jì)算手續(xù)。下面,舉個(gè)例子說明如何通過原函數(shù)求取定積分。如要計(jì)算,由于是的一個(gè)原函數(shù),所以。
1.5、偏導(dǎo)數(shù)
對(duì)于二元函數(shù)z = f(x,y) 如果只有自變量x 變化,而自變量y固定 這時(shí)它就是x的一元函數(shù),這函數(shù)對(duì)x的導(dǎo)數(shù),就稱為二元函數(shù)z = f(x,y)對(duì)于x的偏導(dǎo)數(shù)。? ? 定義 ?設(shè)函數(shù)z = f(x,y)在點(diǎn)(x0,y0)的某一鄰域內(nèi)有定義,當(dāng)y固定在y0而x在x0處有增量時(shí),相應(yīng)地函數(shù)有增量,
如果極限存在,則稱此極限為函數(shù)z = f(x,y)在點(diǎn)(x0,y0)處對(duì) x 的偏導(dǎo)數(shù),記作:例如。類似的,二元函數(shù)對(duì)y求偏導(dǎo),則把x當(dāng)做常量。此外,上述內(nèi)容只講了一階偏導(dǎo),而有一階偏導(dǎo)就有二階偏導(dǎo),這里只做個(gè)簡要介紹,具體應(yīng)用具體分析,或參看高等數(shù)學(xué)上下冊(cè)相關(guān)內(nèi)容。接下來,進(jìn)入本文的主題,從第二節(jié)開始。
第二節(jié)、離散.連續(xù).多維隨機(jī)變量及其分布
2.1、幾個(gè)基本概念點(diǎn)
(一)樣本空間
定義:隨機(jī)試驗(yàn)E的所有結(jié)果構(gòu)成的集合稱為E的 樣本空間,記為S={e},稱S中的元素e為樣本點(diǎn),一個(gè)元素的單點(diǎn)集稱為基本事件.
(二)條件概率
(三)全概率公式和貝葉斯公式
1、全概率公式假設(shè){?Bn?:?n?=?1,?2,?3,?...?}?是一個(gè)概率空間的有限或者可數(shù)無限的分割,且每個(gè)集合Bn是一個(gè)可測(cè)集合,則對(duì)任意事件A有全概率公式:又因?yàn)?p>所以,此處Pr(A?|?B)是B發(fā)生后A的條件概率,所以全概率公式又可寫作:在離散情況下,上述公式等于下面這個(gè)公式:。但后者在連續(xù)情況下仍然成立:此處N是任意隨機(jī)變量。這個(gè)公式還可以表達(dá)為:"A的先驗(yàn)概率等于A的后驗(yàn)概率的先驗(yàn)期望值。?2、貝葉斯公式貝葉斯定理(Bayes' theorem),是概率論中的一個(gè)結(jié)果,它跟隨機(jī)變量的條件概率以及邊緣概率分布有關(guān)。在有些關(guān)于概率的解說中,貝葉斯定理(貝葉斯更新)能夠告知我們?nèi)绾卫眯伦C據(jù)修改已有的看法。? ? 通常,事件A在事件B(發(fā)生)的條件下的概率,與事件B在事件A的條件下的概率是不一樣的;然而,這兩者是有確定的關(guān)系,貝葉斯定理就是這種關(guān)系的陳述。如此篇blog第二部分所述“據(jù)維基百科上的介紹,貝葉斯定理實(shí)際上是關(guān)于隨機(jī)事件A和B的條件概率和邊緣概率的一則定理。如上所示,其中P(A|B)是在B發(fā)生的情況下A發(fā)生的可能性。在貝葉斯定理中,每個(gè)名詞都有約定俗成的名稱:
- P(A)是A的先驗(yàn)概率或邊緣概率。之所以稱為"先驗(yàn)"是因?yàn)樗豢紤]任何B方面的因素。
- P(A|B)是已知B發(fā)生后A的條件概率(直白來講,就是先有B而后=>才有A),也由于得自B的取值而被稱作A的后驗(yàn)概率。
- P(B|A)是已知A發(fā)生后B的條件概率(直白來講,就是先有A而后=>才有B),也由于得自A的取值而被稱作B的后驗(yàn)概率。
- P(B)是B的先驗(yàn)概率或邊緣概率,也作標(biāo)準(zhǔn)化常量(normalized?constant)。
? ? ?根據(jù)條件概率的定義,在事件B發(fā)生的條件下事件A發(fā)生的概率是
? ? 同樣地,在事件A發(fā)生的條件下事件B發(fā)生的概率
? ? ?整理與合并這兩個(gè)方程式,我們可以找到
? ? ?這個(gè)引理有時(shí)稱作概率乘法規(guī)則。上式兩邊同除以P(B),若P(B)是非零的,我們可以得到貝葉斯?定理:
2.2、隨機(jī)變量及其分布
2.2.1、何謂隨機(jī)變量
? ? 何謂隨機(jī)變量?即給定樣本空間,其上的實(shí)值函數(shù)稱為(實(shí)值)隨機(jī)變量。
如果隨機(jī)變量的取值是有限的或者是可數(shù)無窮盡的值,則稱為離散隨機(jī)變量(用白話說,此類隨機(jī)變量是間斷的)。如果由全部實(shí)數(shù)或者由一部分區(qū)間組成,則稱為連續(xù)隨機(jī)變量,連續(xù)隨機(jī)變量的值是不可數(shù)及無窮盡的(用白話說,此類隨機(jī)變量是連續(xù)的,不間斷的):? ? 也就是說,隨機(jī)變量分為離散型隨機(jī)變量,和連續(xù)型隨機(jī)變量,當(dāng)要求隨機(jī)變量的概率分布的時(shí)候,要分別處理之,如:
- 針對(duì)離散型隨機(jī)變量而言,一般以加法的形式處理其概率和;
- 而針對(duì)連續(xù)型隨機(jī)變量而言,一般以積分形式求其概率和。
? ? 再換言之,對(duì)離散隨機(jī)變量用求和得全概率,對(duì)連續(xù)隨機(jī)變量用積分得全概率。這點(diǎn)包括在第4節(jié)中相關(guān)期望.方差.協(xié)方差等概念會(huì)反復(fù)用到,望讀者注意之。
2.2.2、離散型隨機(jī)變量的定義
定義:取值至多可數(shù)的隨機(jī)變量為離散型的隨機(jī)變量。概率分布(分布律)為且(一)(0-1)分布
若X的分布律為:同時(shí),p+q=1,p>0,q>0,則則稱X服從參數(shù)為p的0-1分布,或兩點(diǎn)分布。此外,(0-1)分布的分布律還可表示為:或我們常說的拋硬幣實(shí)驗(yàn)便符合此(0-1)分布。(二)、二項(xiàng)分布
二項(xiàng)分布是n個(gè)獨(dú)立的是/非試驗(yàn)中成功的次數(shù)的離散概率分布,其中每次試驗(yàn)的成功概率為p。這樣的單次成功/失敗試驗(yàn)又稱為伯努利試驗(yàn)。舉個(gè)例子就是,獨(dú)立重復(fù)地拋n次硬幣,每次只有兩個(gè)可能的結(jié)果:正面,反面,概率各占1/2。設(shè)A在n重貝努利試驗(yàn)中發(fā)生X次,則并稱X服從參數(shù)為p的二項(xiàng)分布,記為:與此同時(shí),
(三)、泊松分布(Poisson分布)
Poisson分布(法語:loi de Poisson,英語:Poisson distribution),即泊松分布,是一種統(tǒng)計(jì)與概率學(xué)里常見到的離散概率分布,由法國數(shù)學(xué)家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年時(shí)發(fā)表。若隨機(jī)變量X的概率分布律為稱X服從參數(shù)為λ的泊松分布,記為:有一點(diǎn)提前說一下,泊松分布中,其數(shù)學(xué)期望與方差相等,都為參數(shù)λ。?泊松分布的來源在二項(xiàng)分布的伯努力試驗(yàn)中,如果試驗(yàn)次數(shù)n很大,二項(xiàng)分布的概率p很小,且乘積λ= n p比較適中,則事件出現(xiàn)的次數(shù)的概率可以用泊松分布來逼近。事實(shí)上,二項(xiàng)分布可以看作泊松分布在離散時(shí)間上的對(duì)應(yīng)物。證明如下。首先,回顧e的定義:二項(xiàng)分布的定義:如果令,趨于無窮時(shí)的極限:上述過程表明:Poisson(λ) 分布可以看成是二項(xiàng)分布 B(n,p) 在 np=λ,n→∞ 條件下的極限分布。最大似然估計(jì)給定n個(gè)樣本值ki,希望得到從中推測(cè)出總體的泊松分布參數(shù)λ的估計(jì)。為計(jì)算最大似然估計(jì)值,?列出對(duì)數(shù)似然函數(shù):對(duì)函數(shù)L取相對(duì)于λ的導(dǎo)數(shù)并令其等于零:解得λ從而得到一個(gè)駐點(diǎn)(stationary?point):檢查函數(shù)L的二階導(dǎo)數(shù),發(fā)現(xiàn)對(duì)所有的λ?與ki大于零的情況二階導(dǎo)數(shù)都為負(fù)。因此求得的駐點(diǎn)是對(duì)數(shù)似然函數(shù)L的極大值點(diǎn):證畢。OK,上面內(nèi)容都是針對(duì)的離散型隨機(jī)變量,那如何求連續(xù)型隨機(jī)變量的分布律呢?請(qǐng)接著看以下內(nèi)容。2.2.3、隨機(jī)變量分布函數(shù)定義的引出
實(shí)際中,如上2.2.2節(jié)所述,- 對(duì)于離散型隨機(jī)變量而言,其所有可能的取值可以一一列舉出來,
- 可對(duì)于非離散型隨機(jī)變量,即連續(xù)型隨機(jī)變量X而言,其所有可能的值則無法一一列舉出來,
2.2.4、連續(xù)型隨機(jī)變量及其概率密度
定義:對(duì)于隨機(jī)變量X的分布函數(shù)F(x),若存在非負(fù)的函數(shù)f(x),使對(duì)于任意實(shí)數(shù)x,有:則稱X為連續(xù)型隨機(jī)變量,其中f(x)稱為X的概率密度函數(shù),簡稱概率密度。連續(xù)型隨機(jī)變量的概率密度f(x)有如下性質(zhì):且如果概率密度函數(shù)在一點(diǎn)上連續(xù),那么累積分布函數(shù)可導(dǎo),并且它的導(dǎo)數(shù):。如下圖所示:接下來,介紹三種連續(xù)型隨機(jī)變量的分布,由于均勻分布及指數(shù)分布比較簡單,所以,一圖以概之,下文會(huì)重點(diǎn)介紹正態(tài)分布。(一)、均勻分布若連續(xù)型隨機(jī)變量X具有概率密度則稱X 在區(qū)間(a,b)上服從均勻分布,記為X~U(a,b)。易知,f(x) >= 0,且其期望值為(a + b)/ 2。(二)、指數(shù)分布若連續(xù)型隨機(jī)變量X 的概率密度為其中λ>0為常數(shù),則稱X服從參數(shù)為λ的指數(shù)分布。記為(三)、正態(tài)分布在各種公式紛至沓來之前,我先說一句:正態(tài)分布沒有你想的那么神秘,它無非是研究誤差分布的一個(gè)理論,因?yàn)閷?shí)踐過程中,測(cè)量值和真實(shí)值總是存在一定的差異,這個(gè)不可避免的差異即誤差,而誤差的出現(xiàn)或者分布是有規(guī)律的,而正態(tài)分布不過就是研究誤差的分布規(guī)律的一個(gè)理論。OK,若隨機(jī)變量服從一個(gè)位置參數(shù)為、尺度參數(shù)為的概率分布,記為:?則其概率密度函數(shù)為
我們便稱這樣的分布為正態(tài)分布或高斯分布,記為:正態(tài)分布的數(shù)學(xué)期望值或期望值等于位置參數(shù),決定了分布的位置;其方差的開平方,即標(biāo)準(zhǔn)差等于尺度參數(shù),決定了分布的幅度。正態(tài)分布的概率密度函數(shù)曲線呈鐘形,因此人們又經(jīng)常稱之為鐘形曲線。它有以下幾點(diǎn)性質(zhì),如下圖所示:正態(tài)分布的概率密度曲線則如下圖所示:
當(dāng)固定尺度參數(shù),改變位置參數(shù)的大小時(shí),f(x)圖形的形狀不變,只是沿著x軸作平移變換,如下圖所示:而當(dāng)固定位置參數(shù),改變尺度參數(shù)的大小時(shí),f(x)圖形的對(duì)稱軸不變,形狀在改變,越小,圖形越高越瘦,越大,圖形越矮越胖。如下圖所示:故有咱們上面的結(jié)論,在正態(tài)分布中,稱μ為位置參數(shù)(決定對(duì)稱軸位置),而?σ為尺度參數(shù)(決定曲線分散性)。同時(shí),在自然現(xiàn)象和社會(huì)現(xiàn)象中,大量隨機(jī)變量服從或近似服從正態(tài)分布。而我們通常所說的標(biāo)準(zhǔn)正態(tài)分布是位置參數(shù),?尺度參數(shù)的正態(tài)分布,記為:相關(guān)內(nèi)容如下兩圖總結(jié)所示(來源:大嘴巴漫談數(shù)據(jù)挖掘):
2.2.5、各種分布的比較
上文中,從離散型隨機(jī)變量的分布:(0-1)分布、泊松分布、二項(xiàng)分布,講到了連續(xù)型隨機(jī)變量的分布:均勻分布、指數(shù)分布、正態(tài)分布,那這么多分布,其各自的期望.方差(期望方差的概念下文將予以介紹)都是多少呢?雖說,還有不少分布上文尚未介紹,不過在此,提前總結(jié)下,如下兩圖所示(摘自盛驟版的概率論與數(shù)理統(tǒng)計(jì)一書后的附錄中):本文中,二維.多維隨機(jī)變量及其分布不再論述。第三節(jié)、從數(shù)學(xué)期望、方差、協(xié)方差到中心極限定理
3.1、數(shù)學(xué)期望、方差、協(xié)方差
3.1.1、數(shù)學(xué)期望
如果X是在概率空間(Ω,?P)中的一個(gè)隨機(jī)變量,那么它的期望值E[X]的定義是:并不是每一個(gè)隨機(jī)變量都有期望值的,因?yàn)橛械臅r(shí)候這個(gè)積分不存在。如果兩個(gè)隨機(jī)變量的分布相同,則它們的期望值也相同。在概率論和統(tǒng)計(jì)學(xué)中,數(shù)學(xué)期望分兩種(依照上文第二節(jié)相關(guān)內(nèi)容也可以得出),一種為離散型隨機(jī)變量的期望值,一種為連續(xù)型隨機(jī)變量的期望值。- 一個(gè)離散性隨機(jī)變量的期望值(或數(shù)學(xué)期望、或均值,亦簡稱期望)是試驗(yàn)中每次可能結(jié)果的概率乘以其結(jié)果的總和。換句話說,期望值是隨機(jī)試驗(yàn)在同樣的機(jī)會(huì)下重復(fù)多次的結(jié)果計(jì)算出的等同“期望”的平均值。
- 而對(duì)于一個(gè)連續(xù)型隨機(jī)變量來說,如果X的概率分布存在一個(gè)相應(yīng)的概率密度函數(shù)f(x),若積分絕對(duì)收斂,那么X?的期望值可以計(jì)算為:?
3.1.2、方差與標(biāo)準(zhǔn)差
方差?? ?在概率論和統(tǒng)計(jì)學(xué)中,一個(gè)隨機(jī)變量的方差(Variance)描述的是它的離散程度,也就是該變量離其期望值的距離。一個(gè)實(shí)隨機(jī)變量的方差也稱為它的二階矩或二階中心動(dòng)差,恰巧也是它的二階累積量。方差的算術(shù)平方根稱為該隨機(jī)變量的標(biāo)準(zhǔn)差。其定義為:如果是隨機(jī)變量X的期望值(平均數(shù))?設(shè)為服從分布的隨機(jī)變量,則稱為隨機(jī)變量或者分布的方差:其中,μ為平均數(shù),N為樣本總數(shù)。?分別針對(duì)離散型隨機(jī)變量和連續(xù)型隨機(jī)變量而言,方差的分布律和概率密度如下圖所示:標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差(Standard Deviation),在概率統(tǒng)計(jì)中最常使用作為統(tǒng)計(jì)分布程度(statistical dispersion)上的測(cè)量。標(biāo)準(zhǔn)差定義為方差的算術(shù)平方根,反映組內(nèi)個(gè)體間的離散程度。簡單來說,標(biāo)準(zhǔn)差是一組數(shù)值自平均值分散開來的程度的一種測(cè)量觀念。一個(gè)較大的標(biāo)準(zhǔn)差,代表大部分的數(shù)值和其平均值之間差異較大;一個(gè)較小的標(biāo)準(zhǔn)差,代表這些數(shù)值較接近平均值。例如,兩組數(shù)的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是 7 ,但第二個(gè)集合具有較小的標(biāo)準(zhǔn)差。前面說過,方差的算術(shù)平方根稱為該隨機(jī)變量的標(biāo)準(zhǔn)差,故一隨機(jī)變量的標(biāo)準(zhǔn)差定義為:須注意并非所有隨機(jī)變量都具有標(biāo)準(zhǔn)差,因?yàn)橛行╇S機(jī)變量不存在期望值。?如果隨機(jī)變量為具有相同概率,則可用上述公式計(jì)算標(biāo)準(zhǔn)差。?上述方差.標(biāo)準(zhǔn)差等相關(guān)內(nèi)容,可用下圖總結(jié)之:樣本標(biāo)準(zhǔn)差在真實(shí)世界中,除非在某些特殊情況下,找到一個(gè)總體的真實(shí)的標(biāo)準(zhǔn)差是不現(xiàn)實(shí)的。大多數(shù)情況下,總體標(biāo)準(zhǔn)差是通過隨機(jī)抽取一定量的樣本并計(jì)算樣本標(biāo)準(zhǔn)差估計(jì)的。說白了,就是數(shù)據(jù)海量,想計(jì)算總體海量數(shù)據(jù)的標(biāo)準(zhǔn)差無異于大海撈針,那咋辦呢?抽取其中一些樣本作為抽樣代表唄。而從一大組數(shù)值當(dāng)中取出一樣本數(shù)值組合,進(jìn)而,我們可以定義其樣本標(biāo)準(zhǔn)差為:樣本方差是對(duì)總體方差的無偏估計(jì)。??中分母為 n-1?是因?yàn)榈淖杂啥葹閚-1(且慢,何謂自由度?簡單說來,即指樣本中的n個(gè)數(shù)都是相互獨(dú)立的,從其中抽出任何一個(gè)數(shù)都不影響其他數(shù)據(jù),所以自由度就是估計(jì)總體參數(shù)時(shí)獨(dú)立數(shù)據(jù)的數(shù)目,而平均數(shù)是根據(jù)n個(gè)獨(dú)立數(shù)據(jù)來估計(jì)的,因此自由度為n),這是由于存在約束條件。?3.1.3、協(xié)方差與相關(guān)系數(shù)
協(xié)方差下圖即可說明何謂協(xié)方差,同時(shí),引出相關(guān)系數(shù)的定義:相關(guān)系數(shù)?
? ? 如上篇kd樹blog所述相關(guān)系數(shù)?(?Correlation?coefficient?)的定義是:
(其中,E為數(shù)學(xué)期望或均值,D為方差,D開根號(hào)為標(biāo)準(zhǔn)差,E{ [X-E(X)] [Y-E(Y)]}稱為隨機(jī)變量X與Y的協(xié)方差,記為Cov(X,Y),即Cov(X,Y) =?E{ [X-E(X)] [Y-E(Y)]},而兩個(gè)變量之間的協(xié)方差和標(biāo)準(zhǔn)差的商則稱為隨機(jī)變量X與Y的相關(guān)系數(shù),記為)
? ? 相關(guān)系數(shù)衡量隨機(jī)變量X與Y相關(guān)程度的一種方法,相關(guān)系數(shù)的取值范圍是[-1,1]。相關(guān)系數(shù)的絕對(duì)值越大,則表明X與Y相關(guān)度越高。當(dāng)X與Y線性相關(guān)時(shí),相關(guān)系數(shù)取值為1(正線性相關(guān))或-1(負(fù)線性相關(guān))。
? ? 具體的,如果有兩個(gè)變量:X、Y,最終計(jì)算出的相關(guān)系數(shù)的含義可以有如下理解:
3.1.4、協(xié)方差矩陣與主成成分分析
協(xié)方差矩陣
? ? 由上,我們已經(jīng)知道:協(xié)方差是衡量兩個(gè)隨機(jī)變量的相關(guān)程度。且隨機(jī)變量?之間的協(xié)方差可以表示為
????? ??????????????????????? ??? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ?故根據(jù)已知的樣本值可以得到協(xié)方差的估計(jì)值如下:
??????????????????? ???????????? ? ? ? ? ? ? ??
????可以進(jìn)一步地簡化為:
?????????????????????????????????????? ? ? ? ? ? ? ? ? ? ? ??
? ? 如此,便引出了所謂的協(xié)方差矩陣:?
主成成分分析
? ? 盡管從上面看來,協(xié)方差矩陣貌似很簡單,可它卻是很多領(lǐng)域里的非常有力的工具。它能導(dǎo)出一個(gè)變換矩陣,這個(gè)矩陣能使數(shù)據(jù)完全去相關(guān)(decorrelation)。從不同的角度看,也就是說能夠找出一組最佳的基以緊湊的方式來表達(dá)數(shù)據(jù)。這個(gè)方法在統(tǒng)計(jì)學(xué)中被稱為主成分分析(principal components analysis,簡稱PCA),在圖像處理中稱為Karhunen-Loève 變換(KL-變換)。
? ? 根據(jù)wikipedia上的介紹,主成分分析PCA由卡爾·皮爾遜于1901年發(fā)明,用于分析數(shù)據(jù)及建立數(shù)理模型。其方法主要是通過對(duì)協(xié)方差矩陣進(jìn)行特征分解,以得出數(shù)據(jù)的主成分(即特征矢量)與它們的權(quán)值(即特征值)。PCA是最簡單的以特征量分析多元統(tǒng)計(jì)分布的方法。其結(jié)果可以理解為對(duì)原數(shù)據(jù)中的方差做出解釋:哪一個(gè)方向上的數(shù)據(jù)值對(duì)方差的影響最大。
? ? 然為何要使得變換后的數(shù)據(jù)有著最大的方差呢?我們知道,方差的大小描述的是一個(gè)變量的信息量,我們?cè)谥v一個(gè)東西的穩(wěn)定性的時(shí)候,往往說要減小方差,如果一個(gè)模型的方差很大,那就說明模型不穩(wěn)定了。但是對(duì)于我們用于機(jī)器學(xué)習(xí)的數(shù)據(jù)(主要是訓(xùn)練數(shù)據(jù)),方差大才有意義,不然輸入的數(shù)據(jù)都是同一個(gè)點(diǎn),那方差就為0了,這樣輸入的多個(gè)數(shù)據(jù)就等同于一個(gè)數(shù)據(jù)了。
簡而言之,主成分分析PCA,留下主成分,剔除噪音,是一種降維方法,限高斯分布,n維眏射到k維,? ? 再換言之,PCA提供了一種降低數(shù)據(jù)維度的有效辦法;如果分析者在原數(shù)據(jù)中除掉最小的特征值所對(duì)應(yīng)的成分,那么所得的低維度數(shù)據(jù)必定是最優(yōu)化的(也即,這樣降低維度必定是失去訊息最少的方法)。主成分分析在分析復(fù)雜數(shù)據(jù)時(shí)尤為有用,比如人臉識(shí)別。
3.2、中心極限定理
本節(jié)先給出現(xiàn)在一般的概率論與數(shù)理統(tǒng)計(jì)教材上所介紹的2個(gè)定理,然后簡要介紹下中心極限定理的相關(guān)歷史。3.2.1、獨(dú)立同分布的中心極限定理
獨(dú)立中心極限定理如下兩圖所示:3.2.2、棣莫弗-拉普拉斯中心極限定理
? ? 此外,據(jù)wikipedia上的介紹,包括上面介紹的棣莫弗-拉普拉斯定理在內(nèi),歷史上前后發(fā)展了三個(gè)相關(guān)的中心極限定理,它們得出的結(jié)論及內(nèi)容分別是:
- 棣莫弗-拉普拉斯(de Movire - Laplace)定理是中心極限定理的最初版本,討論了服從二項(xiàng)分布的隨機(jī)變量序列。
(i)當(dāng)及時(shí),一致地有
(ii)當(dāng)時(shí),一致地有,?,其中。它指出,參數(shù)為n, p的二項(xiàng)分布以np為均值、np(1-p)為方差的正態(tài)分布為極限。 ? ?
- 林德伯格-列維(Lindeberg-Levy)定理,是棣莫佛-拉普拉斯定理的擴(kuò)展,討論獨(dú)立同分布隨機(jī)變量序列的中心極限定理。
- 林德伯格-費(fèi)勒定理,是中心極限定理的高級(jí)形式,是對(duì)林德伯格-列維定理的擴(kuò)展,討論獨(dú)立,但不同分布的情況下的隨機(jī)變量和。
? ? 滿足此條件的序列趨向于正態(tài)分布,即與之相關(guān)的是李雅普諾夫(Lyapunov)條件:滿足李雅普諾夫條件的序列必滿足林德伯格條件。?
? ??它表明,滿足一定條件時(shí),獨(dú)立,但不同分布的隨機(jī)變量序列的標(biāo)準(zhǔn)化和依然以標(biāo)準(zhǔn)正態(tài)分布為極限。
3.2.3、歷史
1776年,拉普拉斯開始考慮一個(gè)天文學(xué)中的彗星軌道的傾角的計(jì)算問題,最終的問題涉及獨(dú)立隨機(jī)變量求和的概率計(jì)算,也就是計(jì)算如下的概率值? ? 令?Sn=X1+X2+?+Xn,?那么在這個(gè)問題的處理上,拉普拉斯充分展示了其深厚的數(shù)學(xué)分析功底和高超的概率計(jì)算技巧,他首次引入了特征函數(shù)(也就是對(duì)概率密度函數(shù)做傅立葉變換)來處理概率分布的神妙方法,而這一方法經(jīng)過幾代概率學(xué)家的發(fā)展,在現(xiàn)代概率論里面占有極其重要的位置。基于這一分析方法,拉普拉斯通過近似計(jì)算,在他的1812年的名著《概率分析理論》中給出了中心極限定理的一般描述:[定理Laplace,1812]設(shè)?ei(i=1,?n)為獨(dú)立同分布的測(cè)量誤差,具有均值μ和方差σ2。如果λ1,?,λn為常數(shù),a>0,則有這已經(jīng)是比棣莫弗-拉普拉斯中心極限定理更加深刻的一個(gè)結(jié)論了,在現(xiàn)在大學(xué)本科的教材上,包括包括本文主要參考之一盛驟版的概率論與數(shù)理統(tǒng)計(jì)上,通常給出的是中心極限定理的一般形式:?[Lindeberg-Levy中心極限定理]?設(shè)X1,?,Xn獨(dú)立同分布,且具有有限的均值μ和方差σ2,則在n→∞時(shí),有
多么奇妙的性質(zhì),隨意的一個(gè)概率分布中生成的隨機(jī)變量,在序列和(或者等價(jià)的求算術(shù)平均)的操作之下,表現(xiàn)出如此一致的行為,統(tǒng)一的規(guī)約到正態(tài)分布。概率學(xué)家們進(jìn)一步的研究結(jié)果更加令人驚訝,序列求和最終要導(dǎo)出正態(tài)分布的條件并不需要這么苛刻,即便X1,?,Xn并不獨(dú)立,也不具有相同的概率分布形式,很多時(shí)候他們求和的最終歸宿仍然是正態(tài)分布。在正態(tài)分布、中心極限定理的確立之下,20世紀(jì)之后,統(tǒng)計(jì)學(xué)三大分布χ2分布、t分布、F分布也逐步登上歷史舞臺(tái):
? ? 如上所述,中心極限定理的歷史可大致概括為:
? ? 如今,中心極限定理被認(rèn)為是(非正式地)概率論中的首席定理。
第四節(jié)、從數(shù)理統(tǒng)計(jì)簡史中看正態(tài)分布的歷史由來
? ? 本節(jié)將結(jié)合數(shù)理統(tǒng)計(jì)學(xué)簡史一書,從早期概率論的發(fā)展、棣莫弗的二項(xiàng)概率逼近講到貝葉斯方法、最小二乘法、誤差與正態(tài)分布等問題,有詳有略,其中,重點(diǎn)闡述正態(tài)分布的歷史由來。
相信,你我可以想象得到,我們現(xiàn)在眼前所看到的正態(tài)分布曲線雖然看上去很美,但數(shù)學(xué)史上任何一個(gè)定理的發(fā)明幾乎都不可能一蹴而就,很多往往經(jīng)歷了幾代人的持續(xù)努力。因?yàn)樵诳蒲猩现T多觀念的革新和突破是有著很多的不易的,或許某個(gè)定理在某個(gè)時(shí)期由某個(gè)人點(diǎn)破了,現(xiàn)在的我們看來一切都是理所當(dāng)然,但在一切沒有發(fā)現(xiàn)之前,可能許許多多的頂級(jí)學(xué)者畢其功于一役,耗盡一生,努力了幾十年最終也是無功而返。如上文前三節(jié)所見,現(xiàn)在概率論與數(shù)理統(tǒng)計(jì)的教材上,一上來介紹正態(tài)分布,然后便給出其概率密度分布函數(shù),卻從來沒有說明這個(gè)分布函數(shù)是通過什么原理推導(dǎo)出來的。如此,可能會(huì)導(dǎo)致你我在內(nèi)的很多人一直搞不明白數(shù)學(xué)家當(dāng)年是怎么找到這個(gè)概率分布曲線的,又是怎么發(fā)現(xiàn)隨機(jī)誤差服從這個(gè)奇妙的分布的。我們?cè)趯?shí)踐中大量的使用正態(tài)分布,卻對(duì)這個(gè)分布的來龍去脈知之甚少。本文接下來的第四節(jié)將結(jié)合陳希儒院士的《數(shù)理統(tǒng)計(jì)學(xué)簡史》及“正態(tài)分布的前世今生”為你揭開正態(tài)分布的神秘面紗。4.1、正態(tài)分布的定義
上文中已經(jīng)給出了正態(tài)分布的相關(guān)定義,咱們先再來回顧下。如下兩圖所示(來源:大嘴巴漫談數(shù)據(jù)挖掘):相信,經(jīng)過上文諸多繁雜公式的轟炸,讀者或有些許不耐其煩,咱們接下來講點(diǎn)有趣的內(nèi)容:歷史。下面,咱們來結(jié)合數(shù)理統(tǒng)計(jì)簡史一書,即正態(tài)分布的前世今生系列,從古至今論述正態(tài)分布的歷史由來。
4.2、早期概率論:從萌芽到推測(cè)術(shù)
4.2.1、惠更新的三個(gè)關(guān)于期望的定理
(一)惠更新的論賭博的計(jì)算所謂概率,即指一個(gè)事件發(fā)生,一種情況出現(xiàn)的可能性大小的數(shù)量指標(biāo),介于0和1之間,這個(gè)概念最初形成于16世紀(jì),說來可能令你意想不到,凡事無絕對(duì),早期很多概率論中的探討卻與擲骰子等當(dāng)今看來是違法犯罪的賭博活動(dòng)有著不可分割的聯(lián)系,可以說,這些賭博活動(dòng)反而推動(dòng)了概率論的早期發(fā)展。歷史是紛繁多雜的,咱們從惠更斯的機(jī)遇的規(guī)律一書入手,此人指導(dǎo)過微積分的奠基者之一的萊布尼茲學(xué)習(xí)數(shù)學(xué),與牛頓等人也有交往,終生未婚。如諸多歷史上有名的人物一般,他們之所以被后世的人們記住,是因?yàn)樗麄冊(cè)谀骋粋€(gè)領(lǐng)域的杰出貢獻(xiàn),這個(gè)貢獻(xiàn)可能是提出了某一個(gè)定理或者公式,換句話來說,就是現(xiàn)今人們口中所說的代表作,一個(gè)意思。而惠更新為當(dāng)代人們所熟知的應(yīng)該是他在《擺式時(shí)鐘或用于時(shí)鐘上的擺的運(yùn)動(dòng)的幾何證明》、《擺鐘》等論文中提出了物理學(xué)史上鐘擺擺動(dòng)周期的公式:。?(二)創(chuàng)立數(shù)學(xué)期望與此同時(shí),惠更斯1657年發(fā)表了《論賭博中的計(jì)算》,被認(rèn)為是概率論誕生的標(biāo)志。同時(shí)對(duì)二次曲線、復(fù)雜曲線、懸鏈線、曳物線、對(duì)數(shù)螺線等平面曲線都有所研究。《論賭博中的計(jì)算》中,惠更斯先從關(guān)于公平賭博值的一條公理出發(fā),推導(dǎo)出有關(guān)數(shù)學(xué)期望的三個(gè)基本定理,如下述內(nèi)容所示:- 公理:每個(gè)公平博弈的參與者愿意拿出經(jīng)過計(jì)算的公平賭注冒險(xiǎn)而不愿拿出更多的數(shù)量。即賭徒愿意押的賭注不大于其獲得賭金的數(shù)學(xué)期望數(shù)。
關(guān)于數(shù)學(xué)期望的三個(gè)命題為:
- 命題1 若某人在賭博中以等概率1/2獲得賭金a元、b元,則其數(shù)學(xué)期望值為:a*1/2+b*1/2,即為( a + b)/2;
- 命題2 若某人在賭博中以等概率1/3獲得賭金a 、b 元和c元 ,則其數(shù)學(xué)期望值為( a + b + c)/3元;
- 命題3 若某人在賭博中以概率p 和q ( p ≥0 , q ≥0 , p + q = 1) 獲得賭金a元、b元 ,則獲得賭金的數(shù)學(xué)期望值為p*a + q*b 元。
4.3、棣莫弗的二項(xiàng)概率逼近
同上文中的惠更新,伯努利一樣,人們熟悉棣莫弗,想必是因?yàn)橹拈δス?#xff0c;如下:據(jù)數(shù)理統(tǒng)計(jì)學(xué)簡史一書上的說明,棣莫弗之所以投身到二項(xiàng)概率的研究,非因伯努利之故,而又是賭博問題(賭博貢獻(xiàn)很大丫哈)。有一天一個(gè)哥們,也許是個(gè)賭徒,向棣莫弗提了一個(gè)和賭博相關(guān)的一個(gè)問題:A,B兩人在賭場(chǎng)里賭博,A,B各自的獲勝概率是p和q=1?p,賭n局,若A贏的局?jǐn)?shù)X>np,則A付給賭場(chǎng)X?np元,否則B付給賭場(chǎng)np?X元。問賭場(chǎng)掙錢的期望值是多少?按定義可知,此期望值為:上式的b(N,平,i)為二項(xiàng)概率,棣莫弗最終在Np為整數(shù)的條件下得到:當(dāng)m=N/2時(shí),N趨于無窮,也就是說上述問題的本質(zhì)上是上文第一節(jié)中所講的一個(gè)二項(xiàng)分布。雖然從上述公式可以集結(jié)此問題,但在N很大時(shí),計(jì)算不易,故棣莫弗想找到一個(gè)更方便于計(jì)算的近似公式。棣莫弗后來雖然做了一些計(jì)算并得到了一些近似結(jié)果,但是還不夠,隨后有人講棣莫弗的研究工作告訴給了斯特林,于是,便直接催生了在數(shù)學(xué)分析中必學(xué)的一個(gè)重要公式斯特林公式(斯特林公式最初發(fā)表于1730年,而后棣莫弗改進(jìn)了斯特林公式):
(其中,m= N/2)1733年,棣莫弗有了一個(gè)決定性意義的舉動(dòng),他證明了當(dāng)N趨于去窮時(shí),有下列式子成立:
不要小瞧了這個(gè)公式。當(dāng)它與上面給出的這個(gè)公式結(jié)合后,便有了:根據(jù)上面式子,近似地以定積分代替和,得到下式:不知道,當(dāng)讀者讀到這里的時(shí)候,是否從上式看出了些許端倪,此式可隱藏了一個(gè)我們習(xí)以為常卻極其重要的概念。OK,或許其形式不夠明朗,借用rickjin的式子轉(zhuǎn)化下:沒錯(cuò),正態(tài)分布的概率密度(函數(shù))在上述的積分公式中出現(xiàn)了!于此,我們得到了一個(gè)結(jié)論,原來二項(xiàng)分布的極限分布便是正態(tài)分布。與此同時(shí),還引出了統(tǒng)計(jì)學(xué)史上占據(jù)重要地位的中心極限定理。「棣莫弗-拉普拉斯定理」:設(shè)隨機(jī)變量Xn(n=1,2...)服從參數(shù)為p的二項(xiàng)分布,則對(duì)任意的x,恒有下式成立:我們便稱此定理為中心極限定理。而且還透露著一個(gè)極為重要的信息:1730年,棣莫弗用二項(xiàng)分布逼近竟然得到了正太密度函數(shù),并首次提出了中心極限定理。還沒完,隨后,在1744年,拉普拉斯證明了:最終,1780年,拉普拉斯建立了中心極限定理的一般形式(也就是上文3.2節(jié)中所講的中心極限定理的一般形式):「Lindeberg-Levy中心極限定理」設(shè)X1,?,Xn獨(dú)立同分布,且具有有限的均值μ和方差σ2,則在n→∞時(shí),有
棣莫弗的工作對(duì)數(shù)理統(tǒng)計(jì)學(xué)有著很大的影響,棣莫弗40年之后,拉普拉斯建立中心極限定理的一般形式,20世紀(jì)30年代最終完成獨(dú)立和中心極限定理最一般的形式,在中心極限定理的基礎(chǔ)之上,統(tǒng)計(jì)學(xué)家們發(fā)現(xiàn)當(dāng)樣本量趨于無窮時(shí),一系列重要統(tǒng)計(jì)量的極限分布如二項(xiàng)分布,都有正態(tài)分布的形式,也就是說,這也構(gòu)成了數(shù)理統(tǒng)計(jì)學(xué)中大樣本方法的基礎(chǔ)。此外,從上面的棣莫弗-拉普拉斯定理,你或許還沒有看出什么蹊蹺。但我們可以這樣理解:若取c充分大,則對(duì)足夠大的N,事件|的概率可任意接近于1,由于,故對(duì)于任意給定的ε>0, 有下式成立:而這就是上文中所講的伯努利大數(shù)定律(注:上面討論的是對(duì)稱情況,即p=1/2的情況)。我之所以不厭其煩的要論述這個(gè)棣莫弗的二項(xiàng)概率逼近的相關(guān)過程,是想說明一點(diǎn):各個(gè)定理.公式彼此之前是有著緊密聯(lián)系的,要善于發(fā)現(xiàn)其中的各種聯(lián)系。同時(shí),還有一個(gè)問題,相信讀者已經(jīng)意識(shí)到了,如本文第一節(jié)內(nèi)容所述,咱們的概率論與數(shù)理統(tǒng)計(jì)教材講正態(tài)分布的時(shí)候,一上來便給出正態(tài)分布的概率密度(函數(shù)),然后告訴我們說,符合這個(gè)概率密度(函數(shù))的稱為正態(tài)分布,緊接著闡述和證明相關(guān)性質(zhì),最后說了一句:”在自然現(xiàn)象和社會(huì)現(xiàn)象中,大量隨機(jī)變量都服從或近似服從正態(tài)分布,如人的身高,某零件長度的誤差,海洋波浪的高度“,然后呢?然后什么也沒說了。連正態(tài)分布中最基本的兩個(gè)參數(shù)為、和的的意義都不告訴我們(位置參數(shù)即為數(shù)學(xué)期望,尺度參數(shù)為即為方差,換句話說,有了期望和方差,即可確定正態(tài)分布)。隨后,教材上便開始講數(shù)學(xué)期望,方差等概念,最后才講到中心極限定理。或許在讀者閱讀本文之后,這些定理的先后發(fā)明順序才得以知曉。殊不知:正態(tài)分布的概率密度(函數(shù))形式首次發(fā)現(xiàn)于棣莫弗-拉普拉斯中心極限定理中,即先有中心極限定理,而后才有正態(tài)分布(通過閱讀下文4.6節(jié)你將知道,高斯引入正太誤差理論,才成就了正態(tài)分布,反過來,拉普拉斯在高斯的工作之上用中心極限定理論證了正態(tài)分布)。如rickjin所言:’‘學(xué)家研究數(shù)學(xué)問題的進(jìn)程很少是按照我們數(shù)學(xué)課本的安排順序推進(jìn)的,現(xiàn)代的數(shù)學(xué)課本都是按照數(shù)學(xué)內(nèi)在的邏輯進(jìn)行組織編排的,雖然邏輯結(jié)構(gòu)上嚴(yán)謹(jǐn)優(yōu)美,卻把數(shù)學(xué)問題研究的歷史痕跡抹得一干二凈。DNA雙螺旋結(jié)構(gòu)的發(fā)現(xiàn)者之一James Waston在他的名著《DNA雙螺旋》序言中說:‘科學(xué)的發(fā)現(xiàn)很少會(huì)像門外漢所想象的一樣,按照直接了當(dāng)合乎邏輯的方式進(jìn)行的。’ ’‘
4.4、貝葉斯方法
前面,介紹了惠更斯、伯努利和棣莫弗等人的重大成果,無疑在這些重要發(fā)明中,二項(xiàng)分布都占據(jù)著舉重輕重的地位。這在早期的概率統(tǒng)計(jì)史當(dāng)中,也是唯一一個(gè)研究程度很深的分布。但除了伯努利的大數(shù)定律及棣莫弗的二項(xiàng)逼近的研究成果外,在18世紀(jì)中葉,為了解決二項(xiàng)分布概率的估計(jì)問題,出現(xiàn)了一個(gè)影響極為廣泛的貝葉斯方法,貝葉斯方法經(jīng)過長足的發(fā)展,如今已經(jīng)成為數(shù)理統(tǒng)計(jì)學(xué)中的兩個(gè)主要學(xué)派之一:貝葉斯學(xué)派,牢牢占據(jù)數(shù)理統(tǒng)計(jì)學(xué)領(lǐng)域的半壁江山。據(jù)數(shù)理統(tǒng)計(jì)學(xué)簡史一書,托馬斯.貝葉斯,此人在18世紀(jì)上半葉的歐洲學(xué)術(shù)界,并不算得上很知名,在提出貝葉斯定理之前,也未發(fā)表過片紙只字的科學(xué)論著,套用當(dāng)今的話來說,他便是活生生一個(gè)民間學(xué)術(shù)屌絲。未發(fā)表過任何科學(xué)著作,但一個(gè)人如果熱愛研究,喜好學(xué)術(shù)的話,必找人交流。于此,諸多重大發(fā)明定理都出現(xiàn)在學(xué)者之間的一些書信交流中。奇怪的是,貝葉斯這方面的書信材料也不多。或許讀者讀到此處,已知我意,會(huì)說這一切在他提出貝葉斯定理之后有了改變,但讀者朋友只猜對(duì)了一半。貝葉斯的確發(fā)表了一篇題為An essay towards solving a problem in the doctrine of chances(機(jī)遇理論中一個(gè)問題的解)的遺作,此文在他發(fā)表后很長一段時(shí)間起,在學(xué)術(shù)界沒有引起什么反響,直到20世紀(jì)以來,突然受到人們的重視,此文也因此成為貝葉斯學(xué)派最初的奠基石(又一個(gè)梵高式的人物)。有人說貝葉斯發(fā)表此文的動(dòng)機(jī)是為了解決伯努利和棣莫弗未能解決的二項(xiàng)分布概率P的“逆概率”問題。所謂逆概率,顧名思義,就是求概率問題的逆問題:已知時(shí)間的概率為P,可由之計(jì)算某種觀察結(jié)果的概率如何;反過來,給定了觀察結(jié)果,問由之可以對(duì)概率P作何推斷。也就是說,正概率是由原因推結(jié)果,稱之為概率論;而逆概率是結(jié)果推原因,稱之為數(shù)理統(tǒng)計(jì)。由于本文中,重點(diǎn)不在貝葉斯定理,而本文第一節(jié)之2.1小節(jié)已對(duì)其做簡要介紹,再者,此文從決策樹學(xué)習(xí)談到貝葉斯分類算法、EM、HMM第二部分也詳細(xì)介紹過了貝葉斯方法,故為本文篇幅所限,不再做過多描述。4.5、最小二乘法,數(shù)據(jù)分析的瑞士軍刀
事實(shí)上,在成百上千的各式各樣的攻擊方法中,取算術(shù)平均恐怕是最廣為人知使用也最為廣泛的方法,因?yàn)榭赡芤粋€(gè)小學(xué)生都知道使用算術(shù)平均來計(jì)算自己每天平均花了多少零花錢而以此作為向爸媽討要零花錢的依據(jù)。而我們大多數(shù)成年人也經(jīng)常把“平均說來”掛在嘴邊。故此節(jié)要講的最小二乘法其實(shí)并不高深,它的本質(zhì)思想即是來源于此算術(shù)平均的方法。不太精確的說,一部數(shù)理統(tǒng)計(jì)學(xué)的歷史,就是從縱橫兩個(gè)方向?qū)λ阈g(shù)平均進(jìn)行不斷深入研究的歷史,- 縱的方面指平均值本身,諸如伯努利及其后眾多的大數(shù)定律,棣莫弗-拉普拉斯中心極限定理,高斯的正太誤差理論,這些在很大程度上都可以視為對(duì)算術(shù)平均的研究成果,甚至到方差,標(biāo)準(zhǔn)差等概念也是由平均值發(fā)展而來;
- 橫的方面中最為典型的就是此最小二乘法。
- 土星和木星是太陽系中的大行星,由于相互吸引對(duì)各自的運(yùn)動(dòng)軌道產(chǎn)生了影響,許多大數(shù)學(xué)家,包括歐拉和拉普拉斯都在基于長期積累的天文觀測(cè)數(shù)據(jù)計(jì)算土星和木星的運(yùn)行軌道。
- 勒讓德承擔(dān)了一個(gè)政府給的重要任務(wù),測(cè)量通過巴黎的子午線的長度。
- 海上航行經(jīng)緯度的定位。主要是通過對(duì)恒星和月面上的一些定點(diǎn)的觀測(cè)來確定經(jīng)緯度。
? ? 以上求解線性矛盾方程的問題在現(xiàn)在的本科生看來都不困難,就是統(tǒng)計(jì)學(xué)中的線性回歸問題,直接用最小二乘法就解決了,可是即便如歐拉、拉普拉斯這些數(shù)學(xué)大牛,當(dāng)時(shí)也未能對(duì)這些問題提出有效的解決方案。可見在科學(xué)研究中,要想在觀念上有所突破并不容易。有效的最小二乘法是勒讓德在1805年發(fā)表的,基本思想就是認(rèn)為測(cè)量中有誤差,所以所有方程的累積誤差為:
我們求解出導(dǎo)致累積誤差最小的參數(shù)即可。上面我們已經(jīng)看到,是勒讓德最初發(fā)明的最小二乘法,那為何歷史上人們常常把最小二乘法的發(fā)明與高斯的名字聯(lián)系起來呢?(注:勒讓德時(shí)期的最小二乘法還只是作為一個(gè)處理測(cè)量數(shù)據(jù)的代數(shù)方法來討論的,實(shí)際上與統(tǒng)計(jì)學(xué)并無多大關(guān)聯(lián),只有建立在了測(cè)量誤差分布的概率理論之后,這個(gè)方法才足以成為一個(gè)統(tǒng)計(jì)學(xué)方法。盡管拉普拉斯用他的中心極限定理定理也可以推導(dǎo)出最小二乘法,但無論是之前的棣莫弗,還是當(dāng)時(shí)的勒讓德,還是拉普拉斯,此時(shí)他們這些研究成果都還只是一個(gè)數(shù)學(xué)表達(dá)式而非概率分布)。因?yàn)?829年,高斯提供了最小二乘法的優(yōu)化效果強(qiáng)于其他方法的證明,即為高斯-馬爾可夫定理。也就是說勒讓德最初提出了最小二乘法,而卻是高斯讓最小二乘法得以鞏固而影響至今。且高斯對(duì)最小二乘法的最大貢獻(xiàn)在于他是建立在正太誤差分布的理論基礎(chǔ)之上的(后續(xù)更是導(dǎo)出了誤差服從正態(tài)分布的結(jié)論),最后,1837年,統(tǒng)計(jì)學(xué)家們正式確立誤差服從正態(tài)分布,自此,人們方才真正確信:觀測(cè)值與理論值的誤差服從正態(tài)分布。
4.6、誤差分布曲線的建立
十八世紀(jì),天文學(xué)的發(fā)展積累了大量的天文學(xué)數(shù)據(jù)需要分析計(jì)算,應(yīng)該如何來處理數(shù)據(jù)中的觀測(cè)誤差成為一個(gè)很棘手的問題。我們?cè)跀?shù)據(jù)處理中經(jīng)常使用平均的常識(shí)性法則,千百年來的數(shù)據(jù)使用經(jīng)驗(yàn)說明算術(shù)平均能夠消除誤差,提高精度。平均有如此的魅力,道理何在,之前沒有人做過理論上的證明。算術(shù)平均的合理性問題在天文學(xué)的數(shù)據(jù)分析工作中被提出來討論:測(cè)量中的隨機(jī)誤差應(yīng)該服從怎樣的概率分布?算術(shù)平均的優(yōu)良性和誤差的分布有怎樣的密切聯(lián)系?伽利略在他著名的《關(guān)于兩個(gè)主要世界系統(tǒng)的對(duì)話》中,對(duì)誤差的分布做過一些定性的描述,主要包括:- 誤差是對(duì)稱分布的分布在0的兩側(cè);
- 大的誤差出現(xiàn)頻率低,小的誤差出現(xiàn)頻率高。
4.6.1、辛普森的工作
許多天文學(xué)家和數(shù)學(xué)家開始了尋找誤差分布曲線的嘗試。托馬斯?辛普森(Thomas Simpson,1710-1761)先走出了有意義的一步。- 設(shè)真值為θ,而為n次測(cè)量值,現(xiàn)在用測(cè)量值去估計(jì)真值,那么每次測(cè)量的誤差為,
- 但若用算術(shù)平均去估計(jì)θ呢,則其誤差為。
4.6.2、拉普拉斯的工作
? ? 在1772-1774年間,拉普拉斯也加入到了尋找誤差分布函數(shù)的隊(duì)伍中。與辛普森不同,拉普拉斯不是先假定一種誤差分后去設(shè)法證明平均值的優(yōu)良性,而是直接射向應(yīng)該去怎么的分布為誤差分布,以及在確定了誤差分布之后,如何根據(jù)觀測(cè)值去估計(jì)真值。拉普拉斯假定誤差密度函數(shù)f(x)滿足如下性質(zhì):m>0,且為常數(shù),上述方程解出,C>0且為常數(shù),由于,得。故當(dāng)x<0,結(jié)合概率密度的性質(zhì)之一(參看上文2.2.4節(jié)):,解得c=m/2。由此,最終1772年,拉普拉斯求得的分布密度函數(shù)為:這個(gè)概率密度函數(shù)現(xiàn)在被稱為拉普拉斯分布:以這個(gè)函數(shù)作為誤差密度,拉普拉斯開始考慮如何基于測(cè)量的結(jié)果去估計(jì)未知參數(shù)的值,即用什么方法通過觀測(cè)值去估計(jì)真值呢?要知道咱們現(xiàn)今所熟知的所謂點(diǎn)估計(jì)方法、矩估計(jì)方法,包括所謂的極大似然估計(jì)法之類的,當(dāng)時(shí)可是都還沒有發(fā)明。拉普拉斯可以算是一個(gè)貝葉斯主義者,他的參數(shù)估計(jì)的原則和現(xiàn)代貝葉斯方法非常相似:假設(shè)先驗(yàn)分布是均勻的,計(jì)算出參數(shù)的后驗(yàn)分布后,取后驗(yàn)分布的中值點(diǎn),即1/2分位點(diǎn),作為參數(shù)估計(jì)值。可是基于這個(gè)誤差分布函數(shù)做了一些計(jì)算之后,拉普拉斯發(fā)現(xiàn)計(jì)算過于復(fù)雜,最終沒能給出什么有用的結(jié)果,故拉普拉斯最終還是沒能搞定誤差分布的問題。至此,整個(gè)18世紀(jì),可以說,尋找誤差分布的問題,依舊進(jìn)展甚微,下面,便將輪到高斯出場(chǎng)了,歷史總是出人意料,高斯以及其簡單的手法,給了這個(gè)誤差分布的問題一個(gè)圓滿的解決,其結(jié)果也就成為了數(shù)理統(tǒng)計(jì)發(fā)展史上的一塊重要的里程碑。4.6.3、高斯導(dǎo)出誤差正態(tài)分布
事實(shí)上,棣莫弗早在1730年~1733年間便已從二項(xiàng)分布逼近的途徑得到了正態(tài)密度函數(shù)的形式,到了1780年后,拉普拉斯也推出了中心極限定理的一般形式,但無論是棣莫弗,還是拉普拉斯,此時(shí)他們這些研究成果都還只是一個(gè)數(shù)學(xué)表達(dá)式而非概率分布,也就是壓根就還沒往誤差概率分布的角度上去思索,而只有到了1809年,高斯提出“正太誤差”的理論之后,它正太理論才得以“概率分布“的身份進(jìn)入科學(xué)殿堂,從而引起人們的重視。追本溯源,正態(tài)分布理論這條大河的源頭歸根結(jié)底是測(cè)量誤差理論。那高斯到底在正態(tài)分布的確立做了哪些貢獻(xiàn)呢?請(qǐng)看下文。1801年1月,天文學(xué)家Giuseppe Piazzi發(fā)現(xiàn)了一顆從未見過的光度8等的星在移動(dòng),這顆現(xiàn)在被稱作谷神星(Ceres)的小行星在夜空中出現(xiàn)6個(gè)星期,掃過八度角后在就在太陽的光芒下沒了蹤影,無法觀測(cè)。而留下的觀測(cè)數(shù)據(jù)有限,難以計(jì)算出他的軌道,天文學(xué)家也因此無法確定這顆新星是彗星還是行星,這個(gè)問題很快成了學(xué)術(shù)界關(guān)注的焦點(diǎn)。高斯當(dāng)時(shí)已經(jīng)是很有名望的年輕數(shù)學(xué)家了,這個(gè)問題也引起了他的興趣。高斯一個(gè)小時(shí)之內(nèi)就計(jì)算出了行星的軌道,并預(yù)言了它在夜空中出現(xiàn)的時(shí)間和位置。1801年12月31日夜,德國天文愛好者奧伯斯(Heinrich Olbers)在高斯預(yù)言的時(shí)間里,用望遠(yuǎn)鏡對(duì)準(zhǔn)了這片天空。果然不出所料,谷神星出現(xiàn)了!高斯為此名聲大震,但是高斯當(dāng)時(shí)拒絕透露計(jì)算軌道的方法直到1809年高斯系統(tǒng)地完善了相關(guān)的數(shù)學(xué)理論后,才將他的方法公布于眾,而其中使用的數(shù)據(jù)分析方法,就是以正態(tài)誤差分布為基礎(chǔ)的最小二乘法。那高斯是如何推導(dǎo)出誤差分布為正態(tài)分布的呢?請(qǐng)看下文。? ? 跟上面一樣,還是設(shè)真值為,而為n次獨(dú)立測(cè)量值,每次測(cè)量的誤差為,假設(shè)誤差ei的密度函數(shù)為f(e),則測(cè)量值的聯(lián)合概率為n個(gè)誤差的聯(lián)合概率,記為
到此為止,高斯的作法實(shí)際上與拉普拉斯相同,但在繼續(xù)往下進(jìn)行時(shí),高斯提出了兩個(gè)創(chuàng)新的想法。第一個(gè)創(chuàng)新的想法便是:高斯并沒有像前面的拉普拉斯那樣采用貝葉斯的推理方式,而是直接取L(θ)達(dá)到最小值的作為的估計(jì)值,這也恰恰是他解決此問題采用的創(chuàng)新方法,即
現(xiàn)在我們把L(θ)稱為樣本的似然函數(shù),而得到的估計(jì)值θ?稱為極大似然估計(jì)。高斯首次給出了極大似然的思想,這個(gè)思想后來被統(tǒng)計(jì)學(xué)家R.A.Fisher系統(tǒng)地發(fā)展成為參數(shù)估計(jì)中的極大似然估計(jì)理論。
? ? 高斯的第二點(diǎn)創(chuàng)新的想法是:他把整個(gè)問題的思考模式倒過來,既然千百年來大家都認(rèn)為算術(shù)平均是一個(gè)好的估計(jì),那么就直接先承認(rèn)算術(shù)平均就是極大似然估計(jì)(換言之,極大似然估計(jì)導(dǎo)出的就應(yīng)該是算術(shù)平均),所以高斯猜測(cè):
然后高斯再去尋找相應(yīng)的誤差密度函數(shù)以迎合這一點(diǎn)。即尋找這樣的概率分布函數(shù),使得極大似然估計(jì)正好是算術(shù)平均。通過應(yīng)用數(shù)學(xué)技巧求解這個(gè)函數(shù)f,高斯證明了所有的概率密度函數(shù)中,唯一滿足這個(gè)性質(zhì)的就是(記為(11)式):
? ?而這恰巧是我們所熟知的正態(tài)分布的密度函數(shù),就這樣,誤差的正態(tài)分布就被高斯給推導(dǎo)出來了!但,高斯是如何證明的呢?也就是說,高斯是如何一下子就把上面(11)式所述的概率密度函數(shù)給找出來的呢?如下圖所示(摘自數(shù)理統(tǒng)計(jì)學(xué)簡史第127頁注2,圖中開頭所說的高斯的第2原則就是上面所講的高斯的第二點(diǎn)創(chuàng)新的想法,而下圖最后所說的(11)式就是上面推導(dǎo)出來的概率密度函數(shù)):進(jìn)一步,高斯基于這個(gè)誤差分布函數(shù)對(duì)最小二乘法給出了一個(gè)很漂亮的解釋。對(duì)于最小二乘公式中涉及的每個(gè)誤差ei,有,則結(jié)合高斯的第一個(gè)創(chuàng)新方法:極大似然估計(jì)及上述的概率密度,(e1,?,en)的聯(lián)合概率分布為
要使得這個(gè)概率最大,必須使得取最小值,這正好就是最小二乘法的要求。高斯的這項(xiàng)工作對(duì)后世的影響極大,它使正態(tài)分布同時(shí)有了”高斯分布“的名稱,不止如此,后世甚至也把最小二乘法的發(fā)明權(quán)也歸功于他,由于他的這一系列突出貢獻(xiàn),人們 ? ?采取了各種形式紀(jì)念他,如現(xiàn)今德國10馬克的鈔票上便印有這高斯頭像及正態(tài)分布的密度曲線,借此表明在高斯的一切科學(xué)貢獻(xiàn)中,尤以此”正太分布“的確立對(duì)人類文明的進(jìn)程影響最大。至此,咱們來總結(jié)下:
4.6.4、正態(tài)分布的時(shí)間簡史
至此,正態(tài)分布從首次出現(xiàn)到最終確立,其時(shí)間簡史為:第五節(jié)、論道正態(tài),正態(tài)分布的4大數(shù)學(xué)推導(dǎo)
如本blog內(nèi)之前所說:凡是涉及到要證明的東西.理論,便一般不是怎么好惹的東西。絕大部分時(shí)候,看懂一個(gè)東西不難,但證明一個(gè)東西則需要點(diǎn)數(shù)學(xué)功底,進(jìn)一步,證明一個(gè)東西也不是特別難,難的是從零開始發(fā)明創(chuàng)造這個(gè)東西的時(shí)候,則更顯艱難(因?yàn)槿魏螘r(shí)代,大部分人的研究所得都不過是基于前人的研究成果,前人所做的是開創(chuàng)性工作,而這往往是最艱難最有價(jià)值的,他們被稱為真正的先驅(qū)。牛頓也曾說過,他不過是站在巨人的肩上。你,我則更是如此)。上述第4節(jié)已經(jīng)介紹了正態(tài)分布的歷史由來,但尚未涉及數(shù)學(xué)推導(dǎo)或證明,下面,參考概率論沉思錄,引用“正態(tài)分布的前世今生”等相關(guān)內(nèi)容,介紹推導(dǎo)正太分布的4種方法,曲徑通幽,4條小徑,殊途同歸,進(jìn)一步領(lǐng)略正態(tài)分布的美妙。「注:本節(jié)主要整編自rickjin寫的"正態(tài)分布的前后今生"系列」5.1、 高斯的推導(dǎo)(1809)
? ? 第一條小徑是高斯找到的,高斯以如下準(zhǔn)則作為小徑的出發(fā)點(diǎn)誤差分布導(dǎo)出的極大似然估計(jì) = 算術(shù)平均值設(shè)真值為,而為次獨(dú)立測(cè)量值,每次測(cè)量的誤差為,假設(shè)誤差的密度函數(shù)為,則測(cè)量值的聯(lián)合概率為n個(gè)誤差的聯(lián)合概率,記為
為求極大似然估計(jì),令
整理后可以得到
令,由上式可以得到
由于高斯假設(shè)極大似然估計(jì)的解就是算術(shù)平均,把解帶入上式,可以得到
在上式中取,有
由于此時(shí)有,并且是任意的,由此得到:.再在(6)式中取,并且要求,且,則有,并且
所以得到而滿足上式的唯一的連續(xù)函數(shù)就是,從而進(jìn)一步可以求解出
由于是概率分布函數(shù),把正規(guī)化一下就得到正態(tài)分布密度函數(shù)
5.2、Herschel(1850)和麥克斯韋(1860)的推導(dǎo)
? ? 第二條小徑是天文學(xué)家John Hershcel和物理學(xué)家麥克斯韋(Maxwell)發(fā)現(xiàn)的。1850年,天文學(xué)家Herschel在對(duì)星星的位置進(jìn)行測(cè)量的時(shí)候,需要考慮二維的誤差分布,為了推導(dǎo)這個(gè)誤差的概率密度分布f(x,y),Herschel設(shè)置了兩個(gè)準(zhǔn)則:把這個(gè)函數(shù)轉(zhuǎn)換為極坐標(biāo),在極坐標(biāo)下的概率密度函數(shù)設(shè)為,有
由準(zhǔn)則2,具有旋轉(zhuǎn)對(duì)稱性,也就是應(yīng)該和無關(guān),所以,綜合以上,我們可以得到
取,得到,所以上式可以轉(zhuǎn)換為
令,則有
從這個(gè)函數(shù)方程中可以解出,從而可以得到的一般形式如下
而就是正態(tài)分布,而就是標(biāo)準(zhǔn)二維正態(tài)分布函數(shù)。
1860年,我們偉大的物理學(xué)家麥克斯韋在考慮氣體分子的運(yùn)動(dòng)速度分布的時(shí)候,在三維空間中基于類似的準(zhǔn)則推導(dǎo)出了氣體分子運(yùn)動(dòng)的分布是正態(tài)分布。這就是著名的麥克斯韋分子速率分布定律。大家還記得我們?cè)谄胀ㄎ锢碇袑W(xué)過的麥克斯韋-波爾茲曼氣體速率分布定律嗎?
? ? 所以這個(gè)分布其實(shí)是三個(gè)正態(tài)分布的乘積。你的物理老師是否告訴過你其實(shí)這個(gè)分布就是三維正態(tài)分布?反正我是一直不知道,直到今年才明白。
? ? Herschel-Maxwell推導(dǎo)的神妙之處在于,沒有利用任何概率論的知識(shí),只是基于空間幾何的不變性,就推導(dǎo)出了正態(tài)分布。美國諾貝爾物理學(xué)獎(jiǎng)得主費(fèi)曼(Feymann)每次看到一個(gè)有的數(shù)學(xué)公式的時(shí)候,就會(huì)問:圓在哪里?這個(gè)推導(dǎo)中使用到了,也就是告訴我們正態(tài)分布密度公式中有個(gè),其根源來在于二維正態(tài)分布中的等高線恰好是個(gè)圓。
5.3、Landon的推導(dǎo)(1941)
? ? 第三條道是一位電氣工程師,Vernon D. Landon 給出的。1941年,Landon 研究通信電路中的噪聲電壓,通過分析經(jīng)驗(yàn)數(shù)據(jù)他發(fā)現(xiàn)噪聲電壓的分布模式很相似,不同的是分布的層級(jí),而這個(gè)層級(jí)可以使用方差來刻畫。因此他推理認(rèn)為噪聲電壓的分布函數(shù)形式是。現(xiàn)在假設(shè)有一個(gè)相對(duì)于而言很微小的誤差擾動(dòng),且的分布函數(shù)是,那么新的噪聲電壓是。Landon提出了如下的準(zhǔn)則則有.現(xiàn)在我們來推導(dǎo)函數(shù)應(yīng)該長成啥樣。按照兩個(gè)隨機(jī)變量和的分布的計(jì)算方式,的分布函數(shù)將是的分布函數(shù)和的分布函數(shù)的卷積,即有
把在x′處做泰勒級(jí)數(shù)展開(為了方便,展開后把自變量由x′替換為x),上式可以展開為
記,則有
對(duì)于微小的隨機(jī)擾動(dòng),我們認(rèn)為他取正值或者負(fù)值是對(duì)稱的,所以。所以有
(8)對(duì)于新的噪聲電壓是x′=x+e,方差由增加為,所以按照Landon的分布函數(shù)模式不變的假設(shè),新的噪聲電壓的分布函數(shù)應(yīng)該為。把在處做泰勒級(jí)數(shù)展開,得到
(9)比較(8)和(9)這兩個(gè)式子,可以得到如下偏微分方程
而這個(gè)方程就是物理上著名的擴(kuò)散方程(diffusion equation),求解該方程就得到
又一次,我們推導(dǎo)出了正態(tài)分布!
? ? 概率論沉思錄作者E.T.Jaynes對(duì)于這個(gè)推導(dǎo)的評(píng)價(jià)很高,認(rèn)為Landon的推導(dǎo)本質(zhì)上給出了自然界的噪音形成的過程。他指出這個(gè)推導(dǎo)基本上就是中心極限定理的增量式版本,相比于中心極限定理來說,是一次性累加所有的因素,Landon的推導(dǎo)是每次在原有的分布上去累加一個(gè)微小的擾動(dòng)。而在這個(gè)推導(dǎo)中,我們看到,正態(tài)分布具有相當(dāng)好的穩(wěn)定性;只要數(shù)據(jù)中正態(tài)的模式已經(jīng)形成,他就容易繼續(xù)保持正態(tài)分布,無論外部累加的隨機(jī)噪聲是什么分布,正態(tài)分布就像一個(gè)黑洞一樣把這個(gè)累加噪聲吃掉。
5.4、正態(tài)分布和最大熵
? ? 還有一條小徑是基于最大熵原理的,物理學(xué)家E.T.Jaynes在最大熵原理上有非常重要的貢獻(xiàn),他在《概率論沉思錄》里面對(duì)這個(gè)方法有描述和證明,沒有提到發(fā)現(xiàn)者,不過難以確認(rèn)這條道的發(fā)現(xiàn)者是否是Jaynes本人。? ? 熵在物理學(xué)中由來已久,信息論的創(chuàng)始人香農(nóng)(Claude Elwood Shannon)把這個(gè)概念引入了信息論,讀者中很多人可能都知道目前機(jī)器學(xué)習(xí)中有一個(gè)非常好用的分類算法叫最大熵分類器。要想把熵和最大熵的來龍去脈說清楚可不容易,不過這條道的風(fēng)景是相當(dāng)獨(dú)特的,E.T.Jaynes對(duì)這條道也是偏愛有加。
? ? 對(duì)于一個(gè)概率分布,我們定義它的熵為
如果給定一個(gè)分布函數(shù)的均值和方差(給定均值和方差這個(gè)條件,也可以描述為給定一階原點(diǎn)矩和二階原點(diǎn)矩,這兩個(gè)條件是等價(jià)的)則在所有滿足這兩個(gè)限制的概率分布中,熵最大的概率分布就是正態(tài)分布。
? ? 這個(gè)結(jié)論的推導(dǎo)數(shù)學(xué)上稍微有點(diǎn)復(fù)雜,不過如果已經(jīng)猜到了給定限制條件下最大熵的分布是正態(tài)分布,要證明這個(gè)猜測(cè)卻是很簡單的,證明的思路如下。
? ? 考慮兩個(gè)概率分布和,使用不等式,得
于是
(讀者注意:經(jīng)好友白石指正,上述等式,右邊的第一項(xiàng)p(x)之后,1/p(x)?之前少畫了個(gè)log符號(hào))所以
熟悉信息論的讀者都知道,這個(gè)式子是信息論中的很著名的結(jié)論:一個(gè)概率分布的熵總是小于相對(duì)熵。上式要取等號(hào)只有取。
? ? 對(duì)于,在給定的均值和方差下,我們?nèi)?#xff0c;則可以得到
由于的均值方差有如下限制:,于是
而當(dāng)?shù)臅r(shí)候,上式可以取到等號(hào),這就證明了結(jié)論。
? ? E.T.Jaynes顯然對(duì)正態(tài)分布具有這樣的性質(zhì)極為贊賞,因?yàn)檫@從信息論的角度證明了正態(tài)分布的優(yōu)良性。而我們可以看到,正態(tài)分布熵的大小,取決于方差的大小。這也容易理解,因?yàn)檎龖B(tài)分布的均值和密度函數(shù)的形狀無關(guān),正態(tài)分布的形狀是由其方差決定的,而熵的大小反應(yīng)概率分布中的信息量,顯然和密度函數(shù)的形狀相關(guān)。所謂橫看成嶺側(cè)成峰,遠(yuǎn)近高低各不同,正態(tài)分布給人們提供了多種欣賞角度和想象空間。法國菩薩級(jí)別的大數(shù)學(xué)家龐加萊對(duì)正態(tài)分布說過一段有意思的話,引用來作為這個(gè)小節(jié)的結(jié)束:
Physicists believe that the Gaussian law has been proved in mathematics while mathematicians think that it was experimentally established in physics.
—Henri Poincaré
? ? OK,雖然上文已經(jīng)花了如此多的篇幅講了那么多的概念,然事實(shí)上,在概率論與數(shù)理統(tǒng)計(jì)中,上文所講的概念尚不到1/3,限于篇幅,還有諸多概念沒有闡述完畢(這些知識(shí)將放于數(shù)據(jù)挖掘中所需的概率論與數(shù)理統(tǒng)計(jì)知識(shí)、下中介紹),如下圖所示:
? ??So,如上,之前微博上http://weibo.com/1580904460/z9htU9VzT?說要寫的概率論與數(shù)理統(tǒng)計(jì)的科普blog、上部分已經(jīng)初步整理完成(當(dāng)然,后續(xù)一個(gè)星期之內(nèi)會(huì)繼續(xù)修補(bǔ)完善)。從前天晚上開始,連續(xù)寫了兩天,花了半身力氣,文章若有任何問題,歡迎指正,尤能給出批評(píng)修訂意見,則倍感榮幸,謝謝。.同時(shí),但所有以上這些絕大部分都只是概率論與數(shù)理統(tǒng)計(jì)的基礎(chǔ)知識(shí),因此本文只能作個(gè)科普之效,若要深入學(xué)習(xí),還是煩請(qǐng)讀者朋友們閱讀相關(guān)書籍,或加以動(dòng)手實(shí)踐。
參考文獻(xiàn)及推薦閱讀
(極力推薦上書,相信每一個(gè)學(xué)概率統(tǒng)計(jì)的朋友都有必要看一看,同時(shí),此書也是正態(tài)分布的前后今生這一系列的主要參考)
總結(jié)
以上是生活随笔為你收集整理的转载:概率与梳理统计||数学基础的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 原创:pta做题笔记:注意数组大小大一点
- 下一篇: 转载:vs配置opencv教程