数据分析之分布函数
一. 概念解釋
PDF:概率密度函數(shù)(probability density function), 在數(shù)學(xué)中,連續(xù)型隨機(jī)變量的概率密度函數(shù)(在不至于混淆時(shí)可以簡(jiǎn)稱為密度函數(shù))是一個(gè)描述這個(gè)隨機(jī)變量的輸出值,在某個(gè)確定的取值點(diǎn)附近的可能性的函數(shù)。PMF : 概率質(zhì)量函數(shù)(probability mass function), 在概率論中,概率質(zhì)量函數(shù)是離散隨機(jī)變量在各特定取值上的概率。 CDF : 累積分布函數(shù) (cumulative distribution function),又叫分布函數(shù),是概率密度函數(shù)的積分,能完整描述一個(gè)實(shí)隨機(jī)變量X的概率分布。二. 數(shù)學(xué)表示
PDF:如果X是連續(xù)型隨機(jī)變量,定義概率密度函數(shù)為fX(x),用PDF在某一區(qū)間上的積分來(lái)刻畫(huà)隨機(jī)變量落在這個(gè)區(qū)間中的概率,即Pr(a≤X≤b)=∫bafX(x)dx
PMF:如果X
離散型隨機(jī)變量,定義概率質(zhì)量函數(shù)為fX(x)
,PMF其實(shí)就是高中所學(xué)的離散型隨機(jī)變量的分布律,即
fX(x)=Pr(X=x)
比如對(duì)于擲一枚均勻硬幣,如果正面令X=1,如果反面令X=0,那么它的PMF就是
fX(x)={12 if x∈{0,1}0 if x?{0,1}
CDF:不管是什么類型(連續(xù)/離散/其他)的隨機(jī)變量,都可以定義它的累積分布函數(shù),有時(shí)簡(jiǎn)稱為分布函數(shù)。
對(duì)于連續(xù)型隨機(jī)變量,顯然有FX(x)=Pr(X≤x)=∫x?∞fX(t)dt
那么CDF就是PDF的積分,PDF就是CDF的導(dǎo)數(shù)。
對(duì)于離散型隨機(jī)變量,其CDF是分段函數(shù),比如舉例中的擲硬幣隨機(jī)變量,它的CDF為
FX(x)=Pr(X≤x)=?????0 if x<012 if 0≤x<11 if x≥1
三.概念分析
根據(jù)上述,我們能得到一下結(jié)論:
1)PDF是連續(xù)變量特有的,PMF是離散隨機(jī)變量特有的;
2)PDF的取值本身不是概率,它是一種趨勢(shì)(密度)只有對(duì)連續(xù)隨機(jī)變量的取值進(jìn)行積分后才是概率,也就是說(shuō)對(duì)于連續(xù)值確定它在某一點(diǎn)的概率是沒(méi)有意義的;
3)PMF的取值本身代表該值的概率。
四.分布函數(shù)的意義
我們從兩點(diǎn)來(lái)分析分布函數(shù)的意義:
1.為什么需要分布函數(shù)?
2. 分布函數(shù)的意義
分布函數(shù)F(x)在點(diǎn)x處的函數(shù)值表示X落在區(qū)間(?∞,x]內(nèi)的概率,所以分布函數(shù)就是定義域?yàn)镽
的一個(gè)普通函數(shù),因此我們可以把概率問(wèn)題轉(zhuǎn)化為函數(shù)問(wèn)題,從而可以利用普通的函數(shù)知識(shí)來(lái)研究概率問(wèn)題,增大了概率的研究范圍。總結(jié)
- 上一篇: 汉语言处理包 HanLP 1.7.3 发
- 下一篇: CodeMirror 5.46.0 发布