概率与统计知识复习
一. 隨機變量
1.1 概率分布
概率分布
定義 : 隨機變量X取各個值$x_i$的概率稱為X的概率分布. 對于離散型隨機變量: $ P(X=x_i)=p_i, (i=1,2,3,...) $
特性 :
a. $p_i>0$
b. $\sum_i^{\infty} p_i =1 $
累積概率分布(CDF)
定義 : $F(x)=P(X \le x) $, 對于離散型隨機變量 $F(x)=\sum_{x_i \le x} p_i $
連續型隨機變量的分布函數(CDF)和概率密度函數(PDF)
$$ F(x)=\int_{-\infty}^{\infty} f(t) dt $$
稱$f(x)$為X的概率密度函數(PDF)
性質:
$$ f(x)\ge 0, \int_{-\infty}^{\infty} f(x) dx =1 $$
$$P(a<x<b)= \int_{a}^{b} f(x) dx $$
1.2 隨機變量的數值特征
1. 數學期望
定義 :
離散型: $$ E(X) = \sum_{i=1}^{N} p_i x_i $$ 其中$p_i$為$X_i$發生的概率, $\sum p_i =1 $
連續型: $$ E(X) = \int_{-\infty}^{\infty} x f(x) dx $$
特性: $$E(a+bX) = a+b E(X) $$ 式中: a,b為常數
2. 方差
定義:
離散型: $$\sigma^2_X = var(X)=E(X-E(X))^2 = \sum_{i=}^N p_i (x_i - \mu_X)^2 $$
連續型: $$\sigma^2_X = var(X)=\int_{-\infty}^{\infty} (x-\mu_X)^2 f(x) dx $$
性質: $$ var(a+bX) = b^2 var(X) $$
切比雪夫不等式: $$P(\mu - k \rho \le X \le \mu + k \rho) \ge 1-\frac{1}{k^2} $$
3. 偏度和峰度
r 階矩: $E(X)^r $
r階中心矩 : $E(X-\mu_X)^r $
偏度(skew) : $$ S = \frac{E(X-\mu_X)^3}{\sigma^3_X} $$
S = 0: 概率密度函數對稱;
S > 0: 概率密度函數有長的右拖尾(右偏);
S < 0: 概率密度函數有長的左拖尾(左偏)
峰度(kurtosis): $$ K =\frac{E(X-\mu_X)^4}{\sigma^4_X} ?$$
正態分布: K=3, S=0;
K > 3: 分布突起程度大于正態分布
K < 3: 分布較正態分布更平坦
1.3 隨機變量的聯合分布
聯合概率
離散型 : $$P(X=x_i, Y=y_j) = p _k ( i,j = 1,2,....)$$
連續型: $$ P(a<X<b, c<Y<d) = \int_a^b dx \int_c^d f(x,y)dy $$
邊際概率
離散型: $$ f_X(x) = P(X=x_i)=\sum_{j=1}^{\infty} p_{ij} $$
連續型: $$ f_X(x) = \int_{-\infty}^{\infty} f(x,y)dy $$
當兩個隨機變量相互獨立時: $f(x,y) = f_X(x) f_Y(y) $
條件概率函數
離散型: $$P(X=x_i | Y = y_j) =?\frac{P(X=x_i,Y=y_j}{P(Y=y_j)} ?$$
連續型: $$f_X(x|y) =?\frac{f(x,y)}{f_Y(y)} $$
協方差和相關系數
協方差: $$ cov(X,Y) = E[( X-\mu_X)(Y-\mu_Y)] $$
協方差度量兩個變量的同時波動,如果兩個變量同方向變動,則協方差為正,如果兩個變量反方向變動,則協方差為負. 如果兩個隨機變量獨立,則協方差為零
當兩個變量不是獨立的時, 用相關系數度量它們之間的相關程度. $$ \rho =?\frac{cov(X,Y)}{\sigma_X \sigma_Y} ?$$
二. 總體與樣本
1. 基本統計量
樣本均值
定義: $$ \bar x =?\frac{1}{N} \sum_{i=1}^N x_i $$
其他還有加權平均, 幾何平均, 中位數 等
樣本標準差
定義: $$S_x = \sqrt{\frac{1}{N-1}\sum_{i=1}^N (x_i - \bar x)^2 } $$
式中除以N-1, 而不是N的原因是這樣得到的樣本方差估計量才是無偏的估計量.
樣本協方差
定義: $$ C_{xy}=\frac{1}{N-1}\sum_{i=1}^N (x_i - \bar x)(y_i - \bar y) $$
樣本相關系數: $$r = \frac{{\sum\limits_{i = 1}^N {({x_i} - \bar x)} ({y_i} - \bar y)}}{{\sqrt {\sum\limits_{i = 1}^N {{{({x_i} - \bar x)}^2}} \sum\limits_{i = 1}^N {{{({y_i} - \bar y)}^2}} } }} = \frac{C_{xy}}{ S_x S_y} $$
交叉相關系數: $$r(l) =?\frac{C_{xy}(l)}{S_x S_y} , (l = 0,\pm 1, \pm 2, \cdots ) $$
其中:
$$\left\{ {\begin{array}{*{20}{c}}{\frac{1}{N}\sum\limits_{i = 1}^{N - 1} {({x_i} - \bar x)({y_{i + l}} - \bar y),(l = 0,1,2,...)} }\\{\frac{1}{N}\sum\limits_{i = 1}^{N - 1} {({y_i} - \bar y)({x_{i - l}} - \bar x),(l = 0, - 1, - 2,...)} }\end{array}} \right.$$
2. 估計量的性質
無偏性
估計量的均值等于未知參數的真值, 即 $ E(\hat \beta) = \beta $
因為 $E(\bar x) = \dfrac{1}{N}\sum E(x_i) = \mu_x $, 故$\bar x$是 $\mu_x$的無偏估計.
有效性
樣本方差最小.
如$\bar x $是 $\mu_x$的最小方差無偏估計
一致性
樣本容量增加時, 估計量越來越接近真值. 即: $$ \mathop{\lim} \limits_{N \to \infty} P(|\beta - \hat \beta| < \delta) = 1 $$
三. 重要的概率分布
正態分布
$$ f(x) =?\frac{1}{\sigma \sqrt{2\pi}}e^{-(x-\mu)^2/(2\sigma^2)} ?$$
標準正態分布( $\mu=0,\sigma=1$):
$$ f(x) =?\frac{1}{\sqrt{2\pi}} e^{-x^2/2} $$
性質:
- 正態分布隨機變量的線性組合仍服從正態分布
如: $ X \sim N(\mu_x, \sigma^2_x), Y \sim N(\mu_y,\sigma^2_y) $, 假定X,Y相互獨立, 則它們的線性組合 $z=aX+bY$也服從正態分布
$$ Z \sim N(a\mu_x+b\mu_y, a^2\sigma^2_x + b^2 \sigma^2_y) $$
根據這個性質, 任何正態分布都可以化為標準正態分布,即
$$ Z=\frac{X-\mu}{\sigma} \sim N(0,1) $$
并且有
$$ P(a<X<b)= P(\frac{a-\mu}{\sigma} < \frac{X-\mu}{\sigma} < \frac{b-\mu}{\sigma}) $$
使用標準正態分布時, 常用記號$z{\alpha}$表示滿足條件 $P(Z>z{\alpha}) = \alpha $的點,稱$z_{\alpha}$為標準正態分布上的$\alpha$分位數.
同時有 $$ P(-z_{\alpha/2}< Z < z_{\alpha/2}) = 1 -\alpha $$
比如常用$\alpha=0.05$, 于是有$P(-1.96<Z<1.96)=95%$, 對于任意正態分布有 $P(\mu-1.96\sigma <X<\mu+1.96\sigma) = 95% $
正態分布檢驗
Jarque-Bera統計量是用來檢驗一組樣本是否能夠認為來自正態總體的一種方法.
統計量: $$ JB =?\frac{T-k}{6} [S^2+\frac{1}{4}(K-3)^2?] $$
S,K分別為偏度和峰度, 若為原始數據,k=0, 若序列是通過模型估計得到的,k為估計的參數個數.
在正態分布的假設下, JB統計量服從$\chi^2(2)$分布
$\chi^2 $分布
標準正態分布的平方服從自由度為1的$\chi^2$分布, 即$Z^2 \sim \chi^2(1) $
自由度是平方和中的獨立變量個數.
如果$Z_1,Z_2,\cdots,Z_k$是k個獨立的服從標準正態分布的隨機變量,則它們的平方和服從自由度為k的$\chi^2$分布, 即:
$$ \sum Z_i^2 \sim \chi_k^2$$
重要性質:
1). $\chi^2$分布只取正值,并且是偏斜分布,其偏度取決于自由度大小,自由度越大越右偏, 隨著自由度增大,逐漸接近正態分布.
2). $\chi^2$分布的期望為自由度k, 方差為2k
3). 如果來自方差為$\sigma^2$的一個正態分布的N個觀測值的樣本方差為$s^2$,則有 $(N-1)s^2/\sigma^2 \sim \chi^2(N-1) $
t分布
如果Z服從標準正態分布, X服從自由度為k的$chi^2$分布,并且兩者相互獨立,則隨機變量 $t = Z/\sqrt{X/k} $ 服從自由度為k的t分布.
對于一般正態分布,對樣本均值$\bar x$進行標準化后,可得到:
$$Z=\frac{(\bar x - \mu)}{s/\sqrt{N}} ?\sim t_{N-1} $$
重要結論: 總體方差$\sigma^2$已知時,標準化的統計量Z服從標準正態分布, 當總體方差未知時,用樣本標準差代替總體標準差, 但不再服從標準正態分布,而是服從自由度為N-1的t分布.
性質:
1). t分布是對稱的
2). 期望值為0, 方差為 $k/(k-2)$ ( 方差大于標準正態分布的方差1, 故t分布的尾部比正態分布更厚)
3). 自由度增大時, t分布趨近于正態分布, 因此也有 $P(-1.96<t<1.96) \approx 95% $
F分布
如果兩個服從$chi^2$分布的隨機變量相互獨立,其自由度分別為$k_1,k_2$,則 $$ F(k_1,k_2) =\frac{\chi^2(k_1)/k_1}{\chi^2(k_2)/k_2}?\sim ?F(k_1,k_2) $$
性質:
1). F分布與$chi^2$分布類似,只取非負值,并且是斜分布
2). 隨著自由度增大,F分布趨近于正態分布
從t分布和F分布的定義可以看出, t分布的平方服從$F(1,k)$, 即 $t_k^2 \sim F(1,k) $
當$k_2$無限大時,F的分母收斂為1, 這時F分布與$\chi^2$分布存在如下關系 $$F(k_1,k_2) = \chi^2(k_1)/k_1 $$
四. 統計推斷
1. 參數估計
進行參數估計的方法通常有
- 矩估計 , 如用樣本均值(樣本一階矩)作為總體均值(總體一階矩)的估計方法
- 極大似然估計
參數估計的置信度與置信區間
如果隨機變量$X \sim N(\mu_x,\sigma^2) $,則有 $$\bar x \sim N(\mu_x, \sigma^2/N) $$
將其標準化得到 $$ Z=\frac{(\bar x - \mu_x)}{\sigma/\sqrt{N}} \sim N(0,1) $$
一般情況下,方差$\sigma^2$是未知的,但可以用樣本估計量 $s^2=\sum (x_i-\bar x)^2/(N-1)$來代替,于是有 $$ t =?\frac{\bar x - \mu_x}{s/\sqrt{N}} \sim t(N-1) $$
得到 $$P(-t_{\alpha/2} <?\frac{\bar x - \mu_x}{s/\sqrt{N}} <t_{\alpha/2}) = 1-\alpha $$
整理得 $$P(\bar x - t_{\alpha/2} s/\sqrt{N} < \mu_x < \bar x + t_{\alpha/2} s/\sqrt{N}) = 1-\alpha $$
即置信度為$1-\alpha$ 的置信區間.
注意理解: 置信區間是隨機的,根據不同的觀測值會得到不同的區間,而總體均值$\mu_x$雖然未知, 卻是一個固定值,所以置信區間應該理解為該區間包含真實$\mu_x$的概率是 $1-\alpha$. 而不能理解為$\mu_x$落在區間中的概率.
2. 假設檢驗
假設檢驗的基本思想是小概率反證法。即認為小概率事件(P<0.01或P<0.05)在一次試驗中基本上不會發生.
反證法是在進行假設檢驗時,先假設H0正確,在此假設下,若小概率事件A出現的概率很小,例如P(A)=0.01, 經過取樣試驗,A出現了,則認為假設不合理,不應該接受.于是否定H0. 反之試驗中A沒有出現, 從而做出接受H0的結論.
- 原假設 H0
是關于總體的而非樣本的統計量的假設
總是假設原假設是成立的
總是有等號 ( =, ≥ 或 ≤ ) 備選假設H1
是原假設的對立
備選假設是試圖要建立的檢驗
總是有不等號 (≠, < 或 > )顯著性水平
原假設為真時, 拒絕原假設的概率假設檢驗的步驟
1) 提出原假設和備選假設
2) 確定適當的假設檢驗統計量
3) 規定顯著性水平
4) 計算檢驗統計量的值
5) 做出統計決策
根據給定的顯著性水平,查表得出相應的臨界值,并將統計量值與顯著性水平下的臨界值進行比較,從而得出接受或拒絕原假設的結論.兩類錯誤
1) 棄真錯誤 - 原假設是正確的卻拒絕了. 犯這類錯誤的概率是 P( 拒絕H0 | H0為真)=α
2) 取偽錯誤 - 原假設為假卻接受了, 犯這類錯誤的概率為 β假設檢驗中只控制犯第一類錯誤的概率,而不考慮第二類錯誤(通常以擴大樣本容量的方式來減小其犯錯的概率).
對于給定的顯著性水平$\alpha$,根據$\alpha$分為點的定義,由 $P(拒絕H_0 | H_0為真)=\alpha$,求出拒絕域. 如果統計量的值落在拒絕域內則拒絕H0.
- P值與臨界值的關系
在右側可見統計量的值越大,P值越小,就越能拒絕原假設.
來自為知筆記(Wiz)
轉載于:https://www.cnblogs.com/crossmind/p/3841296.html
總結
- 上一篇: 数学图形(2.18)Hyperbolic
- 下一篇: SQL Server创建索引(转)