高等数理统计(一)
引言
【比較官方的簡介】數(shù)理統(tǒng)計(jì)學(xué)是一門以概率論為基礎(chǔ),應(yīng)用性很強(qiáng)的學(xué)科。它研究怎樣以有效的方式收集、 整理和分析帶有隨機(jī)性的數(shù)據(jù),以便對(duì)所考察的問題作出正確的推斷和預(yù)測,為采取正確的決策和行動(dòng)提供依據(jù)和建議。數(shù)理統(tǒng)計(jì)不同于一般的資料統(tǒng)計(jì),它更側(cè)重于應(yīng)用隨機(jī)現(xiàn)象本身的規(guī)律性進(jìn)行資料的收集、整理和分析。
【簡單的講】,就是通過樣本分析來推斷整體。
【意義或者重要性】在這個(gè)大數(shù)據(jù)時(shí)代,數(shù)據(jù)是非常重要的。怎樣挖掘數(shù)據(jù)內(nèi)部的規(guī)律或者隱含的信息,變得尤為重要。當(dāng)時(shí)我們是不可能獲得整體的數(shù)據(jù)的,所以我們只能通過抽取樣本,進(jìn)而通過樣本來推斷整體的規(guī)律。
目錄
第一章、樣本與統(tǒng)計(jì)量
一、引言:
二、總體與樣本:
三、統(tǒng)計(jì)量——隨機(jī)變量的數(shù)字特征:
1、均值、方差
2、矩、協(xié)方差、相關(guān)性與協(xié)方差矩陣
3、距離與相似系數(shù)
4、抽樣分布定理
四、常用分布:
第二章、參數(shù)估計(jì)
一、引言:
二、點(diǎn)估計(jì)——矩估計(jì)法:
三、點(diǎn)估計(jì)——極大似然估計(jì):
四、估計(jì)量的優(yōu)良性準(zhǔn)則
五、區(qū)間估計(jì)——正態(tài)分布
1、引入
2、單個(gè)正態(tài)總體參數(shù)的區(qū)間估計(jì)
3、兩個(gè)正態(tài)總體的區(qū)間估計(jì)
六、區(qū)間估計(jì)——非正態(tài)分布:
1、大樣本正態(tài)近似法
2、二項(xiàng)分布
3、泊松分布
第三章、假設(shè)檢驗(yàn)
一、引言:
二、正態(tài)總體均值的假設(shè)檢驗(yàn)
1、單正態(tài)總體 N(μ, σ2)均值 μ?的檢驗(yàn)
(1) 雙邊檢驗(yàn) H0: μ = μ0;H1: μ≠μ0?
(2) 單邊檢驗(yàn) H0: μ = μ0;H1: μ>μ0
2、兩個(gè)正態(tài)總體 N(μ1, σ12) 和? N(μ2, σ22)均值的比較
(1) 雙邊檢驗(yàn) H0:?μ1?=?μ2;H1:?μ1≠μ2?
? ? (2) 單邊檢驗(yàn) H0:?μ1?>=?μ2;H1:?μ1<μ2?
(3) 單邊檢驗(yàn) H0:?μ1?<=?μ2;H1:?μ1>μ2?
三、正態(tài)總體方差的檢驗(yàn)
1、單個(gè)正態(tài)總體方差的?χ2 檢驗(yàn)
(1) H0: σ2?=σ02;H1: σ2?≠σ02
(2) H0: σ2?=σ02;H1: σ2?>σ02
(3)? H0:?σ2?≤σ02;H1:?σ2?>?σ02?(同2.)
2、兩正態(tài)總體方差比的?F 檢驗(yàn)
(1).? H0: σ12?=?σ22;H1: σ12?≠ ?σ22.
?(2) H0: σ12?=?σ22;H1:?? ?σ12>?σ22
?(3) H0: σ12?≤?σ22;H1:?? ?σ12>?σ22
? 第四章、回歸分析
一、引言
二、一元線性回歸 1、一元線性回歸模型 2、回歸系數(shù)的最小二乘估計(jì): 3、回歸方程的顯著性檢驗(yàn) (1)F 檢驗(yàn) (2)T?檢驗(yàn) ? ?(3)相關(guān)系數(shù)檢驗(yàn)4、估計(jì)與預(yù)測
(1)?E(y0)的估計(jì)
(2)?y0的預(yù)測區(qū)間
? 三、廣義線性回歸模型
?
四、非線性回歸模型
? 第五章、方差分析
一、引言
二、單因子方差分析的統(tǒng)計(jì)模型 ? 三、平方和分解四、參數(shù)估計(jì) 1、點(diǎn)估計(jì):正態(tài)分布的極大似然估計(jì) 2、置信區(qū)間 五、重復(fù)數(shù)不等情形 六、多重比較 1、效應(yīng)差的置信區(qū)間 2、之后補(bǔ)充 七、方差齊性檢驗(yàn) 1、Hartley檢驗(yàn)
?
第一章、樣本與統(tǒng)計(jì)量
本講首先介紹了樣本與統(tǒng)計(jì)量的基本概念,包括:總體、個(gè)體、樣本、總體分布與樣本分布;然后介紹了統(tǒng)計(jì)量的概念和幾個(gè)常見的統(tǒng)計(jì)量:樣本均值、方差、標(biāo)準(zhǔn)差、 k 階原點(diǎn)矩和k 階中心矩;最后介紹了抽樣分布的概念與抽樣分布定理。
一、引言:
由于大量隨機(jī)現(xiàn)象必然呈現(xiàn)出其規(guī)律性,因而從理論上講,只要對(duì)隨機(jī)現(xiàn)象進(jìn)行足夠多次的觀察,隨機(jī)現(xiàn)象的規(guī)律性就一定能夠清楚地呈現(xiàn)出來。但是,客觀上只允許我們對(duì)隨機(jī)現(xiàn)象進(jìn)行次數(shù)不多的觀察或試驗(yàn),也就是說:我們獲得的只能是局部的或有限的觀察資料(即樣本)。
數(shù)理統(tǒng)計(jì)的任務(wù)就是研究怎樣有效地收集、整理和分析所獲得的有限資料,并對(duì)所研究的問題盡可能地給出精確而可靠的推斷。現(xiàn)實(shí)世界中存在著形形色色的數(shù)據(jù),分析這些數(shù)據(jù)需要多種多樣的方法。
因此,數(shù)理統(tǒng)計(jì)中的方法和支持這些方法的相應(yīng)理論是相當(dāng)豐富的。概括起來可以歸納成兩大類。
參數(shù)估計(jì): 根據(jù)數(shù)據(jù),對(duì)分布中的未知參數(shù) 進(jìn)行估計(jì);
假設(shè)檢驗(yàn): 根據(jù)數(shù)據(jù),對(duì)分布的未知參數(shù)的某種假設(shè)進(jìn)行檢驗(yàn)。
參數(shù)估計(jì)與假設(shè)檢驗(yàn)構(gòu)成了統(tǒng)計(jì)推斷的兩種基本形式,這兩種推斷滲透到了數(shù)理統(tǒng)計(jì)的每個(gè)分支。
【簡單的講】我們希望通過(有限的)樣本及其統(tǒng)計(jì)量等信息去分析樣本(的分布等),進(jìn)而(通過參數(shù)估計(jì)和假設(shè)檢驗(yàn))去推斷和檢證整體的規(guī)律。
二、總體與樣本:
1、總體、個(gè)體與樣本:
在數(shù)理統(tǒng)計(jì)中,稱研究問題所涉及對(duì)象的全體為總體,總體中的每個(gè)成員為個(gè)體。 例如: 研究某工廠生產(chǎn)的某種產(chǎn)品的廢品率,則這種產(chǎn)品的全體就是總體,而每件產(chǎn)品都是一個(gè)個(gè)體。
實(shí)際上,我們真正關(guān)心的并不一定是總體或個(gè)體本身,而真正關(guān)心的是總體或個(gè)體的某項(xiàng)數(shù)量指標(biāo)。 如:某電子產(chǎn)品的使用壽命,某天的最高氣溫,加工出來的某零件的長度等數(shù)量指標(biāo)。因此,有時(shí)也將總體理解為那些研究對(duì)象的某項(xiàng)數(shù)量指標(biāo)的全體。
為評(píng)價(jià)某種產(chǎn)品質(zhì)量的好壞,通常的做法是:從全部產(chǎn)品中隨機(jī)(任意)地抽取一些樣品進(jìn)行觀測(檢測),統(tǒng)計(jì)學(xué)上稱這些樣品為一個(gè)樣本。 同樣,我們也將樣本的數(shù)量指標(biāo)稱為樣本。因此,今后當(dāng)我們說到總體及樣本時(shí),既指研究對(duì)象又指它們的某項(xiàng)數(shù)量指標(biāo)。
【例1】研究某地區(qū) N 個(gè)農(nóng)戶的年收人。 在這里,總體既指這 N 個(gè)農(nóng)戶,又指我們所關(guān)心的 N個(gè)農(nóng)戶的數(shù)量指標(biāo)──他們的年收入( N 個(gè)數(shù)字)。 如果從這 N 個(gè)農(nóng)戶中隨機(jī)地抽出 n 個(gè)農(nóng)戶作為調(diào)查對(duì)象,那么,這 n 個(gè)農(nóng)戶以及他們的數(shù)量指標(biāo)──年收入( n個(gè)數(shù)字)就是樣本。
【注意】上例中的總體是直觀的,看得見、摸得著的。但是,客觀情況并非總是這樣。如【例2】
【例2】用一把尺子測量一件物體的長度。 假定 n 次測量值分別為X1,X2 ,…,Xn。顯然,在該問題中,我們把測量值X1,X2 ,…,Xn看成樣本。但總體是什么呢?
事實(shí)上,這里沒有一個(gè)現(xiàn)實(shí)存在的個(gè)體的集合可以作為上述問題的總體。可是,我們可以這樣考慮,既然 n 個(gè)測量值 X1,X2?,…,Xn?是樣本,那么,總體就應(yīng)該理解為一切所有可能的測量值的全體。
又如:為研究某種安眠藥的藥效,讓 n 個(gè)病人同時(shí)服用這種藥,記錄服藥者各自服藥后的睡眠時(shí)間比未服藥時(shí)增加睡眠的小時(shí)數(shù) X1,X2,…,Xn, 則這些數(shù)字就是樣本。 那么,什么是總體呢?
設(shè)想讓某個(gè)地區(qū)(或某國家,甚至全世界)所有患失眠癥的病人都服用此藥,則他們所增加睡眠的小時(shí)數(shù)之全體就是研究問題的總體。
2、總體分布
對(duì)一個(gè)總體,如果用X表示其數(shù)量指標(biāo),那么,X的值對(duì)不同的個(gè)體就取不同的值。因此,如果我們隨機(jī)地抽取個(gè)體,則X的值也就隨著抽取個(gè)體的不同而不同。 所以,X是一個(gè)隨機(jī)變量! 既然總體是隨機(jī)變量X,自然就有其概率分布。我們把X的分布稱為總體分布。 總體的特性是由總體分布來刻畫的。因此,常把總體和總體分布視為同義語。
【例 3 (例 l 續(xù))】在例 l中,若農(nóng)戶年收入以萬元計(jì),假定 N戶的收入X只取以下各值: 0.5, 0.8, l.0, 1.2和1.5。取上述值的戶數(shù)分別n1, n2, n3, n4和n5 (n1+n2+n3+n4+n5=N)。則X為離散型分布,分布律為:
| X | 0.5 | 0.8 | 1 | 1.2 | 1.5 |
| p?k | n1/N | n2/N | n3/N | n4/N | n5/N |
【例4 ( 例2續(xù) )】在例2中,假定物體真實(shí)長度為μ(未知)。一般說來,測量值X就是總體,取μ 附近值的概率要大一些,而離μ 越遠(yuǎn)的值被取到的概率就越小。 如果測量過程沒有系統(tǒng)性誤差,則X取大于μ 和小于μ 的概率也會(huì)相等。
在這種情況下,人們往往認(rèn)為X 服從均值為μ,方差為σ2 的正態(tài)分布。σ2反映了測量的精度。于是,總體X的分布為 N(μ?,σ2)。
【說明】這里有一個(gè)問題,即物體長度的測量值總是在其真值 μ的附近,它不可能取負(fù)值。 而正態(tài)分布取值在(-∞,∞)上。那么,怎么可以認(rèn)為測量值X服從正態(tài)分布呢? 回答這個(gè)問題,有如下兩方面的理由。
(1)對(duì)于X~N(μ,σ2), P{μ-3σ<X<μ+3σ}=0.9974. 即 X 落在區(qū)間(μ-3σ,μ+3σ)之外的概率不超過 0.003, 這個(gè)概率非常小。X 落在(μ-4σ,μ+4σ)之外的概率就更小了。
例如:假定物體長度μ =10厘米,測量誤差為0.01厘米,則σ2=0.012。 這時(shí)((μ-3σ,μ+3σ)=(9.97,10.03)。于是,測量值落在這個(gè)區(qū)間之外的概率最多只有0.003,可忽略不計(jì)。 可見,用正態(tài)分布 N(10,0.012)去描述測量值X是適當(dāng)?shù)摹M耆烧J(rèn)為:X 根本就不可能取到負(fù)值;
(2)另外,正態(tài)分布取值范圍是(-∞,∞),這樣還可以解決規(guī)定測量值取值范圍上的困難。
如若不然, 就需要用一個(gè)定義在有限區(qū)間(a,b)取值的隨機(jī)變量來描述測量值X。那么, a和b到底取什么值呢?測量者事先很難確定。 再退一步,即使能夠確定出a和b,卻仍很難找出一個(gè)定義在 (a,b) 上的非均勻分布用來恰當(dāng)?shù)孛枋鰷y量值。與其這樣,還不如干脆就把取值區(qū)間放大到(-∞,∞),并用正態(tài)分布來描述測量值。這樣,既簡化了問題,又不致引起較大的誤差。
【離散分布和連續(xù)分布的說明】
● 如果總體所包含的個(gè)體數(shù)量是有限的, 則 稱該總體為有限總體。有限總體的分布顯然是離散型的,如【例3】。
● 如果總體所包含的個(gè)體數(shù)量是無限的,則 稱該總體為無限總體。限總體的分布可以 是連續(xù)型的,如【例4】;也可是離散型的。
但是,在數(shù)理統(tǒng)計(jì)中,研究有限總體比較困難。因?yàn)槠浞植际请x散型的,且分布律與總體中所含個(gè)體數(shù)量有關(guān)系。通常在總體所含個(gè)體數(shù)量比較大時(shí),將其近似地視為無限總體,并用連續(xù)型分布逼近總體的分布,這樣便于進(jìn)一步地做統(tǒng)計(jì)分析。如【例5】
【例5】研究某大城市年齡在1歲到10歲之間兒童的身高。
顯然,不管城市規(guī)模多大,這個(gè)年齡段的兒童數(shù)量總是有限的。因此,該總體X只能是有限總體。總體分布只能是離散型分布。然而,為便于處理問題,我們將有限總體近似地看成一個(gè)無限總體,并用正態(tài)分布來逼近這個(gè)總體的分布。 當(dāng)城市比較大,兒童數(shù)量比較多時(shí),這種逼近所帶來的誤差,從應(yīng)用觀點(diǎn)來看,可以忽略不計(jì)。
?【樣本的二重性】樣本X1,X2,…,Xn既被看成數(shù)值,又被看成隨機(jī)變量
● 假設(shè) X1, X2, …, Xn 是總體X中的樣本,在一 次具體的觀測或試驗(yàn)中,它們是一批測量值, 是已經(jīng)取到的一組數(shù)。這就是說,樣本具有數(shù)的屬性。
● 由于在具體試驗(yàn)或觀測中,受各種隨機(jī)因素 的影響,在不同試驗(yàn)或觀測中,樣本取值可 能不同。因此,當(dāng)脫離特定的具體試驗(yàn)或觀 測時(shí),我們并不知道樣本 X1,X2,…,Xn 的具 體取值到底是多少。因此,可將樣本看成隨機(jī)變量。故樣本又具有隨機(jī)變量的屬性。
【例 6 (例2續(xù))】在前面測量物體長度的例子中,如果我們?cè)谕耆嗤臈l件下,獨(dú)立地測量了n 次,把這 n 次測量結(jié)果,即樣本記為?X1,X2,…,Xn?.
那么,我們就認(rèn)為:這些樣本相互獨(dú)立,且有相同的分布;其分布與總體分布 N(μ?,σ2)相同。
【將上述結(jié)論推廣到一般的分布】如果在相同條件下對(duì)總體 X 進(jìn)行 n 次重復(fù)、獨(dú)立觀測,就可以認(rèn)為所獲得的樣本X1,X2,…,Xn是 n 個(gè)獨(dú)立且與總體 X 有同樣分布的隨機(jī)變量。在統(tǒng)計(jì)文獻(xiàn)中,通常稱相互獨(dú)立且有相同分布的樣本為隨機(jī)樣本或簡單樣本, n 為樣本大小或樣本容量。
?
3、樣本分布
既然樣本 X1,X2,…,Xn?被看作隨機(jī)向量,自然需要研究其聯(lián)合分布。
假設(shè)總體 X 具有概率密度函數(shù) f (x),因樣本?X1,X2,…,Xn獨(dú)立同分布于 X,于是,樣本的聯(lián)合概率密度函數(shù)(也叫似然函數(shù)(likehood))為:
【例7】 假設(shè)某大城市居民的收入 X 服從正態(tài)分布N(μ?,σ2), 概率密度為
?
現(xiàn)從總體 X 中隨機(jī)抽取樣本 X1,X2,…,Xn?,因其獨(dú)立同分布于總體 X,即: Xi ~ N(μ?,σ2), i=1,2,…,n. 于是,樣本X1,X2,…,Xn 的聯(lián)合概率密度為
?
三、統(tǒng)計(jì)量——隨機(jī)變量的數(shù)字特征:
由樣本推斷總體的某些情況時(shí),需要對(duì)樣本進(jìn)行“加工”,構(gòu)造出若干個(gè)樣本的已知 (確定)的函數(shù),其作用是把樣本中所含的某一方面的信息集中起來。這種不含任何未知參數(shù)的樣本的函數(shù)稱為統(tǒng)計(jì)量。它是完全由樣本所決定的量。
1、均值、方差:
(1)數(shù)學(xué)期望:
?
(2)方差:
【總體】
式(1.65)證明如下:方差等于平方均值減去均值的平方
Var(x)= E[ (x-Ex)2]
= E[x2-2xEx+(Ex)2]
= E(x2)-2ExEx+E(Ex)2
=E(x2)-2(Ex)2+(Ex)2
= E(x2)-[E(x)]2
【樣本】注意方差不是除n,而是(n-1)
?
(3)幾種常用隨機(jī)變量分布的期望和方差:
2、矩、協(xié)方差、相關(guān)性與協(xié)方差矩陣
(1)矩與中心化、標(biāo)準(zhǔn)化數(shù)據(jù):
【總體】
?
?
【樣本】
(2)協(xié)方差與相關(guān)系數(shù):
?
(3)協(xié)方差矩陣與相關(guān)矩陣:
【協(xié)方差矩陣和相關(guān)系數(shù)矩陣的關(guān)系】由二者的定義公式可知,經(jīng)標(biāo)準(zhǔn)化的樣本數(shù)據(jù)的協(xié)方差矩陣就是原始樣本數(shù)據(jù)的相關(guān)矩陣。?這里所說的標(biāo)準(zhǔn)化指正態(tài)化,即將原始數(shù)據(jù)處理成均值為0,方差為1的標(biāo)準(zhǔn)數(shù)據(jù)。
?
3、距離與相似系數(shù)
【證明第(3)和(4)條之間的關(guān)系】
?
?
4、抽樣分布
統(tǒng)計(jì)量既然依賴于樣本,而后者又是隨機(jī)變量,故統(tǒng)計(jì)量也是隨機(jī)變量,有一定的分布,這個(gè)分布稱為統(tǒng)計(jì)量的抽樣分布。 ??
【抽樣分布定理】設(shè) X1,X2,...,Xn是來自均值為μ ,方差為 σ2 的總體的樣本,則當(dāng) n 充分大時(shí), 近似地有:
證明如下:
【正態(tài)分布標(biāo)準(zhǔn)化定理】若X~N(μ,σ2),則 Z = (X-μ)/σ ~ N(0,1)
【中心極限定理】設(shè) X1,X2,...,Xn是來自均值為μ?,方差為?σ2?的總體的樣本,則當(dāng) n 充分大時(shí), 近似地有:
?【應(yīng)用1】可輕易的計(jì)算隨機(jī)樣本均值的概率分布值
【應(yīng)用2】
【例1】用機(jī)器向瓶子里灌裝液體洗滌劑,規(guī)定每瓶裝 μ?毫升。但實(shí)際灌裝量總有一定波動(dòng)。假定灌裝量的方差 σ2=1,如果每箱裝這樣的洗滌劑 25 瓶。求這 25 瓶洗凈劑的平均灌裝量與標(biāo)定值 μ?相差不超過0.3毫升的概率;又如果每箱裝50瓶時(shí)呢?
解:記一箱中 25 瓶洗凈劑灌裝量為 X1,X2,..., X25 是來自均值為μ , 方差為1的總體的隨機(jī)樣本。根據(jù)抽樣分布定理1,近似地有
?
四、常用分布:
1、χ2 分布:它是由正態(tài)分布派生出來的一種分布。
【定義】 設(shè) X1, X2, …, Xn 相互獨(dú)立,且均服從正態(tài)分布 N(0, 1), 則稱隨機(jī)變量
?服從自由度為 n 的卡方分布,記成χn2 。
其實(shí)卡方分布是一種伽瑪分布(α=n/2,Β=1/2時(shí)),詳見【附伽瑪分布和函數(shù)內(nèi)容】
?
【附伽瑪分布和函數(shù)內(nèi)容】具體詳見文章【LDA-math-神奇的Gamma函數(shù)】
?其實(shí)伽瑪函數(shù)可以看成階乘在實(shí)數(shù)上的擴(kuò)展。
【性質(zhì)】如下
對(duì)于性質(zhì)(1),可由正態(tài)分布的標(biāo)準(zhǔn)化公式推出,即Zi = (Xi-μ)/σ ~ N(0,1),則Σ(Zi2)符合卡方分布。
對(duì)于性質(zhì)(3),由于卡方分布是伽瑪分布的特殊情況,則可直接由伽瑪分布的均值和方差算出。
?
【分布密度函數(shù)】
?
【分布分位點(diǎn)】具體數(shù)值可以查表
?
2、t?分布:
【定義】?設(shè) X ~N(0, 1) , ?Y ~χn2 , ?且 X與Y 相互獨(dú)立,則稱隨機(jī)變量
?為服從自由度 n 的 t 分布,記為 T ~ tn。
可以看出t分布的概率密度函數(shù)是偶函數(shù),即 f(t) = f(-t)
t1-α(n) = -tα(n)
?
3、F分布:
【性質(zhì)1】若 X ~ Fm,n,則 Y = X -1 ~ Fn,m
【性質(zhì)2】
在通常 F 分布表中,只對(duì)α 比較小的值,如α = 0.01, 0.05, 0.025及0.1等列出了分位點(diǎn)。但有時(shí)我們也需要知道α?比較大的分位點(diǎn),它們?cè)?F 分布表中查不到。這時(shí)我們就可利用分位點(diǎn)的關(guān)系式(1)把它們計(jì)算出來。
【例】對(duì)m=12, ?n=9, ?α=0.95, ?我們?cè)?F 分布表中查不到 F12,9(0.95),但由(1)式,知
【性質(zhì)3】若X ~ tn , 則X2 ~ F1,n。
4、正態(tài)總體樣本均值與樣本方差的分布
?性質(zhì)(4)是由性質(zhì)(1)和(2)共同推出的。定理(1)(2)(4)基本上就是后面參數(shù)估計(jì)和假設(shè)檢驗(yàn)的核心。
【例】在設(shè)計(jì)導(dǎo)彈發(fā)射裝置時(shí),重要內(nèi)容之一是研究彈著點(diǎn)偏離目標(biāo)中心的距離的方差。 對(duì)于某類導(dǎo)彈發(fā)射裝置,彈著點(diǎn)偏離目標(biāo)中心的距離服從 N(μ,σ2),這里σ2 = 100米2。 現(xiàn)在進(jìn)行了25次發(fā)射試驗(yàn),用 S2 記這25次試驗(yàn)中彈著點(diǎn)偏離目標(biāo)中心的距離的樣本方差。 求: S2 超過50米2的概率。
轉(zhuǎn)載于:https://www.cnblogs.com/mo-wang/p/4851153.html
總結(jié)
- 上一篇: C语言复变函数PPT,复变函数的孤立点及
- 下一篇: 测试工作中常用的方法