数据分析中的统计学基础知识
統計學在我們生活中其實運用面還挺廣的,比如社會調查的結果分析都會運用到統計學的知識。
我們今天就來分享一下統計學的一些基礎的知識。
大致而言,統計學由“描述統計”和“推論統計”兩部分構成。
描述統計就是從取得的數據中抽取其特征的技術。
推論統計是將統計學與概率理論相結合。對“無法整體把握的大的對象”或“還未發生而未來會發生的事情”進行推測。
一、描述統計
1、平均值
平均值就是用數據的合計除以數據的個數
?
平均數還可以通過以下公式求得
平均數=組值×相對頻數的合計
2 、方差
偏差=數據的數值-平均值
方差=[(偏差的平方)的合計]/(數據數)
公式:
?
3、標準差
標準差=方差的均方根
?
標準差反映組內個體間的離散程度(波動率)。
標準差的含義在統計學中很重要!
標準差越大,數據的離散程度越大,波動越大。
標準差是數據特殊性特殊性額的評價基準
±1倍標準差以內包含約70%數據
一組數據中某個數據的偏差在±1倍標準差左右,可以說這是“平常的數據”
±2倍標準差以外包含約5%的數據
如果在±2倍標準差以外,則可以說是“特殊的數據”
4、正態分布
概率密度函數
連續型隨機變量的概率密度函數是一個描述這個隨機變量的輸出值在某個確定的取值點附近的可能性的函數。而隨機變量的取值落在某個區域之內的概率則為概率密度函數在這個區域上的積分。
正態分布
若隨機變量X服從一個數學期望為μ、標準方差為σ2的高斯分布,記為:
X~N(μ,σ2),
則其概率密度函數為
?
正態分布的期望值μ決定了其位置,其標準差σ決定了分布的幅度。因其曲線呈鐘形,因此人們又常常稱之為鐘形曲線。我們通常所說的標準正態分布是μ = 0,σ = 1的正態分布。
?
正態分布的特性:
1)正態分布的95%命中區間是(μ-1.96σ,μ+1.96σ)
2)變量X服從平均值為μ,標準差為σ,可以利用公式將其變換為標準正態分布
Z=(X-μ)/ σ
3)變量X服從平均值為μ,標準差為σ的正態分布時,95%的預測命中區間為解不等式
-1.96≤(X-μ)/ σ≤+1.96 所得的范圍
5、假設檢驗
母群體服從正態分布時,可以通過假設總體參數,來檢驗觀測值是否落在95%的命中區間內。通過以下公式可以計算基于假設的總體參數的觀測值的范圍
-1.96≤(X-μ)/ σ≤+1.96
如果觀測值在這個范圍內,接受假設,假設成立;如果不在這個范圍內,假設被舍棄。
6、區間估計
區間估計針對母群體的總體參數,在假定總體參數的情況下,只集合列現實觀測到的數據在觀測數據的“95%預測命中區間”的總體參數。根據區間估計缺點的總體參數的范圍叫做“95%置信區間”
95%置信區間是這樣一種區間:它由各種各樣的觀測值用相同的方法進行區間估計,其中95%包含正確的總體參數。
二、推論統計
正態分布母群體
正態分布母群體的總體均值為μ,總體標準差為σ時,n個觀測數據x的樣本均值x的分布仍為正態分布,且樣本均值x的期望仍為μ,但標準差為σ/√n(標準誤差)
正態母群體中已知總體標準差為σ時,可以從n個樣本估計整體均值μ
保留滿足:
-1.96≤(x -μ)/(σ/√n)≤1.96,求得μ的95%置信區間
2、已知總體均值,估計正態母群體的總體方差
1)由n個觀測值計算V
?
2)從卡方分布臨界表中求得自由度為n的卡方分布的95%預測命中區間
?
卡方分布臨界值表的行索引為自由度,列索引為概率
值的含義可以理解為自由度為行索引時,大于該值的數據的概率為列索引
例如:對于自由度為5的卡方分布V來說,V的值有95%在“0.8312≤V≤12.8325”中。
3)解不等式求出σ2的95%置信區間。
3、未知總體均值,估計正態母群體的總體方差
步驟:
1)計算樣本均值x,根據樣本均值計算樣本方差s2
s2=[(x1-x)2+(x2-x)2+…(xn-x)2]/n
2)計算統計量W
?
3)確認的自由度為n-1的W的95%預測命中區間(a≤W≤b)
4)求出σ2的95%置信區間
4、未知總體方差,估計正態母群體的總體均值
步驟:
1)計算樣本均值x和樣本標準差s
2)計算服從自由度n-1的t分布統計量T
?
3)根據t分布表查出自由度n-1的T的95%預測命中區間(-α≤T≤α)
?
例如自由度為10,T的95%命中區間的臨界值為2.228,有-2.28≤T≤2.28
4)計算x–的95%置信區間
這四點是統計學中比較常用的基礎知識,有比較大的收獲嗎?有想了解的可以留言哦!
總結
以上是生活随笔為你收集整理的数据分析中的统计学基础知识的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 在微型计算机中 如果电源突然中断,微型计
- 下一篇: xenserver 安装新硬盘_给Xen