描述统计学基础
第一課:研究方法入門
- 總體參數(如 mu 或 μ)是用來描述整個總體的值。
樣本統計量(如 X-bar 或
xˉ )是用來描述樣本的值;我們使用統計量來估計總體參數。估計值是我們對總體參數的最佳猜測。所以,我們可以使用 X-bar 來估計 mu。
- μ-xˉ稱為抽樣誤差
- a parameter is a characteristic of a population, while a statistic is a characteristic of a sample.
第四課:可變性
- IQR(Interquartile Range)=Q3-Q1
Outlier(異常值)
StandardDeviation=∑(xi?xˉ)2n?1??????????√
variance=∑(xi?xˉ)2n?1
s=∑(xi?xˉ)2n?1??????????√
σ=∑(xi?xˉ)2n??????????√
我們稱s為sample standard deviation
如果你有樣本,并且需要估算總體標準差。用s這個公式。如果你有數據集,要估算數據集的標準差而不是總體的標準差,用 σ 來計算
第七課:抽樣分布
- 中心極限定理
σn??√≈SE
SE稱之為標準誤差 standard error
SE也是樣本均值分布的標準差。也就是用這個公式,根據總體的標準差,除以樣本量的平方根,可以得到樣本的標準差
因為中心極限定理,我們的總體可以是任何形狀的,我們從中抽取一個樣本,然后計算出均值。之后再抽取一個,計算均值。假設持續很多次(非常大),這時我們將均值繪制成圖像形狀會顯得相對正太。其中標準偏差會等于總體偏差除以樣本量的平方根。
當n值越大時,樣本標準差就會越來越小,總體均值會落入的區間也會越來越小。注意:抽樣分布的均值和總體的均值是一樣的。具體說來,我們需要使n增大四倍才能實現一半的衡量錯誤
抽樣分布:如果從容量為N的有限總體抽樣,若每次抽取容量為n的樣本,那么一共可以得到N取n的組合個樣本(所有可能的樣本個數)。抽樣所得到的每一個樣本可以計算一個平均數,全部可能的樣本都被抽取后可以得到許多平均數。如果將抽樣所得到的所有可能的樣本平均數集合起來便構成一個新的總體,平均數就成為這個新總體的變量。由平均數構成的新總體的分布,稱為平均數的抽樣分布。隨機樣本的任何一種統計數都可以是一個變量,這種變量的分布稱為統計數的抽樣分布。
- 標準分數(standard score)也叫z分數(z-score)含義及計算過程:
含義:標準分數可以回答這樣一個問題:”一個給定分數距離平均數多少個標準差?”在平均數之上的分數會得到一個正的標準分數,在平均數之下的分數會得到一個負的標準分數。
由于標準分數不僅能表明原始分數在分布中的地位,它還是以標準差為單位的等距量表,故經過把原始分數轉化為標準分數,可以在不同分布的各原始分數之間進行比較。
例如:某中學高(1)班期末考試,已知語文期末考試的全班平均分為73分,標準差為7分,甲得了78分;數學期末考試的全班平均分為80分,標準差為6.5分,甲得了83分。甲哪一門考試成績比較好?
因為兩科期末考試的標準差不同,因此不能用原始分數直接比較。需要將原始分數轉換成標準分數,然后進行比較。
Z(語文)=(78-73)/7=0.71 Z(數學)=(83-80)/6.5=0.46 甲的語文成績在其整體分布中位于平均分之上0.71個標準差的地位,他的數學成績在其整體分布中位于平均分之上0.46個標準差的地位。由此可見,甲的語文期末考試成績優于數學期末考試成績。
計算公式:
z=x?μσ (7?1)
其中μ為均值,σ為標準差
若隨機變量無法確定,則為算數平均數,公式為
z=xˉ?μσ/n??√ (7?2)
樣本均值的均值:假設有一個總體,從中抽樣,每次抽n個,每次抽出來的n個數值會有個均值u,如果一共抽了k次,那就有k個均值,比如設為u1,u2,u3,…uk,這k個均值的均值等于總體的均值。
順便說一句,基于中心極限定理,這K個均值的標準差是總體標準差的根號n分之一倍。
關于第二個公式的進一步理解如下:
該公式實際上是對樣本均值抽樣分布求z值。由于有如下關系式:
抽樣分布的標準差=總體標準差n??√=σn??√
將此公式帶入(7-1)中,于是得到如下算式
z抽樣分布=xˉ?μ抽樣分布的標準差=xˉ?μσ?n??√
即(7-2)
事實上,計算z的目的,是將任意正態分布N(μ,σ2),轉換成標準正態分布N(0,1)
這樣就可以利用標準正態分布的特有性質,將“與均值的距離”轉換成特定區域內的概率。(可以通過查標準正太分布的z表得出概率)
第一次寫博客,也是第一次用Markdown記筆記,好多東西寫的不系統,也不完善,還請大家見諒,我以后會逐步改進的。爭取最大可能把復雜問題簡單化。最后附上我的優達學城優惠碼C7B2877A
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
- 上一篇: Python代码:数字图像处理(DIP)
- 下一篇: 推论统计学基础一:Estimation