c++ 用类统计不及格人数_统计小课堂13
Previous review:
1)回歸章節小結;
這周開始計數資料統計!
--------------------------------------
當觀察數據按照某種屬性和類別分組后,計數得到各組觀察單位數的資料成為計數資料(enumerationdata)。其實就相當于計量資料進行了分類。
而與計量資料的區別在于兩者的研究重點,計量重于不同處理下計量資料間的差異,而計數資料更偏向于統計某個分類占所有數據的比重,以比重去做研究。
就拿計算發病率來說,分子/分母計算發病率,即便分開比較了分子和分母的差異,并不能得到兩者相比之后是否存在差異。
大多時候得到的數值都是絕對數字,在進行技術資料的統計分析前通常先計算相對數。
三十、相對數:
相對數(relative number)是兩個有聯系的指標之比,根據不同的用途和性質分為相對比、構成比、率等。
30.1:相對比(relative ratio)
簡單來說就是兩個數的比值,可以是同單位,也可以是不同單位。甚至兩個數可以是絕對數字、相對數或平均數,啥啥都能比。
比較不同地區最低工資,是money/money,得出倍數;計算戶口問題,可以總人數/總房數,計算出每房有多少人,人/房為單位。
或者更簡單,每個人特別關心新學校的男女比例,就是男生/女生= x : x
30.2:構成比(constituent ratio)表示事物或現象內各構成部分的比重,通常以100作為比例基數(結果乘以100%),也稱為百分比。
構成比=內部某一構成部分的觀察單位數/各組成部分的觀察單位總數。
比如男生占總人數多少,就是一個構成比。
30.3:率(rate)率是一個具有時期概念的比,需要強調在某一時期內某個現象發生的頻率或強度,是一個反映強度的指標。
某事情在某個時期內發生率為:
某時期內發生某事件的觀察單位數/該時期開始時暴露的觀察單位數。
舉個例子,2019年初調查了1000個人,有50人高血壓,2020年再去調查這些人,有80人高血壓,所以高血壓的發病率就應該是:(80-50)/(1000-80),也就是只有第一年剩下的920人才可能新發病,所以30人應該是920人里面的一部分。而不是我們平時說2019年發病率是5%,2020年發病率是8%,這是口語中的錯誤概念。
30.4:標準化率標準化率又稱調整率,簡稱為標化率。對于內部構成不同的率進行比較時,按選定的標準進行調整,使得內部構成統一后再計算標化率。
計算方法成為直接法與間接法。兩者計算結果比較接近,但是直接法計算比較簡便,易于理解,更為常用。
主要的過程:①選定標準組,標準組一般為有代表性、較穩定的并且數量較大的人群;②按照選定的計算方法計算標準化率,然后再進行比較。
比如為了比較兩個城市的發病率,但這兩個城市中年齡構成比不同,城市A中老年人較多,而城市B中年輕人比重更高。這樣統計出來的發病率并不能代表真實情況,所以需要選用一個更大的范圍(比如全國范圍)內年齡構成比來對這兩個城市的比重進行校準,這樣才能夠保證在同樣的水平上進行比較。
30.5:注意事項和誤區相對數使用時會有一些注意事項,以及口語化的相對數存在著很多誤區。1、名為率但不是率的指標:真正意義上的率是應該有限定的時期。而有些頂著率的名頭,嚴謹來說應該是相對比或者構成比的指標比比皆是:患病率,人群中某病病人所占百分比,所以應該是一個構成比的問題,只關心某個時間點,此時此刻有多少病人,而不是一個時期新出現了多少病人。某個時間段的死亡率,一般是通過死亡人數/病人數而得,但是亡人和病人并不一定是同一時期患病的,在統計死亡人數的前幾天突然有疫情爆發,病人突然變多,死亡率就會相應下降,所以實則為相對比。
2、使用率時,分母不能太小:樣本量越多算出來的率越穩定,意義也比較大。比如一個工廠生產零件,就生產了2件全部成功,而另一個工廠生產了2w件,只有2件失敗,然后你就不能說第一個工廠更好因為成功率是100%。如果分母比較小還是提示一下絕對數字。
3、構成比和率是兩個不同的相對數,用途不一樣所以也不能混淆。
4、當各組的例數不相等的時候,計算不同率的平均值的時候不能直接把所有幾個率相加然后求平均,應該分子求和/分母求和,然后得出平均數。
5、用率做比較時,應該注意是否可比:如果不能直接相比,就像前面回歸的時候講到標準偏回歸系數,率也會有一個標準化率,需要進行標準化之后才能進行相互比較。
三十一、總體率的估計:與樣本平均數一樣,樣本率P也是一種統計量,也有抽樣誤差,用率的標準誤Sp反映抽樣誤差的大小:Sp2=P(1-P)/n。
但是存在樣本率就會存在總體率,這樣就會存在“點估計”和“區間估計”兩個概念。當然點估計不太推薦,最好還是區間估計會好一點。
31.1:正態理論法估計率的置信區間樣本含量較大的時候,nP(1-P)≥5時,P的抽樣分布接近正態,所以可以用正態分布計算置信區間的上下限,就和之前提到的計算置信區間差不多。
95%:P±1.96Sp;99%:P±2.58Sp。
31.1:精確法估計率的置信區間但是當nP(1-P)<5時,只能在小樣本的情形下使用精確法計算置信區間。
這里面我就不給出具體計算公式,因為有了公式你也不會算……
萬幸的是,有人專門計算出來了表格,通過查詢表格,找到“樣本量”和“實際數(就是計算率的時候分子量)”就可以找到對應的置信區間。
三十二、率的假設檢驗:
率的假設檢驗和前面我們所講的均數的假設檢驗類似,被區分3種情況:
①樣本率和總體率的比較;②兩樣本率的比較;③多個樣本率的比較。這三種情況的假設檢驗可以參考t檢驗的假設檢驗,后面就不一一列舉了。率的假設檢驗可以使用卡方(X2)檢驗和U檢驗,兩者在公式和一些參數上是等價的。32.1:樣本率和總體率的比較設樣本量為n,陽性數為x,樣本率p=x/n,比較樣本所屬于的總體的率π和已知總體的率π0是否相等。
當n較小的時候,樣本率接近0或1的時候,推薦使用泊松分布(之前戈賽特估計酵母細胞量的分布)做檢驗;當樣本率不接近0和1的時候,使用二項分布做檢驗;當n較大時,np≥5時,可以使用卡方或者U檢驗。
U檢驗:
計算出u值之后比較是否<u0.05,若成立則沒有差異。
卡方檢驗的話需要先根據π0計算出理論陽性數nπ0,和對應的理論非陽性數n(1-π0)。
如果你將p=x/n帶入u檢驗的算式中會發現這兩個公式其實是一樣的,并且在0.05和0.01的顯著性水平上,卡方檢驗的統計量確實是U檢驗統計量的平方,所以兩者的檢驗是完全等價的。
32.2:樣本率和總體率的比較兩個樣本統計量依次為n1,x1,p1,n2,x2,p2,計算公式還是p=x/n,兩樣本所屬于的總體率為π1和π2。
U檢驗:?????? 卡方檢驗還是需要事先列表計算觀察頻數和理論頻數。第一個表格為觀察頻數,每一行/列都有合計,右下角是總例數。
對于觀察頻數中每個小格子的理論頻數計算是:使用行合計和列合計之積/總例數。
經過前面給過的卡方計算公式,可以得出一個規律:
如果使用四格表表示甲樣本和乙樣本的陽性數和非陽性數,簡算公式為:
X2=[(ad-bc)2(a+b+c+d)]/[(a+b)(b+c)(a+c)(b+d)],也可以發現卡方值等于U值。
但考慮到卡方分布和U分布(正態分布)都是都是連續性的分布,而在正常情況下計數資料是間斷性的,直接使用卡方分布和U分布會使得結果有所偏差。所以統計學家對卡方檢驗制訂了一些校正規則:
1)n≥40時,所有格子的理論頻數≥5,不需要校正;
2)n≥40時,所有格子的理論頻數1≤T<5時,需要進行卡方檢驗的校正,可以使用卡方檢驗的校正公式或者四格表專用的校正公式,分別如下:
3)n<40時,或有至少有一個格子的理論頻數T<1時,或當卡方檢驗的p值接近所確定的顯著性水平α時,需要使用Fisher確切概率法。
32.3:多個樣本率的比較
卡方檢驗和U檢驗的公式都和前面一樣,只是因為不再是四格表,所以前面提到的簡算公式就不再作數,具體的簡算公式(其實我覺得也一點都不簡算,該看不懂的還是看不懂)在后面R*C列聯表中提到,兩者的計算公式是一致的。(而且給你你也不用對吧,看了還占用腦容量,就算了)
--------------------------------------
開了一下計數資料統計的頭!簡要講了一些四聯表,這一最簡單的列聯表,之后會說到復雜的R*C列聯表。下期預告:
R*C列聯表的統計分析。總結
以上是生活随笔為你收集整理的c++ 用类统计不及格人数_统计小课堂13的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 哪一版可以打开pdg 安卓超星图书馆_南
- 下一篇: angular跳转指定页面_通过 ang