统计学怎么求加权指数_我要自学生信之统计学:统计学概述(一)
文章的一開始我打算放一張圖,讓大家理解一下統(tǒng)計(jì)到底是在干什么,統(tǒng)計(jì)的基本流程是什么,本文旨在拋磚引玉,是我要學(xué)習(xí)生物信息學(xué)之統(tǒng)計(jì)學(xué)的第一篇文章。旨在幫助大家建立起一個(gè)初步概念。
數(shù)據(jù)的統(tǒng)計(jì)分析主要包括兩個(gè)方面的內(nèi)容:一是統(tǒng)計(jì)描述,主要是運(yùn)用一些統(tǒng)計(jì)指標(biāo)諸如均數(shù)、標(biāo)準(zhǔn)差以及統(tǒng)計(jì)表和統(tǒng)計(jì)圖等,對數(shù)據(jù)的數(shù)量特征及其分布規(guī)律進(jìn)行客觀地描述和表達(dá),不涉及樣本推斷總體的問題;二是統(tǒng)計(jì)推斷,即在一定的置信度或概率保證下,根據(jù)樣本信息去推斷總體特征。統(tǒng)計(jì)推斷通常包括參數(shù)估計(jì)和假設(shè)檢驗(yàn)兩個(gè)內(nèi)容:參數(shù)估計(jì)是指用樣本指標(biāo)推斷總體相應(yīng)的指標(biāo),例如根據(jù)部分城市人群的原發(fā)性高血壓患病率去估計(jì)整個(gè)城市的原發(fā)性高血壓患病率,參數(shù)估計(jì)又分為點(diǎn)區(qū)間和區(qū)間估計(jì),比如:已知樣本量為200、均數(shù)為100,標(biāo)準(zhǔn)差為5,對總體均數(shù)進(jìn)行估計(jì),如果直接用100作為總體的均數(shù),這種估計(jì)方法被稱為點(diǎn)估計(jì),由于樣本是隨機(jī)的,抽出一個(gè)具體的樣本得到的估計(jì)值很可能不同于總體真值。所以就有了另一種估計(jì)方法區(qū)間估計(jì),它是在點(diǎn)估計(jì)的基礎(chǔ)上,給出總體參數(shù)估計(jì)的一個(gè)區(qū)間范圍,該區(qū)間通常由樣本統(tǒng)計(jì)量加減估計(jì)誤差得到;假設(shè)檢驗(yàn)是指由樣本之間的差異推斷總體之間是否可能存在差異,例如原發(fā)性高血壓治療藥物在兩組的療效存在一定差別,假設(shè)檢驗(yàn)回答這種差別是機(jī)會(huì)造成的,還是真實(shí)存在的。它又分為單尾檢驗(yàn)和雙尾檢驗(yàn),單尾是判斷大于或者小于,雙尾是判斷是不是等于。
舉一個(gè)形象的例子:設(shè)總體均數(shù)為μ,如果用參數(shù)估計(jì)是:求μ=?而假設(shè)檢驗(yàn)則是:判斷μ=100?(雙尾檢驗(yàn)) u>100?(單尾檢驗(yàn))
總計(jì)一下更清晰:
是不是有種恍然大悟的感覺!下面我來解釋下大學(xué)中大家學(xué)的概率論于數(shù)理統(tǒng)計(jì)是怎么結(jié)合到一起的?
概率論:從已知分布出發(fā),研究隨機(jī)變量X的性質(zhì)、規(guī)律、數(shù)學(xué)特征等;
數(shù)理統(tǒng)計(jì):研究對象X的分布未知或只知道部分信息,需要觀察它的取值(數(shù)據(jù)采集),通過分析數(shù)據(jù)來推斷X服從什么分布或確定未知參數(shù)。
數(shù)理統(tǒng)計(jì)研究問題的主要方法:以部分?jǐn)?shù)據(jù)信息來推斷整體相關(guān)信息
這樣大家對于兩者的關(guān)系是不是清晰了一些,下面我來介紹下統(tǒng)計(jì)學(xué)中常用的一些概念
一、數(shù)據(jù)分析的方法可分為描述統(tǒng)計(jì)和推斷統(tǒng)計(jì)
描述統(tǒng)計(jì):將一系列復(fù)雜數(shù)據(jù)濃縮成一個(gè)單一數(shù)字的便捷工具。比如:擊球率,反映一個(gè)球員在賽場上的整體表現(xiàn),它只是一個(gè)去除了單位性質(zhì)用于比較的簡單易行的數(shù)學(xué)工具。然而擊球率也并非衡量球員能力的完美指標(biāo)(完美是不存在的),也非全貌,但提供了一扇窗。
推斷統(tǒng)計(jì):推斷統(tǒng)計(jì)是研究如何利用樣本數(shù)據(jù)來推斷總體特征的統(tǒng)計(jì)方法。比如,要了解一個(gè)地區(qū)的人口特征,不可能對每個(gè)人的特征一一進(jìn)行測量;對產(chǎn)品的質(zhì)量進(jìn)行檢驗(yàn),往往是破壞性的,也不可能對每個(gè)產(chǎn)品進(jìn)行測量。這就需要抽取部分個(gè)體即樣本進(jìn)行測量,然后根據(jù)獲得的樣本數(shù)據(jù)對所研究的總體特征進(jìn)行推斷,這就是推斷統(tǒng)計(jì)要解決的問題
二、數(shù)據(jù)的收集
總體:包含研究的全部個(gè)體(數(shù)據(jù))的集合
樣本:從總體中抽出的一部分元素的集合,實(shí)際情況通常是我們很難拿到總體的數(shù)據(jù),用樣本來代替總體是一個(gè)不錯(cuò)的選擇
樣本容量或樣本量:構(gòu)成樣本的元素?cái)?shù)目
有限總體:容量有限的總體;
無限總體:容量無限的總體,通常將容量非常大的有限總體也按無限總體處理。
參數(shù):用來描述總體特征的概括性數(shù)字度量,這個(gè)概念有點(diǎn)抽象,比如總體標(biāo)準(zhǔn)差、總體平均數(shù)啊都是參數(shù),由于總體數(shù)據(jù)通常是不知道的,所以參數(shù)也是一個(gè)未知數(shù)。因此我們需要進(jìn)行抽樣,根據(jù)樣本估算總體參數(shù)。
統(tǒng)計(jì)量(statistic):用來描述樣本特征的概括性數(shù)字度量,統(tǒng)計(jì)量是根據(jù)樣本數(shù)據(jù)計(jì)算出來的一個(gè)量,他是樣本的函數(shù)。通常我們所關(guān)心的樣本統(tǒng)計(jì)量樣本均數(shù)、樣本標(biāo)準(zhǔn)差等。
三、數(shù)據(jù)的描述:
通常我們只能對樣本進(jìn)行描述,對樣本的描述可以用統(tǒng)計(jì)量也可以用圖表來表示
首先是統(tǒng)計(jì)量
眾數(shù):體現(xiàn)出個(gè)體占據(jù)總體的頻次情況,可用于定性數(shù)據(jù)和定量數(shù)據(jù),一個(gè)字段多個(gè)定性數(shù)據(jù),可對該字段相同定性數(shù)據(jù)進(jìn)行聚合,了解到每個(gè)定性數(shù)據(jù)的總數(shù)量。
中位數(shù):同樣是一個(gè)描述中間位置的統(tǒng)計(jì)量,但是相比平均數(shù),這個(gè)中間位置就是中位數(shù),按照從大到小或者從小到大的順序排列好,中間的位置就是中位數(shù),如果有兩位中位數(shù)那就相加之后除以2。如果一個(gè)數(shù)據(jù)的的分布中沒有特別離譜的異常值,那么他們的中位數(shù)和平均數(shù)應(yīng)該差不多。
平均數(shù):描述數(shù)據(jù)中間位置的一個(gè)描述統(tǒng)計(jì)量,反應(yīng)的是數(shù)據(jù)的集中趨勢。但平均數(shù)容易受到異常值的影響,比如10個(gè)收入都為1萬元的家庭和比爾蓋茨比一下,那這組人群的的平均收入一定提高很多。
方差和標(biāo)準(zhǔn)差:衡量數(shù)據(jù)相對于平均值的分散程度,根據(jù)方差和標(biāo)準(zhǔn)差我們可以知道所觀察的數(shù)據(jù)的分散情況。
你會(huì)發(fā)現(xiàn)大部分的數(shù)據(jù)都會(huì)在樣本平均值的左右一個(gè)標(biāo)準(zhǔn)差內(nèi)。到底多少呢?這個(gè)數(shù)值是68.2%
標(biāo)準(zhǔn)分:表征了距離均值的標(biāo)準(zhǔn)差的個(gè)數(shù),標(biāo)準(zhǔn)分為我們提供了解決方法,當(dāng)比較均值和標(biāo)準(zhǔn)差各不相同的數(shù)據(jù)集時(shí),我們可以把這些數(shù)值視為來自同一個(gè)標(biāo)準(zhǔn)的數(shù)據(jù)集,然后進(jìn)行比較。標(biāo)準(zhǔn)分將把每一個(gè)數(shù)據(jù)集轉(zhuǎn)化為通用的分布形態(tài),進(jìn)行比較。標(biāo)準(zhǔn)分還有個(gè)重要的作用,它可以把正態(tài)分布變?yōu)闃?biāo)準(zhǔn)正態(tài)分布。
變異系數(shù):樣本標(biāo)準(zhǔn)差除以均值,用變異系數(shù)可以比較不同樣本相對變異程度的大小。
協(xié)方差:度量各個(gè)維度偏離其均值的程度。協(xié)方差的值如果為正值,則說明兩者是正相關(guān)的,結(jié)果為負(fù)值就說明負(fù)相關(guān)的,如果為0,也是就是統(tǒng)計(jì)上說的“相互獨(dú)立”。協(xié)方差僅能進(jìn)行定性的分析。
私以為統(tǒng)計(jì)學(xué)的核心就是研究變量與變量之間的關(guān)系
相關(guān)系數(shù):相關(guān)系數(shù)是用以反映變量之間相關(guān)關(guān)系密切程度的統(tǒng)計(jì)指標(biāo)。相關(guān)系數(shù)可以作定量的分析,看一看相關(guān)性到底有多大。
標(biāo)準(zhǔn)誤:樣本均數(shù)的標(biāo)準(zhǔn)差,是描述均數(shù)抽樣分布的離散程度及衡量均數(shù)抽樣誤差大小的尺度,反映的是樣本均數(shù)之間的變異。
關(guān)于標(biāo)準(zhǔn)誤這個(gè)概念很多人可能不了解,你想一下如果你只從總體中抽一次樣本這樣得到的均值和方差是否真的就能代表總體的均值或者方差呢?我們可不可以進(jìn)行多次抽樣,如果這樣多次抽樣后計(jì)算樣本之間的標(biāo)準(zhǔn)差,標(biāo)準(zhǔn)差如果越小不就說明這些取樣取的很好嗎。
偏度:偏度是統(tǒng)計(jì)數(shù)據(jù)分布偏斜方向和程度的度量,是統(tǒng)計(jì)數(shù)據(jù)分布非對稱程度的數(shù)字特征,向左偏還是向右偏。偏度定義中包括正態(tài)分布(偏度=0),右偏分布(也叫正偏分布,其偏度>0),左偏分布(也叫負(fù)偏分布,其偏度<0)。
峰度:峰度又稱峰態(tài)系數(shù)。表征概率密度分布曲線在平均值處峰值高低的特征數(shù)。直觀看來,峰度反映了峰部的尖度。隨機(jī)變量的峰度計(jì)算方法為:隨機(jī)變量的四階中心矩與方差平方的比值。峰度包括正態(tài)分布(峰度值=3),厚尾(峰度值>3),瘦尾(峰度值<3)。峰度越大,越高。
頻數(shù):指變量值中代表某種特征的數(shù)(標(biāo)志值)出現(xiàn)的次數(shù),如果在頻數(shù)分布圖中更胖的話表明你的數(shù)據(jù)越分散。
還可以用一些圖表來進(jìn)行描述:只展示部分
四、常見數(shù)據(jù)的分布
實(shí)際上數(shù)據(jù)的分布也可以算作在描述里面,看個(gè)人的分類了。
選擇其中三個(gè)分布:二項(xiàng)分布、正態(tài)分布、卡方分布進(jìn)行解釋
正態(tài)分布:正態(tài)曲線呈鐘型,兩頭低,中間高,左右對稱因其曲線呈鐘形,因此人們又經(jīng)常稱之為鐘形曲線。
在正態(tài)分布中我們通常認(rèn)為在平均值左右三個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)包含了大部分的數(shù)值。
二項(xiàng)分布:指的是重復(fù)n次獨(dú)立的伯努利試驗(yàn)。在每次試驗(yàn)中只有兩種可能的結(jié)果,而且兩種結(jié)果發(fā)生與否互相對立,并且相互獨(dú)立,與其它各次試驗(yàn)結(jié)果無關(guān),事件發(fā)生與否的概率在每一次獨(dú)立試驗(yàn)中都保持不變,則這一系列試驗(yàn)總稱為n重伯努利實(shí)驗(yàn),當(dāng)試驗(yàn)次數(shù)為1時(shí),二項(xiàng)分布服從0-1分布。
卡方分布:若n個(gè)相互獨(dú)立的隨機(jī)變量ξ?,ξ?,...,ξn ,均服從標(biāo)準(zhǔn)正態(tài)分布(也稱獨(dú)立同分布于標(biāo)準(zhǔn)正態(tài)分布),則這n個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量的平方和構(gòu)成一新的隨機(jī)變量,其分布規(guī)律稱為卡方分布。
五、假設(shè)檢驗(yàn)
假設(shè)檢驗(yàn):假設(shè)檢驗(yàn)一般分為四個(gè)步驟,提出假設(shè)-確定顯著水平-計(jì)算概率-推斷是否接受假設(shè)。假設(shè)檢驗(yàn)首先要對總體做出假設(shè),一般應(yīng)作兩個(gè)假設(shè),一個(gè)是無效假設(shè),一個(gè)是備擇假設(shè)。無效意指要比較兩個(gè)參數(shù)之間沒有真實(shí)的差異,那么備擇就是與之相反。兩個(gè)假設(shè)是對立的。
原假設(shè)和備擇假設(shè):原假設(shè):根據(jù)檢驗(yàn)結(jié)果準(zhǔn)備予以拒絕或接受的假設(shè),以H0表示;備擇假設(shè):與原假設(shè)不相容(即對立)的假設(shè),以H1表示
拒絕域、顯著性水平:拒絕域: 所使用的統(tǒng)計(jì)量可能取值的集合的某個(gè)子集合。如果根據(jù)觀測值得出的統(tǒng)計(jì)量的數(shù)值屬于這一集合,拒絕原假設(shè);反之,接受原假設(shè)。顯著性水平: 當(dāng)原假設(shè)正確時(shí),而被拒絕的概率的最大值,記為α。α的值一般取為0.05或0.01。
單尾/雙尾假設(shè)檢驗(yàn):備擇假設(shè)沒有特定的方向性,稱為雙尾檢測檢驗(yàn),單尾檢測具有特定的方向性,并含有大于或者小于的假設(shè)檢驗(yàn)。
P值:P值是指在一個(gè)特定的統(tǒng)計(jì)模型下,從樣本數(shù)據(jù)計(jì)算出的估計(jì)值(如兩組間樣本均數(shù)差)等于觀測值或比觀測值更為極端的概率
六:回歸與分類
這兩塊打算在數(shù)據(jù)挖掘這邊講解的,作為入門的話會(huì)比較困難一點(diǎn)。
七:多元分析
尋找多個(gè)變量的代表:主成分分析
把對象分類:聚類分析
八:其他非常重要的概念
概率:研究不確定性事件和結(jié)果,比如2008年的金融危機(jī),恰恰是華爾街預(yù)測模型中極小可能發(fā)生的事件同時(shí)發(fā)生了。用概率的語言來說就是概率很低的事件一起發(fā)生。因此所有的預(yù)測模型都是以概率為基礎(chǔ)的。
變量:說明某種特征的概念,例如擊球率,變量在上一次和下一次的測量是可以變化的,比如這一次擊球率是40%,下一次是50%。具體可以分為分類變量(比如性別:男或者女)、順序變量(獎(jiǎng)項(xiàng):一等獎(jiǎng)、二等獎(jiǎng)、三等獎(jiǎng))、數(shù)值型變量(年齡:1、2、3)。數(shù)值型根據(jù)取值的不同又可以分為離散型變量(比如年級(jí))和連續(xù)型變量(比如溫度)。
同質(zhì):根據(jù)研究目的所確定的觀察單位其性質(zhì)應(yīng)大致相同。觀察單位是研究的基本單元,可以是一個(gè)人、一個(gè)地點(diǎn)、一只動(dòng)物、一份生物樣品等。同質(zhì)即為觀察單位所受的影響相同。
變異:即使性質(zhì)相同的事物,如果觀察同一指標(biāo),各觀察單位之間由于存在個(gè)體差異,也會(huì)使測量結(jié)果不同,這種差異稱為變異。變異即為在觀察單位在同質(zhì)基礎(chǔ)上的個(gè)體差異。例如,同種族、同年齡、同性別的健康人,在相同的條件下測其脈搏、呼吸、體溫等生理指標(biāo)均可能存在很大的差異。
四分位數(shù):等于將數(shù)據(jù)分割為四等分的幾個(gè)數(shù)值,最大的稱為上四分位數(shù),最小的稱為下四分位數(shù),中間的四分位數(shù)即中位數(shù),上四分位數(shù)-下四分位數(shù);常用全距量度數(shù)據(jù)常受異常值困擾,因此常關(guān)注位于數(shù)據(jù)中央的50%,排除異常值,這時(shí)用上了四分位數(shù),用到四分位距。
中心極限定理:中心極限定理是概率論中討論隨機(jī)變量序列部分和分布漸近于正態(tài)分布的一類定理
大數(shù)定律:概率論中討論隨機(jī)變量序列的算術(shù)平均值向隨機(jī)變量各數(shù)學(xué)期望的算術(shù)平均值收斂的定律。這個(gè)定理就是,在試驗(yàn)不變的條件下,重復(fù)試驗(yàn)多次,隨機(jī)事件的頻率近似于它的概率。比如一個(gè)均勻的骰子,你投擲的次數(shù)如果足夠多,那么你得到的1-6的頻率計(jì)算應(yīng)該大致等于概率,就是每一個(gè)數(shù)字出現(xiàn)的概率為1/6
方差分析:方差分析是通過對數(shù)據(jù)誤差來源的分析來判斷不同總體的均值是否相等,進(jìn)而分析自變量(分類型)對因變量(數(shù)值型)是否有顯著影響。可分為單因素方差分析,雙因素方差分析
本文編寫水平有限,會(huì)在不斷學(xué)習(xí)中進(jìn)行更新和改進(jìn)~
總結(jié)
以上是生活随笔為你收集整理的统计学怎么求加权指数_我要自学生信之统计学:统计学概述(一)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: .net label在父容器中占两行显示
- 下一篇: 货币基金会跑路吗