统计(1 - 2)
統(tǒng)計(jì)學(xué)基礎(chǔ)定義
Statistics的前部分為“state”,政府,原由是統(tǒng)計(jì)是300年前被首次應(yīng)用在政府部門統(tǒng)計(jì)人口出生和死亡信息的;如今的統(tǒng)計(jì)學(xué)早已被應(yīng)用在各個(gè)專業(yè)領(lǐng)域;
統(tǒng)計(jì)學(xué)是用以收集數(shù)據(jù)、分析數(shù)據(jù)和數(shù)據(jù)推論的一組概念、原則和方法;是將數(shù)據(jù)轉(zhuǎn)化為比數(shù)據(jù)本身更為復(fù)雜的知識,為其他學(xué)科提供一套研究對象的方法;(是不是應(yīng)該叫統(tǒng)計(jì)哲學(xué));
統(tǒng)計(jì)學(xué)的主要思想包括隨機(jī)性和規(guī)律性、概率、變量和常量:
1) 隨機(jī)性和規(guī)律性:
投一枚硬幣,我們不知道下次是正面朝上還是反面朝上,此為隨機(jī)性;而如果投各多次,我們發(fā)現(xiàn)正面和反面差不多,此為規(guī)律性;
隨機(jī)性中的規(guī)律性:把隨機(jī)的事件放在一起,尋找其中的規(guī)律,這是統(tǒng)計(jì)思想的基礎(chǔ),如多次投硬幣;
規(guī)律性中的隨機(jī)性:每次觀察一組重復(fù)的實(shí)驗(yàn)結(jié)果都波動不一樣,比如投100次硬幣得到的正面數(shù);這樣,波動的差異就是數(shù)據(jù)本身隨機(jī)性帶來的,但如何判斷波動是隨機(jī)帶來的還是事物本身帶來的,波動是否超出隨機(jī)性所能解釋的程度,這后續(xù)會有數(shù)據(jù)偏差問題的研究;
2)概率是取值在0-1的數(shù),告訴我們一個(gè)特定事件以多大的機(jī)會會發(fā)生;從數(shù)據(jù)中得到結(jié)論的基礎(chǔ),比如我們可能不知道下次隨機(jī)性的波動范圍是多大,但是我們可以確定落在范圍內(nèi)的概率;
3)變量是可以取多個(gè)值的特征、特質(zhì)或?qū)傩?#xff1b;變量的值是對其的度量;對與那些生活中可觀察的變量成為經(jīng)驗(yàn)變量(性別、年齡);對于用數(shù)學(xué)方法推導(dǎo)出來的變量稱之為理論變量(z,t,x2)
4)常量是一個(gè)固定的值,重復(fù)試驗(yàn),其值不變,如已訓(xùn)練好模型的參數(shù);
數(shù)據(jù)的收集
一位統(tǒng)計(jì)學(xué)家說過:世上有兩種數(shù)據(jù),好數(shù)據(jù)和壞數(shù)據(jù);精辟;好數(shù)據(jù)是根據(jù)合理、正確的統(tǒng)計(jì)原理收集到的數(shù)據(jù);反之,壞數(shù)據(jù)是其他方法收集的;好數(shù)據(jù)的收集方法包括:
1)定義變量:仔細(xì)的考慮給變量一個(gè)無歧義、清晰的、詳盡的定義;比如統(tǒng)計(jì)家庭小孩個(gè)數(shù)中小孩的定義:多大年齡?繼父母算不算?寄養(yǎng)怎么辦?父母離婚了小孩沒人管怎么辦?。。。
2)觀測數(shù)據(jù):總體(population)包含所有研究的個(gè)體;普查(census)基于收集整個(gè)總體數(shù)據(jù)的過程;樣本(sample)總體中被選中的個(gè)體;
怎么選擇樣本呢?想想我們做飯的時(shí)候怎么判斷咸淡吧,挖一小勺嘗一嘗,要想這一小勺代表整個(gè)鍋的味道,就要來回?cái)囈粩?#xff0c;使得這一勺是隨機(jī)的;因此樣本應(yīng)該選擇隨機(jī)樣本,總體的每一個(gè)個(gè)體都有已知的機(jī)會包含在樣本中;
還記得前面提到的規(guī)律性的隨機(jī)行,即便是隨機(jī)的,那每次隨機(jī)抽樣也不一樣,這里把每次抽樣的diff波動定義為抽樣誤差(sampling error),它告訴我們樣本距離總體實(shí)際值有多遠(yuǎn);如何計(jì)算抽樣誤差,是根據(jù)極限定理推導(dǎo)的,后面會詳細(xì)介紹,這里可簡單記為如果樣本大小為n,則抽樣誤差可近似為1/sqrt(n);
3)實(shí)驗(yàn)數(shù)據(jù):通過實(shí)驗(yàn)組(ecperimental group)和對照組(control group)確認(rèn)某些變量是否起作用;多個(gè)變量同時(shí)研究的“拉丁方設(shè)計(jì)”,由Fisher發(fā)明,沒錯(cuò),就是Fisher分類器的R.A.Fisher;
?
(R.A.Fisher英國著名統(tǒng)計(jì)學(xué)習(xí)、生物學(xué)家和遺傳學(xué)家,現(xiàn)代數(shù)理統(tǒng)計(jì)學(xué)和推斷統(tǒng)計(jì)學(xué)奠基人,數(shù)理遺傳學(xué)創(chuàng)始人,提出最大似然用于假設(shè)檢驗(yàn),引領(lǐng)統(tǒng)計(jì)學(xué)從“描述統(tǒng)計(jì)學(xué)”發(fā)展到“推斷統(tǒng)計(jì)學(xué)”,這一段發(fā)展過渡階段被成為Fisher時(shí)代。http://jpkc.njmu.edu.cn/course/tongjixue/file/jxzy/tjmj02.htm)
拉丁方設(shè)計(jì):http://image.sciencenet.cn/olddata/kexue.com.cn/upload/blog/file/2009/9/2009912152943720.pdf
?
轉(zhuǎn)載于:https://www.cnblogs.com/sunjerdege/p/3391360.html
總結(jié)
- 上一篇: mysql dbutil_通过dbuti
- 下一篇: python爬取付费音乐包_用Pytho