大数据统计分析毕业设计_大数据分析与传统统计分析的区别
大數(shù)據(jù)分析與傳統(tǒng)統(tǒng)計分析的區(qū)別:其一是數(shù)據(jù)分析時不再進行抽樣,而是采用全樣本(n=all);其二是分析方法,不再采用傳統(tǒng)的假設(shè)檢驗。
一、統(tǒng)計方法:
大數(shù)據(jù)的應(yīng)用,解決了一般統(tǒng)計方法上主要誤差來源:抽取樣本以及假設(shè)檢驗中使用的前提假設(shè)。
一般統(tǒng)計方法中依據(jù)的中值定理和大數(shù)定律闡明我們可以通過增大樣本容量,且多次抽取樣本使得結(jié)果更加精確,但這一結(jié)論成立的條件在于所有樣本的抽取滿足i.i.d.(independent and identically distributed,即假設(shè)變量分布獨立且相同),而這一假設(shè)在現(xiàn)實中很難滿足。樣本的選擇很難做到完全隨機。一般商業(yè)案例中采用的隔多少位抽取樣本的方法在統(tǒng)計學(xué)意義上不滿足隨機要求,所得結(jié)果誤差在所難免。
類似,多大的樣本才算足夠大也存在爭議,而大數(shù)據(jù)直接采用全樣本(population)來進行分析可以消除這一部分造成的誤差。
二、分析方法:
傳統(tǒng)分析方法是對需要回答的問題作出一定的假設(shè),例如教育背景對保險購買金額有影響,然后根據(jù)這一假設(shè)在所抽取的樣本上進行檢驗。而檢驗假設(shè)這一方法就充滿著現(xiàn)實數(shù)據(jù)不滿足的前提假設(shè),比如最著名的正態(tài)分布。正態(tài)分布是一個很好的假設(shè),因為它能簡化計算,而且通過對數(shù)據(jù)的各種變形,基本上也可以在一定置信區(qū)間內(nèi)勉勉強強算為正態(tài)分布。
再次,假設(shè)檢驗的結(jié)果只能不否認原假設(shè),并不能得出完全支持的結(jié)論。
但大數(shù)據(jù)的情況就不一樣。對大數(shù)據(jù)進行分析時,我們并不需要對問題提出假設(shè),而是通過算法找出變量之間的相關(guān)度。以上例子中,如果教育背景和保險購買額這兩個變量間相關(guān)度高(e.g. 接近1),那么保險公司就應(yīng)該更主要針對高教育背景的人推銷保險。
大數(shù)據(jù)的應(yīng)用可以說是在減少人類處理數(shù)據(jù)時帶入的主觀假設(shè)的影響,而完全依靠數(shù)據(jù)間的相關(guān)性來闡述。而由于消除人為因素帶入的誤差,已經(jīng)分析人員作出假設(shè)的限制(如果教育背景和保險購買額是相關(guān)的,而分析人員沒想到,那這個結(jié)論就不會被分析出來,這在實際案例中是很容易發(fā)生的),大數(shù)據(jù)的核心也就在于它能更充分的發(fā)掘數(shù)據(jù)的全部真實含義。
原文鏈接:
https://www.zhihu.com/question/23273263/answer/90758820
薦:
【中國風(fēng)動漫】除了《哪吒》,這些良心國產(chǎn)動畫也應(yīng)該被更多人知道!
聲明
來源:知乎,RAD極客會(ID:RAD_Geek_Club)推薦閱讀,不代表RAD極客會立場,轉(zhuǎn)載請注明,如涉及作品版權(quán)問題,請聯(lián)系我們刪除或做相關(guān)處理!
人工智能產(chǎn)業(yè)鏈聯(lián)盟
總結(jié)
以上是生活随笔為你收集整理的大数据统计分析毕业设计_大数据分析与传统统计分析的区别的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 奥拉星2如何快速升级100级 奥拉星2快
- 下一篇: 去医院挂号的流程