讲讲方差分析
這一篇講講方差分析。
1.背景:
假如你們現(xiàn)在針對(duì)用戶提出了三種提高客單價(jià)的策略A、B、C,現(xiàn)在想看一下這三種策略最后對(duì)提高客單價(jià)的效果有什么不同,那我們?cè)趺床拍苤肋@三種策略效果有什么不同?最簡(jiǎn)單的方法就是做一個(gè)實(shí)驗(yàn),我們可以隨機(jī)挑選一部分用戶,然后把這些用戶分成三組A、B、C組,A組用戶使用A策略、B組用戶使用B策略、C組用戶使用C策略,等策略實(shí)施一段時(shí)間以后,我們來(lái)看一下這三組分別的客單價(jià)是什么水平?哪組平均客單價(jià)高,就說(shuō)明哪組策略有效果。真的可以得出這的結(jié)論嗎?是可以,但是不夠嚴(yán)謹(jǐn)。
為什么說(shuō)不夠嚴(yán)謹(jǐn)呢?是因?yàn)槲覀冇脕?lái)做實(shí)驗(yàn)的用戶是隨機(jī)挑選的,有可能客單價(jià)高的那部分用戶(比如高價(jià)值用戶)本身就要比其他用戶群體的客單價(jià)高,那為了避免這種可能是因?yàn)殡S機(jī)抽樣造成的結(jié)果不一致問(wèn)題,我們就需要去證明下,到底是不是因?yàn)殡S機(jī)挑選的原因,如果不是,我們就可以去比較各組的平均客單價(jià),哪組客單價(jià)較高,就說(shuō)明哪組策略更有效果。
我們的最終目的其實(shí)就是為了比較各組的平均客單價(jià),但是在比較均值之前,我們需要先證明下各組之間的結(jié)果不同是因?yàn)椴呗缘脑蜻€是隨機(jī)挑選的原因,我們把這個(gè)過(guò)程叫做方差分析。
2.三個(gè)假設(shè):
方差分析有三個(gè)假設(shè):
1.每組樣本數(shù)據(jù)對(duì)應(yīng)的總體應(yīng)該服從正態(tài)分布;
2.每組樣本數(shù)據(jù)對(duì)應(yīng)的總體方差要相等,方差相等又叫方差齊性;
3.每組之間的值是相互獨(dú)立的,就是A、B、C組的值不會(huì)相互影響。
正態(tài)檢驗(yàn)主要有兩種大的方法,一種是統(tǒng)計(jì)檢驗(yàn)的方法:主要有基于峰度和偏度的SW檢驗(yàn)、基于擬合度的KS、CVM、AD檢驗(yàn);另一種是用描述的方法:Q-Q圖和P-P圖、莖葉圖,利用四分位數(shù)間距和標(biāo)準(zhǔn)差來(lái)判斷。
方差齊性的主要判斷方法有:方差比、Hartley檢驗(yàn)、Levene檢驗(yàn)、BF法。
由于篇幅問(wèn)題,關(guān)于上面涉及到的方法以后專門(mén)來(lái)講,有興趣的同學(xué)可以先自行查閱。
3.方差分析流程
3.1建立假設(shè)
H0:各組的客單價(jià)均值相等;
H1:各組的客單價(jià)均值不相等或不全等。
檢驗(yàn)水準(zhǔn)為0.05。
3.2計(jì)算檢驗(yàn)統(tǒng)計(jì)量F值
F值 = 組間方差/組內(nèi)方差。我們主要是通過(guò)比較F值的大小來(lái)判斷各組之間是否存在顯著差異。
所謂的組間方差就是用來(lái)反映組與組之間的差異程度,組內(nèi)方差就是用來(lái)反映各組內(nèi)部數(shù)據(jù)的差異程度。
如果各組之間的客單價(jià)相等,即假設(shè)H0成立,也就意味著各組之間是沒(méi)啥區(qū)別的,也就是組間方差會(huì)很小甚至為0,與之對(duì)應(yīng)的方差很大的概率會(huì)很低,所以如果F值越大,表明在假設(shè)H0成立的前提下出現(xiàn)出現(xiàn)這一結(jié)果的概率越小,相當(dāng)于我們前面提到的小概率事件,如果一旦小概率事件發(fā)生了,我們就有理由去拒絕原假設(shè)。
要來(lái)計(jì)算方差,我們需要先計(jì)算平方和。為了讓大家能夠更加理解,我們來(lái)舉個(gè)例子來(lái)講解各個(gè)指標(biāo)怎么計(jì)算。
現(xiàn)在有兩組數(shù)據(jù):
第一組:80、85、96
第二組:110、125、130、145、160
第一組和第二組的總算術(shù)平均值為:
(80+85+96+110+125+130+145+160)/8 = 116.375。
第一組的算術(shù)平均值:(80+85+96)/3 = 87
第二組的算術(shù)平均值:
(110+125+130+145+160)/5 = 134
組間平方和(SSA):
= 第一組平均值與總體平均值的平方和×第一組樣本數(shù)+第二組平均值與總體平均值的平方和×第二組樣本數(shù)
= (87-116.375)^2×3 + (134-116.375)^2×5 = 4141.875
組內(nèi)平方和(SSE):
= 第一組平方和 + 第二組平方和
=(80-87)^2+(85-87)^2+(96-87)^2
+(110-134)^2+(125-134)^2+(130-134)^2
+(145-134)^2+(160-134)^2
=134+1470=1604
總體平方和(SST):
=所有樣本數(shù)據(jù)與總體平均值之間的平方和
=(80-116.375)^2+(85-116.375)^2+(96-116.375)^2
+(110-116.375)^2+(125-116.375)^2+(130-116.375)^2
+(145-116.375)^2+(160-116.375)^2
=5745.875
通過(guò)以上數(shù)據(jù),我們可以看出?SST = SSA + SSE。
總平方和會(huì)有一個(gè)問(wèn)題,就是隨著數(shù)據(jù)量越大,這個(gè)值會(huì)越大,所以我們引入另外一個(gè)概念:均方。均方=平方和/自由度,其中自由度是樣本數(shù)-1。
組間均方(MSA) = SSA/自由度 = 4141.875/(2-1) = 4141.875
組內(nèi)均方(MSE) = SSE/自由度 = 1604/(8-2) = 267.333
MSA又稱為組間方差,MSE稱為組內(nèi)方差。
F = MSA/MSE = 4141.875/267.333 = 15.4933
3.3確定邊界值并做出決策
此時(shí)我們就可以通過(guò)查F表,來(lái)獲得置信度為95%時(shí)的F邊界值:
如果F<F邊界值表面各組數(shù)據(jù)之間沒(méi)有顯著差異,接受H0假設(shè);
如果F≥F邊界值表面各組數(shù)據(jù)之間存在明顯差異,拒絕H0假設(shè),接受H1假設(shè)。
如果我們證實(shí)了各組數(shù)據(jù)之間是存在明顯差異的,這個(gè)時(shí)候就可以去拿各組的均值來(lái)進(jìn)行比較,均值越大,可以說(shuō)明策略效果越好。
F值表:
https://wenku.baidu.com/view/3165819af71fb7360b4c2e3f5727a5e9846a2743.html
一般最后我們都可以得到下面這么一個(gè)表:
| 組間(因素影響) | |||||
| 組內(nèi)(誤差影響) | |||||
| 總和 |
以上就是簡(jiǎn)單的方差分析的基本原理與流程,也是單因素方差分析(單因素,就是只有策略這一個(gè)維度),還有雙因素方差分析,就是不止考慮策略這一個(gè)維度,還需要?jiǎng)e的維度,比如時(shí)間、地域之類的,還有交叉作用的雙因素分析,就是不止策略和地域分別的影響,這兩者結(jié)合在一起可能會(huì)產(chǎn)生第三種影響。關(guān)于方差分析的更多內(nèi)容,我們之后再來(lái)分享。
點(diǎn)分享
點(diǎn)收藏
點(diǎn)點(diǎn)贊
點(diǎn)在看
總結(jié)
- 上一篇: 只狼水生的凛怎么打 水生的凛招式分解及打
- 下一篇: 中国数字货币怎么投资 怎么样投资中国的数