逻辑推理篇:数据分析中违背常理的悖论:辛普森悖论
在現(xiàn)實生活中,我們常常會遇到這樣一種現(xiàn)象,當(dāng)嘗試研究兩個變量是否具有相關(guān)性的時候,會分別對此進行分組研究。
然而,在分組比較中都顯示非常有優(yōu)勢的一方,在總評時卻成了失勢的一方。直到1951年,英國統(tǒng)計學(xué)家E.H.辛普森發(fā)表論文對此現(xiàn)象做了描述解釋,后來人們就以他的名字命名該現(xiàn)象,即辛普森悖論。
思考下,辛普森悖論為什么成立?
一、辛普森悖論的原理
下面給出辛普森悖論的數(shù)學(xué)原理:
從數(shù)學(xué)表達式上,我們可以看出,對a、b、c、d四個變量,分成1組和2組,在1組比率占優(yōu)勢的情況下,總體占優(yōu)勢卻不成立。
看一個例子:抖音6月與7月活躍人群得活躍時長對比,發(fā)現(xiàn)男性活躍時長上升,女性也上升,但是整體上7月活躍時長比6月降低是什么原因?
為了讓結(jié)果更直觀,我做了一個數(shù)據(jù)圖,不是很標(biāo)準(zhǔn),但是足以解釋。
假設(shè)6月,活躍男生占比20%,使用平均時長 1.2h;活躍女生占比80%,使用平均時長1.5h,則可以計算6月整體使用時長為1.44h。同理,假設(shè)7月,活躍男生占比60%,使用平均時長 1.3h;活躍女生占比40%,使用平均時長1.6h,則可以計算7月整體使用時長為1.42h。
這樣就可以非常清晰的看出,7月比6月男女生的平均觀看時長確實增加了,但是整體的反而降低,問題出現(xiàn)在活躍男女生的比例上。
所以,上述抖音案例的解釋,應(yīng)該是6月活躍人群女性占比較大,而七月男生占比較大,雖然7月男女生觀看時長都增長了,但是由于一天24小時,除掉工作吃飯睡覺時間,男女生活躍時長的提升幅度并不是很大,這樣就導(dǎo)致,雖然7月男女生活躍觀看時長都有提升,但是整體7月的活躍時長低于6月,本質(zhì)還是活躍人群結(jié)構(gòu)男女比例發(fā)生變化。
所以在運營的時候,在活躍時長增長幅度有限的條件下,如果想增加整體的時長,先保證人群結(jié)構(gòu)中女生占較大比例,再引導(dǎo)男女行增長活躍時長。
二、如何避免出現(xiàn)辛普森悖論
關(guān)于如何避免出現(xiàn)辛普森悖論,我個人覺得,辛普森悖論無法完全避免的,很多問題,完全依靠統(tǒng)計學(xué)推導(dǎo)因果關(guān)系無法實現(xiàn)。就拿生產(chǎn)環(huán)境數(shù)據(jù)來說,雖然我們做了各種畫像,但是其他分類方式依然存在,理論上的潛在變量會無窮無盡。
我們能做的,就是仔細(xì)認(rèn)真的研究各種影響因素,不要籠統(tǒng)概括的看問題,尤其數(shù)據(jù)分析問題,拆解的越細(xì),最終得到的效果越好。
關(guān)于避免辛普森悖論的出現(xiàn),目前比較流行的一種做法,就是需要斟酌個別分組的權(quán)重,以一定的系數(shù)去消除以分組資料基數(shù)差異所造成的影響,同時必須了解該情境是否存在其他潛在因素,需要進行綜合性考慮。
這段話看完有點暈圈,在實際中斟酌權(quán)重和判斷其他因素,大多數(shù)還是更多依賴經(jīng)驗。
雖然不能根本上避免辛普森悖論,但我們至少應(yīng)該明白:在因果關(guān)系里,量與質(zhì)是不等價的,但是量比質(zhì)更容易測量,所以人們總是習(xí)慣用量來評定好壞,而該數(shù)據(jù)卻不是重要的。
三、倒過來說辛普森悖論
前面講的辛普森悖論是:在每個分組中占優(yōu)勢的一方,但整體總評卻成了失勢的一方。那倒過來說辛普森悖論,就是在總體中占優(yōu)勢的一方,在每個分組比較中反而都占劣勢。
下面介紹一個案例,假設(shè),某產(chǎn)品的推廣渠道有頭條和微信兩種,頭條整體的付費轉(zhuǎn)化率是3.1%%,微信整體的付費轉(zhuǎn)化率是1.38%,連頭條轉(zhuǎn)化率的一半都不到。于是有數(shù)據(jù)分析師得出結(jié)論:微信用戶付費轉(zhuǎn)化率較低,建議停止微信端的廣告投放。
你認(rèn)為這個分析師做的對嗎?
我們先來看看,頭條和微信整體轉(zhuǎn)化率對比情況,頭條的確實比微信轉(zhuǎn)化率要高:
但是,正常情況下,微信的廣告包括微信公眾號和微信朋友圈兩部分,我們把微信的數(shù)據(jù)量拆開來對比:
這里,我們會驚奇的發(fā)現(xiàn),原來朋友圈的轉(zhuǎn)化率是最高的4.12%,而微信公眾號的轉(zhuǎn)化率很低,但是展示量很大,把整個微信的值拉低了。也可以說,那個分析師失誤了,誤區(qū)產(chǎn)生的原因就在于將“值與量”兩個維度的數(shù)據(jù),歸納成了“值”一個維度的數(shù)據(jù),并進行了合并。
如果要避免“辛普森悖論”給我們帶來的誤區(qū),就需要斟酌個別分組的權(quán)重,以一定的系數(shù)去消除因分組資料基數(shù)差異所造成的影響。
而在實際工作中,就需要盡量去拆解指標(biāo),采用MECE原則,指標(biāo)維度互不重復(fù),完全窮盡。
四、內(nèi)容延伸
我們繼續(xù)理解一個概念:基本比率謬誤(base rate fallacy)。
先看一個例子,小易生病去醫(yī)院,做完檢查結(jié)果呈陽性,醫(yī)生告訴他可能是患上了XX疾病,嚇得他驚慌失措,冷靜之余,他趕忙到網(wǎng)上查詢資料,網(wǎng)上說檢查總是有誤差的,這種檢查有“百分之一的假陽性率和百分之一的假陰性率”。
這句話的意思是說,在得病的人中做實驗,有1%的人是假陽性,99%的人是真陽性。而在未得病的人中做實驗,有1%的人是假陰性,99%的人是真陰性。
于是,小易根據(jù)這種解釋,估計他自己得了XX疾病的可能性(即概率)為99%。可是,醫(yī)生卻告訴他,他被感染的概率只有0.09左右。這是怎么回事呢?
醫(yī)生說:你忘了一件事,XX病在人口中的得病基本比例(1/1000)這個事實。
醫(yī)生給出計算方法:因為測試的誤報率是1%,1000個人將有10個被報為“假陽性”,而根據(jù)X病在人口中的比例(1/1000=0.1%),真陽性只有1個。所以,大約11個測試為陽性的人中只有一個是真陽性(有病)的,因此,小易被感染的幾率是大約1/11,即0.09(9%)。
基本比率謬誤數(shù)學(xué)解釋,首先要回顧下貝葉斯定理:
P(A|B) = P(B∣A)P(B)P(B|A) \over {P(B)}P(B)P(B∣A)?P(A)
從貝葉斯定理的原理,解釋小易被感染的幾率就計較容易了。
- A:普通人群中的小易感染XX病
- B:陽性結(jié)果
- P(A):普通人群中感染X病的概率
- P(B|A):陽性結(jié)果的概率
- P(A|B):有了陽性結(jié)果條件下,小易感染XX病的概率
- P(B):結(jié)果為陽性的總可能性=檢查陽性中的真陽性+檢查陰性中的真陽性
類似的悖論,還有羅杰斯現(xiàn)象、伯克森悖論、生日悖論等。
總結(jié):
本文介紹了數(shù)據(jù)分析容易犯的一個誤區(qū),辛普森悖論。上面的例子也告訴我們,統(tǒng)計學(xué)中有不少陷阱,如果不提前進行了解,工作中很可能會被錯誤的統(tǒng)計方法迷惑,得出不正確的結(jié)論。
辛普森悖論讓我們明白了,在因果關(guān)系里,量與質(zhì)是不等價的,但是量比質(zhì)更容易測量,所以人們總是習(xí)慣用量來評定好壞,而該數(shù)據(jù)卻不是重要的。
辛普森悖論帶給我們的另外一個啟示是:如果我們在人生的抉擇上選擇了一條比較難走的路,就得具備可能不被賞識、懷才不遇的心理準(zhǔn)備。
總結(jié)
以上是生活随笔為你收集整理的逻辑推理篇:数据分析中违背常理的悖论:辛普森悖论的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 个人成长:2021年终记
- 下一篇: 思维模型篇:数据分析的本质是什么?