當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

逻辑推理篇：数据分析中违背常理的悖论：辛普森悖论

發(fā)布時間：2024/1/23 编程问答 47 豆豆

生活随笔收集整理的這篇文章主要介紹了逻辑推理篇：数据分析中违背常理的悖论：辛普森悖论小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

在現(xiàn)實生活中，我們常常會遇到這樣一種現(xiàn)象，當(dāng)嘗試研究兩個變量是否具有相關(guān)性的時候，會分別對此進行分組研究。

然而，在分組比較中都顯示非常有優(yōu)勢的一方，在總評時卻成了失勢的一方。直到1951年，英國統(tǒng)計學(xué)家E.H.辛普森發(fā)表論文對此現(xiàn)象做了描述解釋，后來人們就以他的名字命名該現(xiàn)象，即辛普森悖論。

思考下，辛普森悖論為什么成立？

一、辛普森悖論的原理

下面給出辛普森悖論的數(shù)學(xué)原理：

從數(shù)學(xué)表達式上，我們可以看出，對a、b、c、d四個變量，分成1組和2組，在1組比率占優(yōu)勢的情況下，總體占優(yōu)勢卻不成立。

看一個例子：抖音6月與7月活躍人群得活躍時長對比，發(fā)現(xiàn)男性活躍時長上升，女性也上升，但是整體上7月活躍時長比6月降低是什么原因？

為了讓結(jié)果更直觀，我做了一個數(shù)據(jù)圖，不是很標(biāo)準(zhǔn)，但是足以解釋。

假設(shè)6月，活躍男生占比20%，使用平均時長 1.2h；活躍女生占比80%，使用平均時長1.5h，則可以計算6月整體使用時長為1.44h。同理，假設(shè)7月，活躍男生占比60%，使用平均時長 1.3h；活躍女生占比40%，使用平均時長1.6h，則可以計算7月整體使用時長為1.42h。

這樣就可以非常清晰的看出，7月比6月男女生的平均觀看時長確實增加了，但是整體的反而降低，問題出現(xiàn)在活躍男女生的比例上。

所以，上述抖音案例的解釋，應(yīng)該是6月活躍人群女性占比較大，而七月男生占比較大，雖然7月男女生觀看時長都增長了，但是由于一天24小時，除掉工作吃飯睡覺時間，男女生活躍時長的提升幅度并不是很大，這樣就導(dǎo)致，雖然7月男女生活躍觀看時長都有提升，但是整體7月的活躍時長低于6月，本質(zhì)還是活躍人群結(jié)構(gòu)男女比例發(fā)生變化。

所以在運營的時候，在活躍時長增長幅度有限的條件下，如果想增加整體的時長，先保證人群結(jié)構(gòu)中女生占較大比例，再引導(dǎo)男女行增長活躍時長。

二、如何避免出現(xiàn)辛普森悖論

關(guān)于如何避免出現(xiàn)辛普森悖論，我個人覺得，辛普森悖論無法完全避免的，很多問題，完全依靠統(tǒng)計學(xué)推導(dǎo)因果關(guān)系無法實現(xiàn)。就拿生產(chǎn)環(huán)境數(shù)據(jù)來說，雖然我們做了各種畫像，但是其他分類方式依然存在，理論上的潛在變量會無窮無盡。

我們能做的，就是仔細(xì)認(rèn)真的研究各種影響因素，不要籠統(tǒng)概括的看問題，尤其數(shù)據(jù)分析問題，拆解的越細(xì)，最終得到的效果越好。

關(guān)于避免辛普森悖論的出現(xiàn)，目前比較流行的一種做法，就是需要斟酌個別分組的權(quán)重，以一定的系數(shù)去消除以分組資料基數(shù)差異所造成的影響，同時必須了解該情境是否存在其他潛在因素，需要進行綜合性考慮。

這段話看完有點暈圈，在實際中斟酌權(quán)重和判斷其他因素，大多數(shù)還是更多依賴經(jīng)驗。

雖然不能根本上避免辛普森悖論，但我們至少應(yīng)該明白：在因果關(guān)系里，量與質(zhì)是不等價的，但是量比質(zhì)更容易測量，所以人們總是習(xí)慣用量來評定好壞，而該數(shù)據(jù)卻不是重要的。

三、倒過來說辛普森悖論

前面講的辛普森悖論是：在每個分組中占優(yōu)勢的一方，但整體總評卻成了失勢的一方。那倒過來說辛普森悖論，就是在總體中占優(yōu)勢的一方，在每個分組比較中反而都占劣勢。

下面介紹一個案例，假設(shè)，某產(chǎn)品的推廣渠道有頭條和微信兩種，頭條整體的付費轉(zhuǎn)化率是3.1%%，微信整體的付費轉(zhuǎn)化率是1.38%，連頭條轉(zhuǎn)化率的一半都不到。于是有數(shù)據(jù)分析師得出結(jié)論：微信用戶付費轉(zhuǎn)化率較低，建議停止微信端的廣告投放。

你認(rèn)為這個分析師做的對嗎？

我們先來看看，頭條和微信整體轉(zhuǎn)化率對比情況，頭條的確實比微信轉(zhuǎn)化率要高：

但是，正常情況下，微信的廣告包括微信公眾號和微信朋友圈兩部分，我們把微信的數(shù)據(jù)量拆開來對比：

這里，我們會驚奇的發(fā)現(xiàn)，原來朋友圈的轉(zhuǎn)化率是最高的4.12%,而微信公眾號的轉(zhuǎn)化率很低，但是展示量很大，把整個微信的值拉低了。也可以說，那個分析師失誤了，誤區(qū)產(chǎn)生的原因就在于將“值與量”兩個維度的數(shù)據(jù)，歸納成了“值”一個維度的數(shù)據(jù)，并進行了合并。

如果要避免“辛普森悖論”給我們帶來的誤區(qū)，就需要斟酌個別分組的權(quán)重，以一定的系數(shù)去消除因分組資料基數(shù)差異所造成的影響。

而在實際工作中，就需要盡量去拆解指標(biāo)，采用MECE原則，指標(biāo)維度互不重復(fù)，完全窮盡。

四、內(nèi)容延伸

我們繼續(xù)理解一個概念：基本比率謬誤(base rate fallacy)。

先看一個例子，小易生病去醫(yī)院，做完檢查結(jié)果呈陽性，醫(yī)生告訴他可能是患上了XX疾病，嚇得他驚慌失措，冷靜之余，他趕忙到網(wǎng)上查詢資料，網(wǎng)上說檢查總是有誤差的，這種檢查有“百分之一的假陽性率和百分之一的假陰性率”。

這句話的意思是說，在得病的人中做實驗，有1%的人是假陽性，99％的人是真陽性。而在未得病的人中做實驗，有1%的人是假陰性，99％的人是真陰性。

于是，小易根據(jù)這種解釋，估計他自己得了XX疾病的可能性（即概率）為99%。可是，醫(yī)生卻告訴他，他被感染的概率只有0.09左右。這是怎么回事呢？

醫(yī)生說：你忘了一件事，XX病在人口中的得病基本比例（1/1000）這個事實。

醫(yī)生給出計算方法：因為測試的誤報率是1%，1000個人將有10個被報為“假陽性”，而根據(jù)X病在人口中的比例（1/1000=0.1%），真陽性只有1個。所以，大約11個測試為陽性的人中只有一個是真陽性（有病）的，因此，小易被感染的幾率是大約1/11，即0.09(9%)。

基本比率謬誤數(shù)學(xué)解釋，首先要回顧下貝葉斯定理：

P(A|B) = $\over {P(B)}$ P(A)

從貝葉斯定理的原理，解釋小易被感染的幾率就計較容易了。

A：普通人群中的小易感染XX病
B：陽性結(jié)果
P(A)：普通人群中感染X病的概率
P(B|A)：陽性結(jié)果的概率
P(A|B)：有了陽性結(jié)果條件下，小易感染XX病的概率
P(B)：結(jié)果為陽性的總可能性=檢查陽性中的真陽性+檢查陰性中的真陽性

類似的悖論，還有羅杰斯現(xiàn)象、伯克森悖論、生日悖論等。

總結(jié)：

本文介紹了數(shù)據(jù)分析容易犯的一個誤區(qū)，辛普森悖論。上面的例子也告訴我們，統(tǒng)計學(xué)中有不少陷阱，如果不提前進行了解，工作中很可能會被錯誤的統(tǒng)計方法迷惑，得出不正確的結(jié)論。

辛普森悖論讓我們明白了，在因果關(guān)系里，量與質(zhì)是不等價的，但是量比質(zhì)更容易測量，所以人們總是習(xí)慣用量來評定好壞，而該數(shù)據(jù)卻不是重要的。

辛普森悖論帶給我們的另外一個啟示是：如果我們在人生的抉擇上選擇了一條比較難走的路，就得具備可能不被賞識、懷才不遇的心理準(zhǔn)備。

總結(jié)

以上是生活随笔為你收集整理的逻辑推理篇：数据分析中违背常理的悖论：辛普森悖论的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：个人成长：2021年终记
下一篇：思维模型篇：数据分析的本质是什么？

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

逻辑推理篇：数据分析中违背常理的悖论：辛普森悖论

總結(jié)