因果推断 - 反事实
目錄
- 基礎知識
- 案例實戰
版權:轉載前請聯系作者獲得授權。
聲明:部分內容出自因果關系之梯,已獲得原作者授權。
參考書籍:《The Book of Why》——Judea Pearl
基礎知識
定義:對于包含外生變量UUU和內生變量XXX和YYY的SCM,形如YX=x(U=u)=yY_{X=x}(U=u)=yYX=x?(U=u)=y表示“在U=uU=uU=u的情況下,如果X=xX=xX=x,則Y=yY=yY=y”。其中,YX=x(U=u)=yY_{X=x}(U=u)=yYX=x?(U=u)=y可以簡寫為Yx(u)=yY_x(u)=yYx?(u)=y。
反事實分析的一般步驟:
以上三個步驟可以總結為:
因果推斷第一定律:Yx(u)=YMx(u)Y_x(u)=Y_{M_x}(u)Yx?(u)=YMx??(u)
反事實和干預的區別:
如何理解第2條?可以考慮如下因果圖,P(Y∣do(x))P(Y|do(x))P(Y∣do(x))和P(Yx)P(Y_x)P(Yx?)的含義顯然不同。
- 計算P(Y∣do(x))P(Y|do(x))P(Y∣do(x))時,YYY的結果實際上和XXX的取值毫無關系,因為路徑被ZZZ阻斷了!
- 計算P(Yx)P(Y_x)P(Yx?)時,會根據X=xX=xX=x對對應的ZZZ進行改動,進而得到YxY_xYx?。
案例實戰
下面基于一個案例,加深對反事實分析的理解。
在下表中,學歷共分為0,1,20,1,20,1,2三種,分別代表高中,本科,研究生。S0(u)S_0(u)S0?(u)表示雇員uuu在學歷是高中時,現有的工資水平,S1(u)S_1(u)S1?(u)和S2(u)S_2(u)S2?(u)則是在本科和研究生學歷下的工資水平。由于在工作時,每個人的學歷已經固定,只會是高中、本科和研究生中的一種。故,對于每一個雇員,有兩個工資的值為???,表示無法獲得。
| Alice | 6 | 0 | 81000 | ? | ? |
| Bob | 9 | 1 | ? | 92500 | ? |
| Lucy | 9 | 2 | ? | ? | 97000 |
| Daivd | 8 | 1 | ? | 91000 | ? |
| Est | 12 | 1 | ? | 100000 | ? |
| Flxs | 13 | 0 | 97000 | ? | ? |
| … | … | … | … | … | … |
現在,我們想要研究一個反事實問題——如果Alice的學歷是本科,那么她的工資應為多少?即:通過上表中的數據,估算S1(Alice)S_1(Alice)S1?(Alice)。
在不使用反事實分析的情況下,我們或許可以采用線性回歸,通過統計得到你和數據的最佳直線:
S=2500×EX+5000×ED+65000S=2500 \times EX + 5000 \times ED + 65000S=2500×EX+5000×ED+65000
并依此得出S1(Alice)=2500×6+5000×1+65000=85000S_1(Alice)=2500 \times 6 + 5000 \times 1 + 65000 = 85000S1?(Alice)=2500×6+5000×1+65000=85000
但是,上述方法有一個明顯的弊端,即:對于任何雇員,如果他們的工齡和學歷一致,則預測出的工資也是一致的!通過觀察Bob和Lucy的工資,我們可以發現,這顯然是不對的!
從表中可以看出,Bob和Lucy具有相同的工齡,但Bob的學歷更低。那么,假如Lucy的學歷和Bob一致,二人的工資應該一致嗎?答案顯然是否定的。因為,如果Lucy降低了學歷,那么理論上她的工齡會比Bob更長,這會導致S1(Lucy)>S1(Bob)S_1(Lucy)>S_1(Bob)S1?(Lucy)>S1?(Bob)。
如何在模型中體現這一點呢?
從因果的角度出發,我們首先可以構建如下的因果圖:
我們還是通過線性回歸擬合最佳直線,但是和上文中稍有不同:
S=2500×EX+5000×ED+65000+USS=2500 \times EX + 5000 \times ED + 65000 + U_SS=2500×EX+5000×ED+65000+US?
同時,我們還需要一個(可能是)下式的方程:
EX=10?4×ED+UEXEX=10-4 \times ED + U_{EX}EX=10?4×ED+UEX?
有了這兩個方程后,我們就可以根據反事實分析的三個步驟,計算S1(Alice)S_1(Alice)S1?(Alice):
總結
以上是生活随笔為你收集整理的因果推断 - 反事实的全部內容,希望文章能夠幫你解決所遇到的問題。