【机器学习】机器学习视角下的因果推断
機(jī)器學(xué)習(xí)可以通過樣本直接匹配以及提升傾向性得分(PSM)準(zhǔn)確度來實(shí)現(xiàn)樣本的精準(zhǔn)匹配,使得樣本對反事實(shí)預(yù)測的研究更具有隨機(jī)化實(shí)驗(yàn)的特性。本文從匹配法、斷點(diǎn)回歸法、雙重差分法、合成控制法四個(gè)方面講解機(jī)器學(xué)習(xí)視角下的因果推斷。
1 因果推斷分析框架
1.1 結(jié)構(gòu)因果模型與潛在結(jié)果模型
1.1.1 結(jié)構(gòu)因果模型
結(jié)構(gòu)因果模型(structural casual model, SCM)的因果關(guān)系有以下一系列非線性和非參數(shù)所組成的結(jié)構(gòu)方程組來刻畫:
()
其中,是我們關(guān)注的對象變量,是直接影響對象變量的父類變量,是無法觀測的擾動(dòng)因素。
純理論建模在一系列前提假設(shè)的情況下由式(1)所構(gòu)建的方程組進(jìn)行均衡求解,為此會(huì)將式(1)進(jìn)一步展開為以下線性形式的簡約方程關(guān)系來進(jìn)行從參數(shù)估計(jì)和參數(shù)檢驗(yàn):
()
其中所對應(yīng)的變量,即對應(yīng)式(1)中的父類變量。
1.1.2 潛在結(jié)果模型
潛在結(jié)果模型(potential outcom,PO)框架的因果效應(yīng)被看作是實(shí)驗(yàn)中樣本的實(shí)際結(jié)果與受到隨機(jī)處理后所產(chǎn)生的潛在結(jié)果之間的差異,即在一個(gè)N個(gè)樣本的隨機(jī)試驗(yàn)中,若有n0個(gè)未被處理的樣本和n1倍隨機(jī)處理的樣本,則飾演的無偏平均因果效應(yīng)(average treatment effect,ATE)被定義為:()
其中和是觀測樣本的潛在結(jié)果,上標(biāo)表示是否收到處理,我們只能觀測到兩者中的一個(gè),因此此時(shí)的ATE的無偏估計(jì)量為:
()
這個(gè)模型框架后續(xù)被Rubin(1974,2005)拓展到非隨機(jī)領(lǐng)域,形成了著名的“Neyman-Rubin”模型。假設(shè)用啞變量D表示是否收到政策干預(yù),D = 1表示收到政策干預(yù),其樣本集合被稱為處理組,D = 0表示沒有收到政策干預(yù)(也就是我們之前文章談到的LATE模型),其樣本集合被稱為控制組。實(shí)驗(yàn)組和控制組的潛在觀測結(jié)果分為和,則實(shí)際觀測結(jié)果可表示為:,此時(shí)ATE的估計(jì)量為:()其中為條件期望算子。如果我們更加關(guān)注參與者的平均因果效應(yīng)(average treatment effect on the treated,ATT)或者非參與者平均因果效應(yīng)(average treatment effect on the untreated,ATU),則可以通過下面兩個(gè)公式分別得到ATT和ATU的估計(jì)量:
()()
1.2 機(jī)器學(xué)習(xí)與因果推斷框架
PO因果推斷在實(shí)踐應(yīng)用中會(huì)進(jìn)行一定程度的簡化,例如采用線性化假定、設(shè)定通用函數(shù)等,從而構(gòu)建實(shí)證模型來進(jìn)行因果效應(yīng)的估計(jì),但是這種簡化方式必然會(huì)帶來結(jié)果的偏差,因此可以通過引入機(jī)器學(xué)習(xí)方法提升因果效應(yīng)識別的效果成為了可能。而改進(jìn)的路徑體現(xiàn)在兩個(gè)方面:
(1)加強(qiáng)樣本匹配的隨機(jī)性,即提升控制組和處理組樣本之間匹配過程的隨機(jī)性,
(2)提升反事實(shí)預(yù)測的準(zhǔn)確度,即對控制組和處理組樣本的不可觀測效應(yīng)進(jìn)行準(zhǔn)確預(yù)測
1.2.1 樣本匹配隨機(jī)性
在社會(huì)科學(xué)研究中,很難去真正隨機(jī)化一個(gè)社會(huì)實(shí)驗(yàn),因此就需要充分利用觀測數(shù)據(jù)進(jìn)行隨機(jī)化條件的創(chuàng)造。Rosenbaum和Rubin提出了一種傾向性得分匹配(PSM)的方法將非隨機(jī)化的觀測數(shù)據(jù)盡量模擬成隨機(jī)化實(shí)驗(yàn)的重要方法(本質(zhì)就是將實(shí)驗(yàn)組和對照組原本流量不同的群體,通過PSM變成流量分布一致的)。
從理論上看,傾向性得分是在給定樣本特征X時(shí),不同樣本接受處理的條件概率,即。
傾向性得分有常規(guī)的兩步法:
(1)使用Logit模型利用觀測數(shù)據(jù)擬合回歸模型,并用該回歸模型對所有觀測值計(jì)算一個(gè)范圍0~1之間的擬合值,作為各觀測樣本的傾向得分估計(jì)值;因此可以考慮使用不同的機(jī)器學(xué)習(xí)模型學(xué)習(xí)更加準(zhǔn)確的傾向性得分估計(jì)值
(2)基于傾向得分估計(jì)值對樣本進(jìn)行匹配后估計(jì)因果效應(yīng)。
1.2.2 反事實(shí)預(yù)測
公式(4)說明了反事實(shí)的原因,即只能獲取參與與不參與中的一個(gè)結(jié)果,我們也將這種問題叫做缺失數(shù)據(jù)問題。
除了上面說到的提升樣本匹配隨機(jī)性之外,可以利用已有的觀測數(shù)據(jù)對未知項(xiàng)進(jìn)行反事實(shí)預(yù)測,通過計(jì)算實(shí)際觀測值與反事實(shí)觀測值之間的差異來估計(jì)因果效應(yīng)。
在PO框架下,因果效應(yīng)識別問題被轉(zhuǎn)化為了純粹的精準(zhǔn)預(yù)測問題,因而機(jī)器學(xué)習(xí)方法能夠拼接樣本內(nèi)與樣本外的精準(zhǔn)預(yù)測能力,提升因果效應(yīng)識別的準(zhǔn)確性。下面展開具體說說。
2 基于機(jī)器學(xué)習(xí)的因果效應(yīng)識別提升方法
2.1 匹配法
樣本匹配是因果推斷效應(yīng)識別中極其重要的一環(huán)。比如,在社會(huì)研究中,雙胞胎匹配是被看作最理想的配對樣本(理解為實(shí)驗(yàn)組和對照組可比較),可以通過控制不可觀測的個(gè)體因素而得到較為準(zhǔn)確的因果效應(yīng)。但是我們知道,在大多數(shù)問題中,這種完美的匹配樣本幾乎是不存在的。利用已有的觀測數(shù)據(jù),盡可能的提升樣本之間的可比性,主要的方法有兩種:
(1)通過協(xié)變量進(jìn)行直接匹配
(2)通過PSM方法進(jìn)行匹配
機(jī)器學(xué)習(xí)方法在上述兩種方法中均能夠被應(yīng)用,并未匹配效果帶來一定的提升。
2.1.1 直接匹配
使用協(xié)變量進(jìn)行樣本匹配的核心思想是構(gòu)造一個(gè)基于多維協(xié)變量的標(biāo)量距離值,通過設(shè)定卡尺(caliper)來篩選距離處理組較近的控制組樣本來進(jìn)行配對匹配,計(jì)算一下配對匹配估計(jì)量來作為因果效應(yīng)的估計(jì)值:
()
其中表示樣本t屬于處理組,c(t)表示匹配上的控制組樣本,Nt表示處理組樣本數(shù)量。不過由于距離函數(shù)的多種多樣和數(shù)據(jù)集的豐富性,因果效應(yīng)的估計(jì)值也會(huì)有所區(qū)別
2.1.2 傾向性得分匹配PSM
參考上面說到的兩步法。
2.2 斷點(diǎn)回歸法
斷點(diǎn)回歸法是一種較為特殊的因果效應(yīng)識別方法,相比較其他方法:斷點(diǎn)回歸法在研究設(shè)計(jì)之初已經(jīng)完成了控制組和處理組的樣本匹配過程。
具體定義是指,當(dāng)研究的樣本對象分別位于斷點(diǎn)附近的位置但卻受到了不同的政策對待時(shí),被天然的分為了控制組和處理組(比如英語四六級425分的要求)。因此樣本在政策錢沒有收到特殊的區(qū)分對待時(shí),可以認(rèn)為兩個(gè)分組的樣本的各個(gè)協(xié)變量特征方面是極其相似的。
斷點(diǎn)回歸估計(jì)主要分為兩類:
(1)精確斷點(diǎn)回歸
(2)模糊斷點(diǎn)回歸
2.3 雙重差分法
控制組與處理組之間的樣本因變量差異是第一重差分
兩個(gè)樣本組的因變量差異在兩個(gè)時(shí)期時(shí)間的差異是第二重差分
因此時(shí)間因素是雙重差分法的重要因素,因此用于眾多的經(jīng)濟(jì)學(xué)因果效應(yīng)實(shí)證研究中。在AB測試中也常用于空跑期實(shí)驗(yàn)指標(biāo)就存在天然顯著的問題。
雙重差分的一個(gè)前提假設(shè)是匹配后的控制組和處理組樣本的因變量(或者說是指標(biāo))呈現(xiàn)出平行趨勢,即沒有政策干預(yù)的情況下,兩個(gè)樣本組的指標(biāo)應(yīng)該以相同趨勢發(fā)生變化,表示如下:()
當(dāng)滿足平行趨勢假設(shè)前提時(shí),反事實(shí)結(jié)果是可以被準(zhǔn)確估計(jì)的,從而可以通過雙重差分法求出參與者平均因果效應(yīng),表示如下:
()
所以當(dāng)平行趨勢假設(shè)無法得到滿足的時(shí)候,公式(13)得到的因果效應(yīng)就會(huì)存在誤差,而且隨著樣本的時(shí)間長度增加,平行趨勢假設(shè)的可能性就會(huì)不斷下降。
2.4 合成控制法
合成控制法估計(jì)因果效應(yīng)的核心思想與雙重差分法一致。
其本質(zhì)就是當(dāng)一個(gè)對照組和處理組在上策略之前不具有很好的相似性(即指標(biāo)顯著),這個(gè)時(shí)候就需要對多個(gè)控制組進(jìn)行合成,保證合成后的控制組和處理組具有很好的相似性,從而觀察上策略之后的合成控制組和對照組的因果效應(yīng)估計(jì)值。
假設(shè)有J個(gè)樣本,樣本1時(shí)唯一收到策略錯(cuò)誤干預(yù)的處理組樣本,剩余的J-1個(gè)樣本均是控制組樣本,合成控制法試圖找出一組最優(yōu)的非負(fù)權(quán)重的向量 且滿足,控制組樣本在經(jīng)過最優(yōu)權(quán)重向量加權(quán)后形成合成樣本,該合成樣本與樣本1在收到干預(yù)措施前具有非常相似的性質(zhì)(即沒有上策略之前,指標(biāo)不顯著),對應(yīng)的合成控制估計(jì)量可以表示為:
()
其中,下標(biāo)t表示時(shí)間,Y表示結(jié)果變量。
通過公式(14)來看,雙重查分匹配過程看作合成控制法的一個(gè)特征,即控制組中去一個(gè)樣本的權(quán)重為1,其余樣本的權(quán)重為0,就是雙重差分法。
參考文獻(xiàn)
[1]更精確的因果效應(yīng)識別:基于機(jī)器學(xué)習(xí)的視角
往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載(圖文+視頻)機(jī)器學(xué)習(xí)入門系列下載中國大學(xué)慕課《機(jī)器學(xué)習(xí)》(黃海廣主講)機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)交流qq群955171419,加入微信群請掃碼:總結(jié)
以上是生活随笔為你收集整理的【机器学习】机器学习视角下的因果推断的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 浅谈XSS攻击的那些事(附常用绕过姿势)
- 下一篇: 设置response.setConten