倾向得分匹配的stata命令_计量方法的适用条件汇总(二):倾向得分匹配
獨(dú)家揭秘:
計(jì)量經(jīng)濟(jì)學(xué)的魅力與激情:陳強(qiáng)老師的高級(jí)計(jì)量現(xiàn)場(chǎng)班側(cè)記(2019.5.1)
如何學(xué)好高級(jí)計(jì)量:探秘陳強(qiáng)老師的高級(jí)計(jì)量及Stata現(xiàn)場(chǎng)班(2019.10.1)
接上期推文,本期探討傾向得分匹配的適用條件。
傾向得分匹配(PSM)
傾向得分匹配(Propensity Score Matching,簡記PSM)是估計(jì)處理效應(yīng)(treatment effects)的一種流行方法。考慮橫截面數(shù)據(jù),其中為結(jié)果變量(outcome variable),為處理變量(treatment variable,表示是否得到政策處理),而為一系列控制變量或協(xié)變量(covariates)。
作為一種匹配估計(jì)量(matching estimator),PSM依然使用反事實(shí)分析(counterfactual analysis)進(jìn)行因果推斷。考慮處理組的某位個(gè)體,我們希望找到控制組的某位個(gè)體,使得二者的特征最為接近,即;然后,將個(gè)體的結(jié)果變量作為個(gè)體若未受處理的反事實(shí)結(jié)果,故個(gè)體的處理效應(yīng)可估計(jì)為(其中,為個(gè)體受處理的潛在結(jié)果)。
依次估計(jì)處理組每位個(gè)體的處理效應(yīng),然后進(jìn)行簡單算術(shù)平均,即為“處理組平均處理效應(yīng)”(Average Treatment Effects on the Treated,簡記ATT)。其中,在計(jì)算 與之間的距離時(shí),由于受到量綱及變量波動(dòng)幅度的影響,一般并不使用歐氏距離(Euclidean distance),而使用標(biāo)準(zhǔn)化的馬氏距離(Mahalanobis distance)。
然而,由于 的維度通常較高,故可能不易在高維空間找到足夠近的鄰居;這是“維度災(zāi)難”(curse of dimensionality)的一種表現(xiàn)。而傾向得分匹配使用傾向得分(propensity score)作為一種降維工具。所謂“傾向得分”,就是每位個(gè)體進(jìn)入處理組的概率,可通過將處理變量 對(duì)協(xié)變量 進(jìn)行邏輯回歸(Logit)來獲得。
對(duì)于處理組的每位個(gè)體,尋找控制組中與其傾向得分最為接近的個(gè)體進(jìn)行匹配,然后計(jì)算處理組的平均處理效應(yīng)。在具體匹配方法上,可使用一對(duì)一或一對(duì)多,或在某個(gè)半徑(caliper)內(nèi)進(jìn)行匹配,以及使用核函數(shù)(kernel function)作為權(quán)重進(jìn)行整體匹配(global matching),在此不再贅述。
PSM的適用條件主要包括以下兩個(gè)假定:
PSM1.1 可忽略性(Ignorability)。給定協(xié)變量,則潛在結(jié)果獨(dú)立于處理變量 。
可忽略性的含義是,給定?,則?對(duì)于分組變量 的影響可忽略。這意味著,在給定 的條件下,的取值可視為隨機(jī)決定(as good as randomly assigned, conditional on ),故類似于“條件隨機(jī)實(shí)驗(yàn)”(conditionally randomized trial)。在文獻(xiàn)中,可忽略性的假定也稱為“無混淆性”(unconfoundedness),“條件獨(dú)立假定”(conditional independence assumption),或“依可測(cè)變量選擇”(selection on observables)。
本質(zhì)上,“適用條件PSM1.1”是一個(gè)很強(qiáng)的外生性條件。它意味著不存在未度量的“混淆變量”(confounder);即使有遺漏變量,也不與處理變量相關(guān),故沒有遺漏變量偏差。因此,原則上,也可以使用OLS估計(jì)平均處理效應(yīng)。然而,若使用OLS,則不清楚是否應(yīng)在回歸方程中加入平方項(xiàng)、交互項(xiàng)或其他非線性項(xiàng)。而傾向得分匹配則可視為一種更穩(wěn)健的非參數(shù)估計(jì),盡管在其第一階段使用Logit回歸估計(jì)傾向得分時(shí)依然使用了參數(shù)方法。
很遺憾,可忽略性假定并不可檢驗(yàn)。退而求其次,通常要求 應(yīng)包含較為豐富的一系列協(xié)變量,以增大“依可測(cè)變量選擇”成立的可能性。然而,即使包含很多變量,也仍可能遺漏某些關(guān)鍵變量,比如不可觀測(cè)的個(gè)體能力,而個(gè)體能力可能同時(shí)影響潛在結(jié)果與處理變量。如果在理論上懷疑存在這種情況,則可忽略性假定可能不成立,故無法使用PSM。此時(shí),需要尋找其他合適的方法進(jìn)行因果推斷,比如工具變量法、雙重差分法或斷點(diǎn)回歸等。
PSM1.2 共同支撐(Common Support)。共同支撐假定也稱為“重疊假定”(overlap assumption),即處理組與控制組的傾向得分取值有足夠多的重疊區(qū)域,參見下圖:
事實(shí)上,共同支撐假定只是進(jìn)行PSM估計(jì)的最低要求。顯然,如果處理組與控制組的傾向得分取值無重疊區(qū)域,則無法進(jìn)行匹配。在某種意義上,共同支撐假定類似于OLS的“無嚴(yán)格多重共線性”(no strict multicollinearity)假定,只是對(duì)于數(shù)據(jù)的最低要求。在實(shí)踐中,對(duì)于在共同支撐之外的觀測(cè)值,可以直接刪除。
PSM的Stata估計(jì)
在Stata中進(jìn)行PSM估計(jì),建議使用官方命令teffects psmatch,因?yàn)樗商峁┯葾badie and Imbens(2012)所提出的正確標(biāo)準(zhǔn)誤,稱為“AI Standard Errors”。早期流行的非官方命令psmatch2所提供的標(biāo)準(zhǔn)誤并不正確,故無法進(jìn)行有效的統(tǒng)計(jì)推斷。有關(guān)PSM估計(jì)量的正確標(biāo)準(zhǔn)誤,詳見往期推文?傾向得分匹配:psmatch2 還是 teffects psmatch。
PSM的缺點(diǎn)及替代方法
傾向得分匹配將高維的協(xié)變量壓縮為一維的傾向得分(且取值介于0與1),無疑損失了不少信息。PSM雖然可能使處理組與控制組的協(xié)變量分布更為平衡,但并沒有保障;因?yàn)榧词共煌瑐€(gè)體的傾向得分很接近,其協(xié)變量也可能相差較遠(yuǎn)。
為此,實(shí)證研究者在進(jìn)行PSM估計(jì)后,也常進(jìn)行“數(shù)據(jù)平衡檢驗(yàn)”(data balancing test),即考察協(xié)變量在兩組數(shù)據(jù)的均值是否在匹配后變得更為接近。在理論上,PSM的有效性并不依賴于匹配之后的數(shù)據(jù)平衡性;但若在匹配之后兩組數(shù)據(jù)變得更為平衡,無疑可增強(qiáng)實(shí)證研究者的信心。
由于PSM在壓縮數(shù)據(jù)時(shí)損失了信息(第一階段的Logit回歸設(shè)定也有一定主觀性),且無法保證數(shù)據(jù)的平衡性,故PSM近年來面臨越來越多的批評(píng),以哈佛大學(xué)“大學(xué)教授”(university professor)政治學(xué)者Gary King為代表人物。
Gary King及其合作者提出另一匹配方法,即粗糙化精確匹配(Coarsen Exact Matching,簡記CEM)。該方法將連續(xù)變量離散化,比如將教育年限分為小學(xué)以下、小學(xué)、初中、高中、大學(xué)、碩士、博士,然后使用此粗糙化的教育年限進(jìn)行精確匹配,以保證處理組的小學(xué)畢業(yè)生一定匹配控制組的小學(xué)畢業(yè)生(若使用PSM則無此保證),以此類推。與PSM相比,CEM可能更有效率(使用了更多協(xié)變量的信息),且能保證數(shù)據(jù)的平衡性(通過預(yù)先設(shè)定粗糙化的程度),故在政治學(xué)等社會(huì)科學(xué)領(lǐng)域越來越流行,本號(hào)將在未來另文介紹。
參考文獻(xiàn)
陳強(qiáng),《高級(jí)計(jì)量經(jīng)濟(jì)學(xué)及Stata應(yīng)用》,第2版,高等教育出版社,2014年
陳強(qiáng),《計(jì)量經(jīng)濟(jì)學(xué)及Stata應(yīng)用》,高等教育出版社,2015年(好評(píng)如潮的配套教學(xué)視頻,可在網(wǎng)易云課堂購買)
陳強(qiáng),《機(jī)器學(xué)習(xí)及R應(yīng)用》,高等教育出版社,2020年,即將出版。
陳強(qiáng),《機(jī)器學(xué)習(xí)及Python應(yīng)用》,高等教育出版社,2020年,即將出版。
Upcoming Events? ???
陳強(qiáng)老師親授“高級(jí)計(jì)量經(jīng)濟(jì)學(xué)與Stata應(yīng)用”2020年國慶節(jié)(10月1-6日)現(xiàn)場(chǎng)班占座開啟,詳情可點(diǎn)擊頁底“
魏老師
QQ:1143703950
Tel:010-68478566
Mail:vip@pinggu.org
We?chat:13581781541
陳強(qiáng)老師簡介
陳強(qiáng),男,1971年出生,山東大學(xué)經(jīng)濟(jì)學(xué)院教授,數(shù)量經(jīng)濟(jì)學(xué)博士生導(dǎo)師。
分別于1992年、1995年獲北京大學(xué)經(jīng)濟(jì)學(xué)學(xué)士、碩士學(xué)位,后留校任教。2007年獲美國Northern Illinois University數(shù)學(xué)碩士與經(jīng)濟(jì)學(xué)博士學(xué)位。已獨(dú)立發(fā)表論文于Oxford Economic Papers?(lead article), ?Economica,?Journal of Comparative Economics,《經(jīng)濟(jì)學(xué)(季刊)》、《世界經(jīng)濟(jì)》等國內(nèi)外期刊。著有暢銷研究生教材《高級(jí)計(jì)量經(jīng)濟(jì)學(xué)及Stata應(yīng)用》與本科教材《計(jì)量經(jīng)濟(jì)學(xué)及Stata應(yīng)用》,以及好評(píng)如潮的本科計(jì)量教學(xué)視頻(網(wǎng)易云課堂)。2010年入選教育部新世紀(jì)優(yōu)秀人才支持計(jì)劃。
(c) 2020, 陳強(qiáng),山東大學(xué)經(jīng)濟(jì)學(xué)院
www.econometrics-stata.com
轉(zhuǎn)載請(qǐng)注明作者與出處
Our mission is to make econometrics easy, and facilitate convincing empirical works.
總結(jié)
以上是生活随笔為你收集整理的倾向得分匹配的stata命令_计量方法的适用条件汇总(二):倾向得分匹配的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 索尼 WF-C700N 耳机规格曝光,关
- 下一篇: x79主板bios设置中文_bios菜单