拒绝推断问题(转)
拒絕推斷(Reject Inference)是金融領域信用評分中的一個術語。對于要向銀行借錢的人,我們需要考慮他們賴賬的可能性。這樣就需要根據他們的各種行為信息和人口統計學特征作為輸入,來建立一個信用評分模型,這個建模過程與機器學習中訓練一個模型類似。機器學習算法能夠成功應用的一個條件是訓練樣本和測試樣本有相同的分布,但在信用評分中,這個條件很難保證。信用評分的訓練樣本均來自于以前申請貸款被接受的那些人,而評分模型則是要應用到所以來申請貸款的人,并幫助做出接受/拒絕的決定。因此,模型不光要針對被接受的那些人,也要在被拒絕的那部分上面表現得好。可以想見,這兩種人在輸入空間上的分布是完全不同的,這就導致使用了部分數據,但是為估計總體而建立的信用評分模型存在參數估計的偏差。拒絕推斷就是要把被拒掉那部分用戶能夠識別出來到底是好客戶還是壞客戶,然后加入到模型訓練中,使得模型的樣本盡量接近總體的分布。這就是拒絕推斷要解決的。
| ? |
在其他更加“機器學習化”的領域,例如計算廣告,也會有被稱為selection bias的類似問題存在。一般來說,網絡廣告點擊率模型是根據廣告本身、所出現的場景以及用戶信息三者建立的,期望是能挑出那些被點擊概率高的廣告展示出來以改善用戶體驗并獲得更高的廣告提成。顯然,建這樣的模型需要廣告的"被點擊/不被點擊"的信息作為模型的目標變量。只有那些歷史上出現過的"廣告-場景-用戶"三元組,才會有被或不被點擊的信息;從來沒有出現過的三元組不會出現在訓練數據中——它們是被已存在的點擊率模型篩選過的。而優化點擊率模型時,總是要面對新廣告和新用戶,并且嘗試新的廣告/場景匹配會不會更好,因此測試數據的分布不會和訓練數據一致。
對于計算廣告來說,這個問題好解決一些。我們可以把一小部分流量做成不經過模型篩選的"自然流量“,采用簡單的諸如競價排名之類的策略。這樣用戶體驗的影響不大,而利潤幾乎也沒什么損失。這部分流量累積下來的數據可以在模型訓練中賦予更高的權重,因為某種意義下它們和測試數據"更加接近"。但在金融行業,要說服管理層開放這樣的"自然流量"絕非易事。并且相對互聯網廣告,信貸的樣本要少得多,即使有一些這樣的"自然流量"樣本,它們能起的作用也有限。所以有必要從另外的角度考慮問題的解決方法。
下面我首先會總結一些信用評分中常用的拒絕推斷的方法。這些方法往往是比較ad-hoc的思路,或者有少許的統計學理論作為支撐。即使是經常在使用這些方法的信用評分建模專家,往往也對它們并不信服。然后我會看看機器學習的相關文獻中對付selection bias的方法——這些方法一般是基于半監督學習(semi-supervised learning)這一理念的——并且檢查它們是否能用到信用評分的拒絕推斷中。
?常用方法:
來源:https://www.douban.com/note/410573602/?type=like
轉載于:https://www.cnblogs.com/gczr/p/10084252.html
總結
- 上一篇: Delphi---TServerSock
- 下一篇: Median(二分+二分)