第五章 逻辑回归模型在评分卡开发中的应用
邏輯回歸模型在評分卡開發中的應用
課程簡介:在分類場景中,邏輯回歸模型是常用的一類算法。它具有結構簡單、可解釋性強、輸出結果是"軟分類"的特點。評分模型多采用這類算法。同時邏輯回歸模型也面臨一些限制,因此在特征工程階段我們對輸入特征做了相應的調整和約束。
目錄:
- 邏輯回歸模型的基本概念
- 基于邏輯回歸模型的評分卡構建工作
- 尺度化
1. 邏輯回歸模型的基本概念
- 伯努利概型
在分類模型中,目標變量是離散、無序型的變量。例如,違約預測模型中的目標變量(也稱為標簽)是{違約,非違約}。線性回歸模型無法對這類標簽進行建模,因為線性回歸模型的結果的取值空間是整個實數空間.對于分類模型而言,我們建模的對象是每個類別在某條樣本上出現的概率。
伯努利概型
某個事件有"發生"與"不發生"兩種互斥的狀態。假設該事件發生的概率為,不發生的概率即為.我們用1和0表示事件的發生與不發生,則有:
可以統一成
邏輯回歸模型與logistic變換
在違約預測場景中,單個個體的違約事件可以看成伯努利概型:
參數即是我們需要預測的目標。
如果對概率做擬合?
概率的取值范圍是0~1.如前所述,線性回歸的目標變量的取值空間是整個實數空間,因此不適合用線性回歸模型做預測。引入下面的logistic變換(也稱為sigmoid函數),能夠是的擬合的目標函數的取值范圍限定在0~1:
邏輯回歸模型與logistic變換(續)
的特點
- 單調性,即>
- 有界性,即
- 可導性,即
除此之外,還有一個計算上的優勢,即
- 邏輯回歸模型與logistic變換(續)
由于logistic變換有上述種種優點,我們將該變換應用在概率的刻畫當中:
其中分別表示第i個觀測值上p個特征的取值和特征的權重。
于是整個邏輯回歸模型的形式為:
需要注意的是,這里的回歸模型是對違約概率做回歸,而非對違約結果{0,1}做回歸。
- 參數估計
通常用極大似然估計法(MLE)求出邏輯回歸的參數
對于樣本,邏輯回歸模型的似然函和對數似然函數分別為
參數估計的結果是為了讓似然函數最大化。由于對數似然函數與似然函數單調上升且具有更緊湊的形式,同時也易于求導運算,因此將似然函數最大化轉化為對數似然函數最大化,即
對求偏導,結果是
顯然,的方程是沒有解析解的。
無法得到解析解的情況下,只能通過數值求解的方式來計算參數的估計。常用梯度上升法來迭代地計算。基本的算法步驟如下:
注:
根據計算梯度使用的樣本量的多少,梯度上升法分為批量梯度上升法、隨機梯度上升法與小批量梯度上升法。
- 邏輯回歸模型的優點
結構簡單:
- 變量之間的關系是線性可加關系
可解釋性高:
- 結構簡單;輸入變量對目標變量的影響是容易獲得的
支持增量訓練:
- 無需讀入全部數據,可增量式地讀取數據、訓練模型
給出概率而非判別類別:
- 模型的結果是估計出屬于某一類的概率,可用于更加復雜的決策
工程化相對容易:
- 模型的測試、部署、監控、調優等工作相對簡單
邏輯回歸模型的不足
預測精度一般
- 由于模型結構較為簡單,導致預測精度不如其他模型
對變量要求高
- 輸入變量需數值類型,需要對非數值變量進行編碼
- 不能容忍缺失值,需要對缺失值做處理
- 對異常值敏感,需要對異常值做處理
- 變量尺度差異較大時,容易對模型有影響,需要做變量歸一化
- 變量間的線性相關性對模型有影響,需要做變量挑選或加上正則項
2.基于LR模型的評分卡構建工作
邏輯回歸模型對變量的要求
當用邏輯回歸模型來構建評分卡時,入模變量需要滿足以下條件
其中,第1點已經在單變量分析與多變量分析中得到一定的約束,但是未必充分。
關于第2點,需要從系數的p值進行檢驗
關于第3點,需要從系數的符號進行檢驗
- 變量顯著性
為了獲取與目標變量(即違約標簽)有較高相關性的變量,我們要求最終入模的變量的系數的p值很小,例如低于0.1。如果發現模型中某些變量不顯著,需要檢驗一下兩種可能性:
先檢驗1的可能性,如果排除,再檢驗2.
檢驗1的方法:
將該變量單獨與目標變量做邏輯回歸模型,如果在單變量回歸的情況下系數的p值仍然較高,即表明該變量本身的顯著性很低。
注:
對于IV較高的變量,1的可能性較低。
- 變量正確性
在WOE的計算公式中,
當WOE為負時,表明當前箱的"危險性"高于平均樣本的"危險性",出現壞樣本的概率更高。因此在邏輯回歸模型中,所有變量對應的系數應該為負。
反之,如果采取的WOE的計算公式為:
同理,所有變量對應的系數應該為正。
- 邏輯回歸模型對變量的要求(續)
- 特征選擇
從上述的單變量回歸中可以發現,在full regression中,不顯著、不正確的變量是由于線性相關性引起的。因此需要在做一次變量挑選。變量挑選的目的是為了滿足:
其中,我們可以用IV來衡量入模變量的重要性。
綜上,變量挑選的步驟如下:
- 尺度化
得到符合要求的邏輯回歸模型后,通常還需要將概率轉化成分數。分數的單調性與概率相反,即分數越高表明違約的概率越低,信用資質越好。在評分卡模型中,上述過程稱為"尺度化",轉換公式為:
其中,, : point to double odds
PDO的作用
假設當前的好壞比為, 對應的分數為.
當好壞比上升一倍時變為2, 即=y-ln2, 此時分數變為
因此,PDO的含義即為,當好壞比上升1倍時,分數上升PDO個單位。
Base Point的選擇
要滿足所有的評分的取值為正。
總結
以上是生活随笔為你收集整理的第五章 逻辑回归模型在评分卡开发中的应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第12章 决策树
- 下一篇: 第六章 模型的验证、监控与调优