模型稳定性指标—PSI
由于模型是以特定時(shí)期的樣本所開發(fā)的,此模型是否適用于開發(fā)樣本之外的族群,必須經(jīng)過穩(wěn)定性測(cè)試才能得知。穩(wěn)定度指標(biāo)(population stability index ,PSI)可衡量測(cè)試樣本及模型開發(fā)樣本評(píng)分的的分布差異,為最常見的模型穩(wěn)定度評(píng)估指針。其實(shí)PSI表示的就是按分?jǐn)?shù)分檔后,針對(duì)不同樣本,或者不同時(shí)間的樣本,population分布是否有變化,就是看各個(gè)分?jǐn)?shù)區(qū)間內(nèi)人數(shù)占總?cè)藬?shù)的占比是否有顯著變化。公式如下:
這里的AC與EX為不同時(shí)間段的模型輸出分?jǐn)?shù),如果PSI過大,說明模型輸出的分?jǐn)?shù)分布變化很大了,需要更新模型。
PSI實(shí)際應(yīng)用范例:
1)樣本外測(cè)試
針對(duì)不同的樣本測(cè)試一下模型穩(wěn)定度,比如訓(xùn)練集與測(cè)試集,也能看出模型的訓(xùn)練情況,我理解是看出模型的方差情況。
2)時(shí)間外測(cè)試
測(cè)試基準(zhǔn)日與建模基準(zhǔn)日相隔越遠(yuǎn),測(cè)試樣本的風(fēng)險(xiǎn)特征和建模樣本的差異可能就越大,因此PSI值通常較高。至此也可以看出模型建的時(shí)間太長(zhǎng)了,是不是需要重新用新樣本建模了。
變量的PSI計(jì)算:
PSI:檢驗(yàn)變量的穩(wěn)定性,當(dāng)一個(gè)變量的psi值大于0.0001時(shí),變量不穩(wěn)定。
一個(gè)變量,將它的取值按照分位數(shù)來分組一下,每一組中測(cè)試模型的客戶數(shù)占比減去訓(xùn)練模型中的客戶數(shù)占比再乘以這兩者相除的對(duì)數(shù),
就是這一組的穩(wěn)定性系數(shù)psi,然后變量的psi系數(shù)就是把這個(gè)變量的所有組的psi相加總起來。
======================
PSI群體穩(wěn)定性指標(biāo)(population stability index)
psi = sum((實(shí)際占比-預(yù)期占比)/ln(實(shí)際占比/預(yù)期占比))
舉個(gè)例子解釋下,比如一個(gè)評(píng)分卡模型,按天為維度計(jì)算PSI,我們把模型剛上線第一天(設(shè)定為一個(gè)基期)的各分?jǐn)?shù)段用戶占比作為預(yù)期占比P1,之后每天的各分?jǐn)?shù)段用戶占比作為實(shí)際占比P2,這樣根據(jù)公式就可以計(jì)算出每天的PSI值,通過觀測(cè)這些PSI的大小和走勢(shì),從而實(shí)現(xiàn)對(duì)評(píng)分卡穩(wěn)定性的監(jiān)測(cè)。通常PSI會(huì)以日、周和月為維度進(jìn)行計(jì)算,同時(shí)也會(huì)對(duì)評(píng)分卡模型中各個(gè)特征變量分別做PSI監(jiān)測(cè)。
模型分?jǐn)?shù)的變化可能由特征變化引起,也可能是模型本身不穩(wěn)定引起,若是高分段總數(shù)量沒變,而psi值變動(dòng)較大,認(rèn)為需要重訓(xùn)模型。
若是psi值沒變,高分段總數(shù)量變多,認(rèn)為整體用戶變好。
https://blog.csdn.net/sinat_26917383/article/details/51721107
總結(jié)
以上是生活随笔為你收集整理的模型稳定性指标—PSI的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 路由器5g信号怎么用呀如何调试路由器5g
- 下一篇: 两台华为H6如何组网华为两个路由器如何组