當前位置：首頁 > 编程语言 > python >内容正文

python

python ks值计算_利用Python计算KS的实例详解

發布時間：2023/12/2 python 22 豆豆

生活随笔收集整理的這篇文章主要介紹了 python ks值计算_利用Python计算KS的实例详解小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在金融領域中，我們的y值和預測得到的違約概率剛好是兩個分布未知的兩個分布。好的信用風控模型一般從準確性、穩定性和可解釋性來評估模型。sOf免費資源網

一般來說。好人樣本的分布同壞人樣本的分布應該是有很大不同的，KS正好是有效性指標中的區分能力指標：KS用于模型風險區分能力進行評估，KS指標衡量的是好壞樣本累計分布之間的差值。sOf免費資源網

好壞樣本累計差異越大，KS指標越大，那么模型的風險區分能力越強。sOf免費資源網

1、crosstab實現，計算ks的核心就是好壞人的累積概率分布，我們采用pandas.crosstab函數來計算累積概率分布。sOf免費資源網

2、roc_curve實現，sklearn庫中的roc_curve函數計算roc和auc時，計算過程中已經得到好壞人的累積概率分布，同時我們利用sklearn.metrics.roc_curve來計算ks值sOf免費資源網

3、ks_2samp實現，調用stats.ks_2samp()函數來計算。鏈接scipy.stats.ks_2samp?為ks_2samp()實現源碼，這里實現了詳細過程sOf免費資源網

4、直接調用stats.ks_2samp()計算kssOf免費資源網

import pandas as pd

import numpy as np

from sklearn.metrics import roc_curve

from scipy.stats import ks_2samp

def ks_calc_cross(data,pred,y_label):

'''

功能: 計算KS值，輸出對應分割點和累計分布函數曲線圖

輸入值:

data: 二維數組或dataframe，包括模型得分和真實的標簽

pred: 一維數組或series，代表模型得分(一般為預測正類的概率)

y_label: 一維數組或series，代表真實的標簽({0,1}或{-1,1})

輸出值:

'ks': KS值，'crossdens': 好壞客戶累積概率分布以及其差值gap

'''

crossfreq = pd.crosstab(data[pred[0]],data[y_label[0]])

crossdens = crossfreq.cumsum(axis=0) / crossfreq.sum()

crossdens['gap'] = abs(crossdens[0] - crossdens[1])

ks = crossdens[crossdens['gap'] == crossdens['gap'].max()]

return ks,crossdens

def ks_calc_auc(data,pred,y_label):

'''

功能: 計算KS值，輸出對應分割點和累計分布函數曲線圖

輸入值:

data: 二維數組或dataframe，包括模型得分和真實的標簽

pred: 一維數組或series，代表模型得分(一般為預測正類的概率)

y_label: 一維數組或series，代表真實的標簽({0,1}或{-1,1})

輸出值:

'ks': KS值

'''

fpr,tpr,thresholds= roc_curve(data[y_label[0]],data[pred[0]])

ks = max(tpr-fpr)

return ks

def ks_calc_2samp(data,pred,y_label):

'''

功能: 計算KS值，輸出對應分割點和累計分布函數曲線圖

輸入值:

data: 二維數組或dataframe，包括模型得分和真實的標簽

pred: 一維數組或series，代表模型得分(一般為預測正類的概率)

y_label: 一維數組或series，代表真實的標簽({0,1}或{-1,1})

輸出值:

'ks': KS值，'cdf_df': 好壞客戶累積概率分布以及其差值gap

'''

Bad = data.loc[data[y_label[0]]==1,pred[0]]

Good = data.loc[data[y_label[0]]==0, pred[0]]

data1 = Bad.values

data2 = Good.values

n1 = data1.shape[0]

n2 = data2.shape[0]

data1 = np.sort(data1)

data2 = np.sort(data2)

data_all = np.concatenate([data1,data2])

cdf1 = np.searchsorted(data1,data_all,side='right')/(1.0*n1)

cdf2 = (np.searchsorted(data2,data_all,side='right'))/(1.0*n2)

ks = np.max(np.absolute(cdf1-cdf2))

cdf1_df = pd.DataFrame(cdf1)

cdf2_df = pd.DataFrame(cdf2)

cdf_df = pd.concat([cdf1_df,cdf2_df],axis = 1)

cdf_df.columns = ['cdf_Bad','cdf_Good']

cdf_df['gap'] = cdf_df['cdf_Bad']-cdf_df['cdf_Good']

return ks,cdf_df

data = {'y_label':[1,1,1,1,1,1,0,0,0,0,0,0],

'pred':[0.5,0.6,0.7,0.6,0.6,0.8,0.4,0.2,0.1,0.4,0.3,0.9]}

data = pd.DataFrame(data)

ks1,crossdens=ks_calc_cross(data,['pred'], ['y_label'])

ks2=ks_calc_auc(data,['pred'], ['y_label'])

ks3=ks_calc_2samp(data,['pred'], ['y_label'])

get_ks = lambda y_pred,y_true: ks_2samp(y_pred[y_true==1], y_pred[y_true!=1]).statistic

ks4=get_ks(data['pred'],data['y_label'])

print('KS1:',ks1['gap'].values)

print('KS2:',ks2)

print('KS3:',ks3[0])

print('KS4:',ks4)

輸出結果：sOf免費資源網

KS1: [ 0.83333333]

KS2: 0.833333333333

KS3: 0.833333333333

KS4: 0.833333333333

sOf免費資源網

當數據中存在NAN數據時，有一些問題需要注意！sOf免費資源網

例如，我們在原數據中增加了y_label=0，pred=np.nan這樣一組數據sOf免費資源網

data = {'y_label':[1,1,1,1,1,1,0,0,0,0,0,0,0],sOf免費資源網

'pred':[0.5,0.6,0.7,0.6,0.6,0.8,0.4,0.2,0.1,0.4,0.3,0.9,np.nan]}sOf免費資源網

此時執行sOf免費資源網

ks1,crossdens=ks_calc_cross(data,['pred'], ['y_label'])sOf免費資源網

輸出結果sOf免費資源網

KS1: [ 0.83333333]sOf免費資源網

執行sOf免費資源網

ks2=ks_calc_auc(data,['pred'], ['y_label'])sOf免費資源網

將會報以下錯誤sOf免費資源網

ValueError: Input contains NaN, infinity or a value too large for dtype('float64').sOf免費資源網

執行sOf免費資源網

ks3=ks_calc_2samp(data,['pred'], ['y_label'])sOf免費資源網

輸出結果sOf免費資源網

KS3: 0.714285714286sOf免費資源網

執行sOf免費資源網

ks4=get_ks(data['pred'],data['y_label'])sOf免費資源網

輸出結果sOf免費資源網

KS4: 0.714285714286sOf免費資源網

我們從上述結果中可以看出sOf免費資源網

三種方法計算得到的ks值均不相同。sOf免費資源網

ks_calc_cross計算時忽略了NAN，計算得到了數據正確的概率分布，計算的ks與我們手算的ks相同sOf免費資源網

ks_calc_auc函數由于內置函數無法處理NAN值，直接報錯了，所以如果需要ks_calc_auc計算ks值時，需要提前去除NAN值。sOf免費資源網

ks_calc_2samp計算得到的ks因為searchsorted()函數(有興趣的同學可以自己模擬數據看下這個函數)，會將Nan值默認排序為最大值，從而改變了數據的原始累積分布概率，導致計算得到的ks和真實的ks有誤差。sOf免費資源網

在實際情況下，我們一般計算違約概率的ks值，這時是不存在NAN值的。所以以上三種方法計算ks值均可。但是當我們計算單變量的ks值時，有時數據質量不好，存在NAN值時，繼續采用ks_calc_auc和ks_calc_2samp就會存在問題。sOf免費資源網

解決辦法有兩個sOf免費資源網

1. 提前去除數據中的NAN值sOf免費資源網

2. 直接采用ks_calc_cross計算。sOf免費資源網

以上這篇利用Python計算KS的實例詳解就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支持。sOf免費資源網

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的python ks值计算_利用Python计算KS的实例详解的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：美好家园与地下城安卓（地下城安卓）
下一篇：产品商检备案网上怎么备案（产品商检备案）

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

python

python ks值计算_利用Python计算KS的实例详解

總結