类别不平衡问题 —— 各种评估指标
?類別不平衡問題
在二分類問題中,通常假設正負類別相對均衡(混淆矩陣),然而實際應用中類別不平衡的問題,如100, 1000, 10000倍的數據偏斜是非常常見的,比如疾病檢測中未患病的人數遠超患病的人數,產品質量檢測中合格產品數量遠超不合格產品等。在檢測信用卡欺詐問題中,同樣正例的數目稀少,而且正例的數量會隨著時間和地點的改變而不斷變化,分類器要想在不斷變化的正負樣本中達到好的檢測效果是非常困難的。
由于類別不平衡問題的特性使然,一般常使用于評估分類器性能的準確率和錯誤率可能就不再適用了。因為在類別不平衡問題中我們主要關心數目少的那一類能否被正確分類,而如果分類器將所有樣例都劃分為數目多的那一類,就能輕松達到很高的準確率,但實際上該分類器并沒有任何效果。
True Positive?(真正例,TP):實際為正例,預測為正例。
False Negative?(假負例,FN):實際為正例,預測為負例。
True Negative?(真負例,TN):實際為負例,預測為負例。
False Positive?(假正例,FP):實際為負例,預測為正例。?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?F1 score?=
?F1 score?是一個綜合指標,為Precision和Recall的調和平均 (harmonic mean),數值上一般接近于二者中的較小值
因此如果F1 score比較高的話,意味著Precision和Recall都較高。
總結
以上是生活随笔為你收集整理的类别不平衡问题 —— 各种评估指标的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 类型转换与采样 || SMOTE算法
- 下一篇: 数据描述与可视化