机器学习性能评估——PR曲线与ROC曲线
1、PR曲線
P-R曲線是精確率precision與召回率recall 曲線,以recall作為橫坐標(biāo)軸,precision作為縱坐標(biāo)軸。在介紹精確率和召回率之前,先來看下如下的混淆矩陣:
| 真實情況\預(yù)測結(jié)果 | 正 | 負(fù) |
| 正 | ? ?TP? ? | ? ?FN? ? |
| 負(fù) | ? ?FP? ? | ? ?TN? ? |
把正例正確分類為正例,表示為TP(true positive),把正例錯誤分類為負(fù)例,表示為FN(false negative)
把負(fù)例正確分類為負(fù)例,表示為TN(true negative), 把負(fù)例錯誤分類為正例,表示為FP(false positive)
通過混淆矩陣可以計算出精確率precision和召回率recall:
????????????????
此外還介紹兩個和PR曲線無關(guān)的定義,TPR(敏感度)和TNR(特異度):
????????TPR(敏感度): 識別出的正例占所有實際正例的比例
????????TNR(特異度): 識別出的負(fù)例占所有實際負(fù)例的比例
介紹完準(zhǔn)確率和召回率就可以繪制P-R曲線了。(說明:準(zhǔn)確率又叫查準(zhǔn)率,召回率又叫查全率)
????????平衡點BEP (Break-Event Point)是查準(zhǔn)率=查全率時的取值。
? ? ? ? 一個重要的問題就是:如何通過P-R曲線比較兩個機器學(xué)習(xí)模型的效果呢?
????????若一個學(xué)習(xí)器的P-R曲線被另一個學(xué)習(xí)器的曲線完全“包住”,則包住者性能優(yōu)于被包住者
若2個P-R曲線交叉,則難于斷言誰好誰壞,合理的判據(jù)是比較P-R曲線下的面積大小,但不
容易估算,設(shè)計了一些綜合考慮查準(zhǔn)率和查全率的性能度量,比如BEP。
?2、ROC曲線
首先介紹兩個概念ROC和AUC:
ROC : Receiver Operating Characteristic
——受試者工作特征,用于比較不同分類器的相對性能
AUC : Area Under ROC Curve
——ROC曲線下的面積,提供了評價模型平均性能的另一種辦法
?隨機猜測的模型位于連接點 (TPR=0,FPR=0) 和 (TPR=1,FPR=1) 的主對角線上
Why?
????????以固定概率p分為正類,比如包含n+正實例,n-負(fù)實例期望正確分類pn+個正實例誤分pn-個負(fù)實例,因此
????????
于是TPR = FPR,因此位于對角線上。
?
總結(jié)
以上是生活随笔為你收集整理的机器学习性能评估——PR曲线与ROC曲线的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 百度服务器自动重启,百度云服务器重启的两
- 下一篇: 购买腾讯云服务器流程