深入理解ROC曲线和EER及其之间的关系
1.ROC曲線
我們知道,在很多學習器中是通過將既定的閾值與學習器對測試樣本預測值(實值/概率)進行比較。如果大于閾值則將其判為正類樣本,小于閾值將其判為負類樣本。這個實值或者概率預測結果的好壞,直接決定了學習器的泛化能力。
我們可以根據學習器的預測結果對測試樣本進行排序,將最有可能的正例排在前邊,最不可能的排在后面。這樣我們可以在這個序列中放置一個截斷點來將樣本分為兩類,前面一部分判為正例,后面一部分判為負例。
在不同的實際應用中,我們要根據不同的需求來選取不同的截斷點。例如在推薦系統中,我們更在乎系統給用戶的推薦中用戶喜歡的占比,而不是把所有用戶喜歡的都推薦出來。這樣我們就可以在排序中選擇位置靠前的截斷點進行截斷,以保證更大的查準率。而在有些應用任務中則更重視查全率。
所以根據學習器的預測值所產生的排序的好壞,體現了綜合考慮學習器在不同任務下的“期望泛化性能”的好壞。而ROC曲線就是從這個角度出發來研究學習器泛化性能的有力工具。所謂ROC曲線,全稱為Receiver Operating Characteristic (受試者工作特征)曲線?,它的縱軸為真正例率TPR(True Positive Rate),橫軸為假正例率FPR(False Positive Rate),分別定義為:
真正例率就是學習器認為的正例占所有正例的比率,也就是我們通常所說的查全率或者召回率。假正例率就是在所有的負例中學習器認為是正例的比率。
?此外,為了更好地講解我們再引入兩個常用的錯誤率度量,分別是錯誤接受率FAR(False Acceptance?Rate)和錯誤拒絕率FRR(False Reject Rate),分別定義為:?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
錯誤接受率就是所有的負例里面被學習器誤認為是正例的比率?,錯誤拒絕率就是所有的正例里面被學習器誤認為是負例的比率。我們可以很容易觀察到FAR = FPR, FRR = 1 - TPR。接下來我們會用到這個性質。
2.ROC曲線繪制方法?
上一節我們知道ROC曲線的橫軸是FPR,縱軸是TPR。繪圖的過程如下:
?
3.EER(Equal Error Rate)?
我們在ROC曲線上將坐標點(0,1)和(1,0)連接起來,與ROC曲線的交點所對應的FPR值就是EER?。
通過上述EER的定義我們可以發現:EER是FPR = 1 - TPR時的FPR值,回顧第一節我們可以知道,FPR其實就是FAR,而FRR= 1 - TPR。所以EER又是FRR與FAR相等時的值,即錯誤接受率與錯誤拒絕率相等時的值,所以稱之為等錯誤率即Equal Error Rate。
總結
以上是生活随笔為你收集整理的深入理解ROC曲线和EER及其之间的关系的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 散光的人,夜间模式会让你不清醒!!!
- 下一篇: 眼见车祸