【机器学习】搞懂机器学习的常用评价指标!
作者:陳安東,湖南大學,Datawhale成員
我與評價指標的首次交鋒是第一次實習面試時,面試官開頭就問分類任務的評價指標。我當時TP,FP,FN,TN各種組合一頓上,回答得亂七八糟。后來經歷多了,發現評價指標的確是面試的高頻考點。
這次讓我們幾分鐘時間搞懂評價指標,尤其是較難理解的ROC、AUC、精確率、召回率,為之后的數據科學之路打下基礎。
分類任務
TP,TN,FN,FP
這是個很直覺的分類,T在開頭說明這個是完全正確的。F開頭就說明是完全錯誤的。
真正例(True Positive,?TP):被模型預測為正的正樣本;
假正例(False Positive,?FP):被模型預測為正的負樣本;
假負例(False Negative,?FN):被模型預測為負的正樣本;
真負例(True Negative,?TN):被模型預測為負的負樣本;
ACC精確度
在精確度中,ACC是最直覺的一種方式:
這里是將所有的預算結果與預測正確的做比率,得到的結果。但同時,這個評價指標很容易受到樣本數量以及樣本是否均衡帶來的影響。
Precision精確率
對于精確率來說,關注點在于,對于所有預測為正的數據中(有預測正確的,也有預測錯誤的)。其中預測正確的比率:
FP是假預測,TP是真的預測
召回率Recall
這里還是關注于正樣本。在樣本中的所有真正的正樣本里,有多少比率是預測對了,如同下圖:
同樣都是關注正樣本,怎么區分精確度和召回度?
這的確是很容易混淆的兩個概念,試想一個場景來區分:有一批零件,通過我們做出的機器學習算法,篩選出了一批需要的零件。其中,這批篩選出的零件中,我們的注意力只關注篩選結果為正的部分(只關注,其他結果壓根不看),那這樣篩選的零件就包含TP+FP。要看看這個被篩選的零件中有多少是需要的,那么這里的評價指標就是精確度Precision=(TP)/(TP+FP)
那什么是召回呢?召回的意思就是說,我們還是想要好的零件。雖然機器學習已經篩選出來了好的零件,但是理論上還是有一部分好的設備被遺漏了。我們需要默默的將遺漏的好設備撿回來(畢竟花了錢了,不能浪費),這個行為叫做召回,那么我們需要用到召回率Rcall=(TP)/(TP+FN)
P-R曲線
若一個學習器A的P-R曲線被另一個學習器B的P-R曲線完全包住,則稱:B的性能優于A。若A和B的曲線發生了交叉,則誰的曲線下的面積大,誰的性能更優。但一般來說,曲線下的面積是很難進行估算的,所以衍生出了“平衡點”(Break-Event Point,簡稱BEP),即當P=R時的取值,平衡點的取值越高,性能更優。
這里可以知道的是,P(精確率)與R(召回率)是此消彼長的,也就是說,一個高一個就會低。所有對于一個綜合的評價指標來說,可以很直覺的想到,將兩個參數做加權調和平均數。這樣就成為了F1。
F1
F1就是精確率和召回率的加權調和平均數。
特別的,當β=1的時候就是F1:
ROC
優點:在測試樣本中正負樣本分布不一樣的,ROC曲線可以保持不變。
ROC這個優勢的來自于靈敏度和特異度這兩個評價標準
靈敏度(TPR):其實本質上是正樣本召回率
特異度(TNR):本質上是負樣本的召回率
計算ROC除了上面兩個指標外,還有假負率和假正率。但是這兩個指標的計算很簡單。假負率 = (1-靈敏度);假正率=(1-特異度)
其實可以這樣理解,如果一個驗證的數據是不均衡的,那么這個在分類的時候,準確率會考慮到不均衡的所有數據。但是如果是靈敏度和特異度,它只會考慮到正例或者負例,不考慮整體的數據分布。
那么回到ROC曲線,這個ROC曲線的兩個指標分別為靈敏度和假正率,效果如圖:
兩個模型用這個指標做評價的時候,如果一個模型A可以包裹住另一個模型B,那么這個模型A就優于模型B。如果A和B兩個模型有交叉,那么這個就看它們曲線下的面積大了,面積大的模型性能更優。
AUC
AUC說白了就是ROC曲線下面的面積大小。AUC越大,說明ROC曲線下面的面積越大,則這個模型的性能更好。一般來說,AUC的值介于0.5到1之間。因為0.5說明,二分類模型隨機猜測,有一半的幾率猜中。
回歸任務
回歸任務不同于分類任務。它是帶入輸入之后,返回一個value。其中回歸任務的評價指標衡量的是,模型預測數值和標簽提供數值之間的差距。其中對于評價指標的優劣其實并不好評價,這里只列出常用的指標。
MAE(Mean Absolute Error)平均絕對誤差
對差值的絕對值求平均。
MSE(Mean Squared Error)均方誤差
是對誤差平方的期望。
RMSE(Root Mean Squared Error)均方誤差根
對MSE指標求平方根。
結尾
評價指標學習完畢啦。對于比較難理解的ROC、AUC、精確率、召回率,文中都列舉了場景,希望可以幫助到大家。其實搞懂核心概念,之后都是它的衍生。
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯溫州大學《機器學習課程》視頻 本站qq群851320808,加入微信群請掃碼:總結
以上是生活随笔為你收集整理的【机器学习】搞懂机器学习的常用评价指标!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: win10笔记本电脑合上屏幕休眠该怎么设
- 下一篇: 360浏览器怎么添加应用 360安全浏览