准确率 召回率_吴恩达深度学习笔记(61)-训练调参中的准确率和召回率
單一數字評估指標(Single number evaluation metric)
無論你是調整超參數,或者是嘗試不同的學習算法,或者在搭建機器學習系統時嘗試不同手段,你會發現,如果你有一個單實數評估指標,你的進展會快得多,它可以快速告訴你,新嘗試的手段比之前的手段好還是差。
所以當團隊開始進行機器學習項目時,我經常推薦他們為問題設置一個單實數評估指標。
我們來看一個例子,你之前聽過我說過,應用機器學習是一個非常經驗性的過程,我們通常有一個想法,編程序,跑實驗,看看效果如何,然后使用這些實驗結果來改善你的想法,然后繼續走這個循環,不斷改進你的算法。
比如說對于你的貓分類器,之前你搭建了某個分類器A,通過改變超參數,還有改變訓練集等手段,你現在訓練出來了一個新的分類器B,所以評估你的分類器的一個合理方式是觀察它的查準率(precision,也叫準確率)和查全率(recall 也叫召回率)。
查準率和查全率的確切細節對于這個例子來說不太重要。但簡而言之,查準率的定義是在你的分類器標記為貓的例子中,有多少真的是貓。
所以如果分類器A有95%的查準率,這意味著你的分類器說這圖有貓的時候,有95%的機會真的是貓。
查全率就是,對于所有真貓的圖片,你的分類器正確識別出了多少百分比。實際為貓的圖片中,有多少被系統識別出來?如果分類器A查全率是90%,這意味著對于所有的圖像,比如說你的開發集都是真的貓圖,分類器A準確地分辨出了其中的90%。
所以關于查準率和查全率的定義,不用想太多。
事實證明,查準率和查全率之間往往需要折衷,兩個指標都要顧及到。你希望得到的效果是,當你的分類器說某個東西是貓的時候,有很大的機會它真的是一只貓,但對于所有是貓的圖片,你也希望系統能夠將大部分分類為貓,所以用查準率和查全率來評估分類器是比較合理的。
但使用查準率和查全率作為評估指標的時候,有個問題,如果分類器A在查全率上表現更好,分類器B在查準率上表現更好,你就無法判斷哪個分類器更好。如果你嘗試了很多不同想法,很多不同的超參數,你希望能夠快速試驗不僅僅是兩個分類器,也許是十幾個分類器,快速選出“最好的”那個,這樣你可以從那里出發再迭代。
如果有兩個評估指標,就很難去快速地二中選一或者十中選一,所以我并不推薦使用兩個評估指標,查準率和查全率來選擇一個分類器。你只需要找到一個新的評估指標,能夠結合查準率和查全率。
在機器學習文獻中,結合查準率和查全率的標準方法是所謂的F_1分數,F_1分數的細節并不重要。但非正式的,你可以認為這是查準率P和查全率R的平均值。
F_1分數的定義是這個公式:2/(1/P+1/R)
在數學中,這個函數叫做查準率P和查全率R的調和平均數。
但非正式來說,你可以將它看成是某種查準率和查全率的平均值,只不過你算的不是直接的算術平均,而是用這個公式定義的調和平均。這個指標在權衡查準率和查全率時有一些優勢。
但在這個例子中,你可以馬上看出,分類器A的F_1分數更高。假設F_1分數是結合查準率和查全率的合理方式,你可以快速選出分類器A,淘汰分類器B。
我發現很多機器學習團隊就是這樣,有一個定義明確的開發集用來測量查準率和查全率,再加上這樣一個單一數值評估指標,有時我叫單實數評估指標,能讓你快速判斷分類器A或者分類器B更好。所以有這樣一個開發集,加上單實數評估指標,你的迭代速度肯定會很快,它可以加速改進您的機器學習算法的迭代過程。
我們來看另一個例子,假設你在開發一個貓應用來服務四個地理大區的愛貓人士,美國、中國、印度還有世界其他地區。我們假設你的兩個分類器在來自四個地理大區的數據中得到了不同的錯誤率,比如算法A在美國用戶上傳的圖片中達到了3%錯誤率,等等。
所以跟蹤一下,你的分類器在不同市場和地理大區中的表現應該是有用的,但是通過跟蹤四個數字,很難掃一眼這些數值就快速判斷算法A或算法B哪個更好。
如果你測試很多不同的分類器,那么看著那么多數字,然后快速選一個最優是很難的。所以在這個例子中,我建議,除了跟蹤分類器在四個不同的地理大區的表現,也要算算平均值。假設平均表現是一個合理的單實數評估指標,通過計算平均值,你就可以快速判斷。
看起來算法C的平均錯誤率最低,然后你可以繼續用那個算法。你必須選擇一個算法,然后不斷迭代,所以你的機器學習的工作流程往往是你有一個想法,你嘗試實現它,看看這個想法好不好。
所以本次介紹的是,有一個單實數評估指標真的可以提高你的效率,或者提高你的團隊做出這些決策的效率。
現在我們還沒有完整討論如何有效地建立評估指標。在下一個筆記頻中,我會教你們如何設置優化以及滿足指標~
總結
以上是生活随笔為你收集整理的准确率 召回率_吴恩达深度学习笔记(61)-训练调参中的准确率和召回率的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: yolo标注文件转换工具,python做
- 下一篇: 数据优化:求求你别再用offset和li