为何选用F1值(调和平均数)衡量P与R?
二分類問題的性能度量為何選用 F1F_1F1? 值?
已知混淆矩陣
| actuality positive | True Positive(TP) | False Negative(FN) |
| actuality negative | False Positive(FP) | True Negative(TN) |
其中:Precise(精確率/查準率)= TPTP+FP\frac {TP} {TP+FP}TP+FPTP?,表示所有預測為positive的集合中實際為positive的頻率;
Recall(召回率/查全率)= TPTP+FN\frac {TP} {TP+FN}TP+FNTP?,表示所有實際為positive的集合中預測為positive的頻率。
1、“P-R”曲線
對我們來說,PPP 和 RRR 都為1的模型是最完美的,但實際情況卻并不像我們想的那樣,通過“ PPP-RRR”曲線,對模型判斷
圖片來源:http://shichaoxin.com/2018/12/03/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80-%E7%AC%AC%E4%B8%89%E8%AF%BE-%E6%A8%A1%E5%9E%8B%E6%80%A7%E8%83%BD%E5%BA%A6%E9%87%8F/
為了防止極端小的 P和RP 和 RP和R 值影響我們對模型的判斷,一般通過曲線下面積或 P=RP=RP=R 的平衡點作為判別標準。以平衡點判別被認為過于簡單。
2、F1F_1F1?值(P和R的調(diào)和平均數(shù))
引如F1F_1F1?值作為二分類問題的模型性能度量標準
F1=2PRP+RF_1=\frac{2PR}{P+R} F1?=P+R2PR?
這里F1F_1F1?是基于 PPP 和 RRR 的調(diào)和平均數(shù),即 F1F_1F1? 的倒數(shù)為 PPP 和 RRR 的倒數(shù)之和的二分之一1F1=(1P+1R)×12\frac{1}{F_1}=(\frac{1}{P}+\frac{1}{R})\times\frac{1}{2} F1?1?=(P1?+R1?)×21?
在統(tǒng)計學中,調(diào)和平均數(shù)(FFF)、幾何平均數(shù)(GGG)、算數(shù)平均數(shù)(X ̄\overline XX)
它們之間的關(guān)系用公式表示為
F≤G≤X ̄F\le G\le \overline X F≤G≤X
其中,F=2aba+bF=\frac{2ab}{a+b}F=a+b2ab?、G=abG=\sqrt{ab}G=ab?、X ̄=a+b2\overline X=\frac{a+b}{2}X=2a+b?,當且僅當 a=ba=ba=b 時上面等式成立
證明如下:
假設(shè)存在 a,b>0a,b\gt 0a,b>0,則
(a+b)2?(2ab)2(a+b)^{2}-(2\sqrt{ab})^{2}(a+b)2?(2ab?)2
=a2+b2+2ab?4ab=a^{2}+b^{2}+2ab-4ab=a2+b2+2ab?4ab
=a2+b2?2ab=a^{2}+b^{2}-2ab=a2+b2?2ab
=(a?b)2≥0=(a-b)^{2}\ge 0=(a?b)2≥0,當且僅當 a=ba=ba=b 時等式成立
即 (a+b)2≥(2ab)2(a+b)^{2}\ge (2\sqrt{ab})^{2}(a+b)2≥(2ab?)2
已知 a,b>0a,b\gt 0a,b>0,則a+b≥2aba+b\ge2\sqrt{ab}a+b≥2ab?
推出 2aba+b≤abab≤ab≤a+b2\frac{2ab}{a+b}\le\frac{ab}{\sqrt{ab}}\le\sqrt{ab} \le\frac{a+b}{2}a+b2ab?≤ab?ab?≤ab?≤2a+b?
當且僅當 a=ba=ba=b 時等式成立
即證。
這三種平均數(shù)各有利弊,但調(diào)和平均數(shù)受極端值影響較大,更適合評價不平衡數(shù)據(jù)的分類問題。
3、舉例
已知三種模型得到的 PPP 和 RRR 值如下,分別計算三種平均數(shù)
| algorithm 1 | 0.5 | 0.4 | 0.45 | 0.45 | 0.44 |
| algorithm 2 | 0.7 | 0.1 | 0.4 | 0.27 | 0.18 |
| algorithm 3 | 0.02 | 1.0 | 0.51 | 0.14 | 0.04 |
可以看出算法3的 PPP 值非常小,我們認為此模型效果不好,但是利用算數(shù)平均數(shù)和幾何平均數(shù)來衡量并不能表現(xiàn)出來,只有 F1F_1F1? 對極端值比較重視,能夠感受到這種變化。
參考
[1]統(tǒng)計學
[2]機器學習基礎(chǔ)-模型性能度量
總結(jié)
以上是生活随笔為你收集整理的为何选用F1值(调和平均数)衡量P与R?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 玩游戏显示计算机内存不足怎么办,电脑魔兽
- 下一篇: Java文件传输(有进度条)