F1值
為了能夠評(píng)價(jià)不同算法的優(yōu)劣,在Precision和Recall的基礎(chǔ)上提出了F1值的概念,來(lái)對(duì)Precision和Recall進(jìn)行整體評(píng)價(jià)。F1的定義如下: F1值 = 正確率 * 召回率 * 2 / (正確率 + 召回率)
簡(jiǎn)介
為了能夠評(píng)價(jià)不同算法的優(yōu)劣,在Precision和Recall的基礎(chǔ)上提出了F1值的概念,來(lái)對(duì)Precision和Recall進(jìn)行整體評(píng)價(jià)。F1的定義如下:
F1值 = 正確率 * 召回率 * 2 / (正確率 + 召回率)
F_1={(frac{recall^{-1}+precision^{-1}}{2})}^{-1}=2cdot frac{precision cdot recall}{precision+recall}
正實(shí)β的通式為:
F_eta=(1+eta^2)cdot frac{precision cdot recall}{(eta^2 cdot precision)+recall}
類型I和類型II錯(cuò)誤的公式:
F_eta=frac{(1+eta^2) cdot true positive}{(1+eta^2) cdot true positive +eta^2 cdot false negative +false positive}
另外兩個(gè)常用的F度量是 F_ {2}度量,其重量高于精度(通過(guò)強(qiáng)調(diào)假陰性)和 F_ {0.5}測(cè)量,其重量低于精確度(通過(guò)減弱假陰性的影響)。
推導(dǎo)出F-度量,以便 F _ { beta}“衡量檢索的有效性,相對(duì)于那些將β倍重要性重新調(diào)整為精確度的用戶而言”。 它基于Van Rijsbergen的有效性衡量標(biāo)準(zhǔn)
E = 1- (frac{alpha}{p}+frac{1-alpha}{r})
他們的關(guān)系是 F _ { beta} = 1-E,這里alpha = frac{1}{(1+eta^2)}。
F1得分也稱為S?rensen-Dice系數(shù)或Dice相似系數(shù)Dice similarity coefficient (DSC)。
考慮一個(gè)二分問(wèn)題,即將實(shí)例分成正類(positive)或負(fù)類(negative)。對(duì)一個(gè)二分問(wèn)題來(lái)說(shuō),會(huì)出現(xiàn)四種情況。如果一個(gè)實(shí)例是正類并且也被預(yù)測(cè)成正類,即為真正類(True positive),如果實(shí)例是負(fù)類被預(yù)測(cè)成正類,稱之為假正類(False positive)。相應(yīng)地,如果實(shí)例是負(fù)類被預(yù)測(cè)成負(fù)類,稱之為真負(fù)類(True negative),正類被預(yù)測(cè)成負(fù)類則為假負(fù)類(false negative)。
TP:正確肯定的數(shù)目;
FN:漏報(bào),沒(méi)有正確找到的匹配的數(shù)目;
FP:誤報(bào),給出的匹配是不正確的;
TN:正確拒絕的非匹配對(duì)數(shù);
列聯(lián)表如下表所示,1代表正類,0代表負(fù)類:
| 算法|事實(shí) | 預(yù)測(cè)1 | 預(yù)測(cè)0 |
| 實(shí)際1 | True Positive(TP) | False Negative(FN) |
| 實(shí)際0 | False Positive(FP) | True Negative(TN) |
Precision和Recall指標(biāo)有時(shí)候會(huì)出現(xiàn)的矛盾的情況,這樣就需要綜合考慮他們,最常見(jiàn)的方法就是F-Measure(又稱為F-Score)。
傳統(tǒng)的F-measure或平衡F-score(F1得分)是準(zhǔn)確率和召回率的調(diào)和平均值:
【來(lái)源:WIKI;https://en.wikipedia.org/wiki/F1_score】
不妨舉這樣一個(gè)例子:
某池塘有1400條鯉魚(yú),300只蝦,300只鱉。現(xiàn)在以捕鯉魚(yú)為目的。撒一大網(wǎng),逮著了700條鯉魚(yú),200只蝦,100只鱉。那么,這些指標(biāo)分別如下:
正確率 = 700 / (700 + 200 + 100) = 70%
召回率 = 700 / 1400 = 50%
F1值 = 70% * 50% * 2 / (70% + 50%) = 58.3%
不妨看看如果把池子里的所有的鯉魚(yú)、蝦和鱉都一網(wǎng)打盡,這些指標(biāo)又有何變化:
正確率 = 1400 / (1400 + 300 + 300) = 70%
召回率 = 1400 / 1400 = 100%
F1值 = 70% * 100% * 2 / (70% + 100%) = 82.35%
由此可見(jiàn),正確率是評(píng)估捕獲的成果中目標(biāo)成果所占得比例;召回率,顧名思義,就是從關(guān)注領(lǐng)域中,召回目標(biāo)類別的比例;而F值,則是綜合這二者指標(biāo)的評(píng)估指標(biāo),用于綜合反映整體的指標(biāo)。
當(dāng)然希望檢索結(jié)果Precision越高越好,同時(shí)Recall也越高越好,但事實(shí)上這兩者在某些情況下有矛盾的。比如極端情況下,我們只搜索出了一個(gè)結(jié)果,且是準(zhǔn)確的,那么Precision就是100%,但是Recall就很低;而如果我們把所有結(jié)果都返回,那么比如Recall是100%,但是Precision就會(huì)很低。因此在不同的場(chǎng)合中需要自己判斷希望Precision比較高或是Recall比較高。如果是做實(shí)驗(yàn)研究,可以繪制Precision-Recall曲線來(lái)幫助分析。
【來(lái)源:機(jī)器之心;【干貨】機(jī)器學(xué)習(xí)算法常用指標(biāo)總結(jié)】
發(fā)展歷史
描述
二分問(wèn)題有很多指標(biāo)可以進(jìn)行評(píng)價(jià):ROC ; F1 socorede;Matthews相關(guān)系數(shù)等。
ROC曲線在第二次世界大戰(zhàn)期間首次用于雷達(dá)信號(hào)分析,然后才用于信號(hào)檢測(cè)理論。1941年襲擊珍珠港后,美國(guó)軍隊(duì)開(kāi)始進(jìn)行新的研究,以增加對(duì)正確探測(cè)到的日本飛機(jī)雷達(dá)信號(hào)的預(yù)測(cè)。為了這些目的,他們測(cè)量了雷達(dá)接收機(jī)操作員進(jìn)行這些重要區(qū)分的能力,這被稱為接收機(jī)操作特性。
在20世紀(jì)50年代,ROC曲線被用于心理物理學(xué),以評(píng)估人體(有時(shí)是非人類動(dòng)物)對(duì)弱信號(hào)的檢測(cè)。在醫(yī)學(xué)中,ROC分析已廣泛用于診斷測(cè)試的評(píng)估。 ROC曲線也廣泛用于流行病學(xué)和醫(yī)學(xué)研究,并經(jīng)常與循證醫(yī)學(xué)一起提及。usted于1971年首次描述了它在醫(yī)學(xué)中用于評(píng)估診斷性能的性能。在放射學(xué)中,ROC分析是評(píng)估新放射學(xué)技術(shù)的常用技術(shù)。在社會(huì)科學(xué)中,ROC分析通常被稱為ROC準(zhǔn)確率,這是一種判斷默認(rèn)概率模型準(zhǔn)確性的常用技術(shù)。 ROC曲線廣泛用于實(shí)驗(yàn)室醫(yī)學(xué),以評(píng)估測(cè)試的診斷準(zhǔn)確性,選擇測(cè)試的最佳截止值并比較多個(gè)測(cè)試的診斷準(zhǔn)確性。
ROC曲線也證明可用于評(píng)估機(jī)器學(xué)習(xí)技術(shù)。 ROC在機(jī)器學(xué)習(xí)中的首次應(yīng)用是1989年Spackman的工作中《Signal detection theory: Valuable tools for evaluating inductive learning》,他在比較和評(píng)估不同的分類算法時(shí)證明了ROC曲線的價(jià)值
ROC(receiveroperatingcharacteristic)曲線最初是由電氣工程師和雷達(dá)工程師在第二次世界大戰(zhàn)期間開(kāi)發(fā)的,用于探測(cè)戰(zhàn)場(chǎng)中的敵方物體,并很快被引入心理學(xué)以解釋刺激的感知檢測(cè)。 自那時(shí)起,ROC分析已用于醫(yī)學(xué),放射學(xué),生物測(cè)定學(xué),自然災(zāi)害預(yù)測(cè),氣象學(xué),模型性能評(píng)估,和其他領(lǐng)域數(shù)十年,并越來(lái)越多地用于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘研究。
ROC也被稱為相對(duì)運(yùn)行特性曲線,因?yàn)樗莾蓚€(gè)運(yùn)行特性(TPR和FPR)的比較,隨著標(biāo)準(zhǔn)的變化。
Matthews相關(guān)系數(shù)用于機(jī)器學(xué)習(xí),生物化學(xué)家Brian W. Matthews在1975年引入的二元(兩類)分類質(zhì)量的量度。
F-measure這個(gè)名字被認(rèn)為是在Van Rijsbergen的書(shū)中以不同的F函數(shù)命名的,當(dāng)時(shí)它被引入MUC-4(Fourth Message Understanding Conference )。
在《The truth of the F-measure》中,Yutaka Sasaki提到:”有一件事仍然沒(méi)有解決,那就是為什么F度量被稱為F。幾年前他與David D. Lewis的一次個(gè)人交流表明,當(dāng)F度量被引入MUC-4時(shí),這個(gè)名字是偶然選擇的,van Rijsbergen的書(shū)中定義為“F測(cè)度”,考慮不同的F函數(shù)的結(jié)果。”
F分?jǐn)?shù)通常用于信息檢索領(lǐng)域,用于測(cè)量搜索,文檔分類和查詢分類性能。 早期的作品主要集中在F1得分上,但隨著大型搜索引擎的激增,性能目標(biāo)發(fā)生了變化,更加強(qiáng)調(diào)精確度或召回率,這從廣泛的應(yīng)用中可以看到。
F-score也用于機(jī)器學(xué)習(xí)。然而,請(qǐng)注意,F(xiàn)-度量不考慮真實(shí)的負(fù)面因素,并且諸如Matthews correlation coefficient,Informedness或Cohen's kappa之類的度量可能更適合評(píng)估二元分類器的性能。F-score已經(jīng)廣泛應(yīng)用于自然語(yǔ)言處理文獻(xiàn)中,例如命名實(shí)體識(shí)別和分詞的評(píng)估。
雖然F-measure是Recall和Precision的調(diào)和平均值,但G-measure是幾何平均值。
主要事件
| 年份 | 事件 | 相關(guān)論文/Reference |
| 1975 | Brian W. Matthews在1975年引入的二元(兩類)分類質(zhì)量的量度 | Matthews, B. W. (1975). Comparison of the predicted and observed secondary structure of T4 phage lysozyme.Biochimica et Biophysica Acta (BBA)-Protein Structure,405(2), 442-451. |
| 1979 | van Rijsbergen的圖書(shū)定義為“F測(cè)度” | Van Rijsbergen, C. J. (1979). Information retrieval. dept. of computer science, university of glasgow.URL: citeseer. ist. psu. edu/vanrijsbergen79information. html,14. |
| 1989 | Spackman, K. A.將F度量用于信號(hào)測(cè)量 | Spackman, K. A. (1989). Signal detection theory: Valuable tools for evaluating inductive learning. InProceedings of the sixth international workshop on Machine learning(pp. 160-163). |
| 1992 | F度量被引入MUC-4 | Chinchor, N. (1992, June). MUC-4 evaluation metrics. InProceedings of the 4th conference on Message understanding(pp. 22-29). Association for Computational Linguistics. |
| 2008 | Li, X., Wang, Y. Y., & Acero, A.將度量使用到文本搜索中 | Li, X., Wang, Y. Y., & Acero, A. (2008, July). Learning query intent from regularized click graphs. InProceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval(pp. 339-346). ACM. |
發(fā)展分析
瓶頸
Chen 和 Lin (2006) : "Combining SVMs with Various Feature Selection Strategies" 的論文中提出了一個(gè)問(wèn)題:
“這些數(shù)據(jù)的兩個(gè)特征都具有較低的F分?jǐn)?shù),因?yàn)榉帜福ㄕ?fù)集的方差之和)遠(yuǎn)大于分子。”
換句話說(shuō),F(xiàn)-score 獨(dú)立于其他特征揭示了每個(gè)特征的辨別力。 針對(duì)第一特征計(jì)算一個(gè)分?jǐn)?shù),針對(duì)第二特征計(jì)算另一個(gè)分?jǐn)?shù)。 但它并沒(méi)有展現(xiàn)兩種功能(互信息)組合的信息。 這是 F-score 的主要弱點(diǎn)。
Contributor: Ruiying Cai
轉(zhuǎn)載自:機(jī)器之心——F1值
總結(jié)
- 上一篇: iPhone6翻新机快速识别方法
- 下一篇: 用flex关闭苹果手机其它APP程序广告