搞懂敏感性、特异性以及精确率和召回率的关系
文章目錄
- 1.引言
- 2.定義
- 3.例子
- 1.低精確率,高召回率,高特異性
- 2.高精確率,高召回率,低特異性
- 3.高精確率,低召回率,高特異性
- 4.低精確率,低召回率,高特異性
- 5.高精確率,低召回率,低特異性
- 6.低精確率,高召回率,低特異性
- 7.高精確率,高召回率,高特異性
- 8.低精確率,低召回率,低特異性
- 4.小結(jié)
1.引言
在數(shù)據(jù)科學(xué)中,查看精確率和召回率來評估構(gòu)建的模型是很常見的。而在醫(yī)學(xué)領(lǐng)域,通常要觀察特異性和敏感性來評估醫(yī)學(xué)測試。這些概念非常相似,但又有所不同。當(dāng)這兩個(gè)世界相遇時(shí),即當(dāng)一個(gè)醫(yī)學(xué)測試是一個(gè)機(jī)器學(xué)習(xí)模型時(shí),這種差異可能會在醫(yī)學(xué)界和從事數(shù)據(jù)科學(xué)研究的人員之間造成許多誤解。
2.定義
來,讓我們看看如下這些定義:
精確率 — 在所有預(yù)測為陽性的樣本中,有多少是真的陽性?
召回率 — 在所有陽性樣本中,有多少是預(yù)測為陽性的?
特異性 — 在所有沒有患病的人當(dāng)中,有多少人得到陰性結(jié)果?
敏感性 — 在所有患病的人中,有多少人得到陽性結(jié)果?
如果我們把一個(gè)陽性的例子定義為 患者,我們可以看到召回率和敏感性是一樣的,但精確率和特異性是不同的。精確率也被稱為 PPV (陽性預(yù)測值)。從現(xiàn)在起,我們將把敏感性稱為召回率。
這些定義非常簡單,然而,當(dāng)我試圖理解它們的組合對我的算法意味著什么時(shí),我發(fā)現(xiàn)自己很困惑。精確率、召回率、敏感性的每一個(gè)組合都是可能的嗎? 在什么情況下,是不對的?
如果這有幫助,當(dāng)陽性標(biāo)簽被定義為陰性,陰性標(biāo)簽為陽性時(shí),你可以將特異性稱為對同一問題的召回率。
為了更好地理解,我創(chuàng)建了 8 個(gè)不同的分類問題和分類器。每個(gè)分類器嘗試將 10 個(gè)樣本以最大化或最小化每個(gè)度量的方式分類到陽性和陰性籃子中。
3.例子
1.低精確率,高召回率,高特異性
如果分類器預(yù)測為陰性,你可以相信它,樣本是陰性的。但是要注意,如果樣本是陰性的,你不能確定它是否會預(yù)測為陰性 ( 特異性 = 78% )。
如果分類器預(yù)測為陽性,則不能相信它(精確率 = 33%)。但是,如果示例是陽性,則可以信任分類器(召回率 = 100%)。
2.高精確率,高召回率,低特異性
把所有例子都預(yù)測為陽性顯然不是個(gè)好主意。然而,由于總體不平衡,以及精確率相對高,召回率為 100%,因?yàn)樗械年栃詷颖径急活A(yù)測為陽性。但特異性為 0%,因?yàn)闆]有陰性樣本被預(yù)測為陰性。
3.高精確率,低召回率,高特異性
這是一個(gè)有用的分類器 — 如果它預(yù)測一個(gè)例子是陽性的,你可以相信它 — 它是陽性的。然而,如果預(yù)測它是陰性的,則不能相信它,它仍然是有幾率是陽性的。
4.低精確率,低召回率,高特異性
這個(gè)分類器真的很糟糕 — 它幾乎把所有的例子都預(yù)測為陰性。當(dāng)預(yù)測是陽性時(shí),也是錯(cuò)的。實(shí)際上,使用與這個(gè)分類器預(yù)測相反的數(shù)據(jù)的方法更好。
5.高精確率,低召回率,低特異性
進(jìn)行與此分類器預(yù)測相反的操作在這里應(yīng)該會更好。
6.低精確率,高召回率,低特異性
這個(gè)分類器可能沒用 — 它預(yù)測一切都是陽性的。因此,它可以完美地檢測所有陽性的例子,當(dāng)然 (高召回率),但你不能從使用中得到任何信息。
7.高精確率,高召回率,高特異性
這是 圣杯 — 分類器檢測所有陽性的例子為陽性,以及所有陰性的例子為陰性。因此,所有測量值都是 100%,完美。
8.低精確率,低召回率,低特異性
這看起來是一個(gè)糟糕的分類器,所有陽性的例子都被預(yù)測為陰性,所有陰性的例子都被預(yù)測為陽性。所有的測量值是 0。然而,你可以簡單地做與預(yù)測相反的事情,然后發(fā)現(xiàn)是完美的。
4.小結(jié)
總之,所有的度量(精確率、召回率和特異性)都為我們提供了關(guān)于分類模型不同表現(xiàn)的重要信息。把它們都好好理解一遍是非常重要的。例如,如果不考慮特異性,你可以創(chuàng)建一個(gè)有高精確率和召回率的模型,不過它只是簡單地預(yù)測一切為真,沒有實(shí)際價(jià)值(如上面示例 2 所示)。
被數(shù)據(jù)包圍的人們 — 不要忘記特異性哦!特別是當(dāng)你需要和醫(yī)學(xué)領(lǐng)域打交道時(shí)。
最后,來個(gè)小問題,比如核酸檢測中的假陰性、假陽性是什么情況?
總結(jié)
以上是生活随笔為你收集整理的搞懂敏感性、特异性以及精确率和召回率的关系的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 雨林木风工具箱 3.5
- 下一篇: vs2005下载地址