机器学习的统计方法 贝叶斯决策理论入门
引言
無論你是在建立機器學習模型還是在日常生活中做決定,我們總是選擇風險最小的方案。作為人類,我們天生就采取任何有助于我們生存的行動;然而,機器學習模型最初并不是基于這種理解而建立的。這些算法需要經過訓練和優化,以選擇風險最小的最優方案。此外,很重要的一點在于,我們必須明白,如果某些高風險的決定做的不正確,將會導致嚴重的后果。
我們以癌癥診斷為例。根據病人的計算機斷層掃描(CT),放射科醫生能確定腫瘤的存在嗎?如果他們認為病人體內有腫瘤,那么醫生需要弄清楚腫瘤是良性的還是惡性的,以確定正確的治療方法。鑒于本文的目的是描述做出這些決策的統計方法,所以我只關注問題的第一部分:病人是否有腫瘤,是,還是否?
貝葉斯定理
在統計學和概率論領域,最著名的方程之一是貝葉斯定理(見下面的公式)?;局庇X是,給定某個特征(即屬性)時,某個類或事件發生的概率是基于特征值的可能性和有關該類或事件的任何先驗信息計算的。這句話看起來有點復雜,所以我們一步步拆開來看。首先,癌癥檢測是一個兩類問題。第一類ω1\omega_1ω1?表示腫瘤存在,ω2\omega_2ω2?表示腫瘤不存在。
先驗
**貝葉斯定理有四個部分:先驗、似然、置信和后驗。**先驗概率(P(ω1),P(ω2)P(\omega_1),P(\omega_2)P(ω1?),P(ω2?))定義了事件ω1\omega_1ω1?或ω2\omega_2ω2?在自然界中發生的可能性。我們要注意,先驗概率的分布根據我們問題的情景而各有差異。由于目標是檢測癌癥,可以肯定的是,腫瘤出現的概率很低:P(ω1)<P(ω2)P(\omega_1)<P(\omega_2)P(ω1?)<P(ω2?)。但是,不管值是多少,所有先驗概率的總和都必須是1。
似然
從技術上來說,CT掃描是指用x射線以圓周運動的方式進行掃描。產生的關鍵指標之一是衰減——衡量x射線吸收程度的指標。密度越高的物體衰減越大,反之亦然。因此,與肺組織相比,腫瘤可能具有更高的衰減。
假設我們只通過衰減值這一個特征來從ω1\omega_1ω1?和ω2\omega_2ω2?之間做出決定。每個類都有一個類條件概率密度p(x∣ω1)p(x|\omega_1)p(x∣ω1?)和p(x∣ω2)p(x|\omega_2)p(x∣ω2?),稱為“似然度”。下圖顯示了一個的P(x∣ω)P(x|\omega)P(x∣ω)的類條件概率密度示意圖。類條件概率分布是通過分析訓練數據集來提取的;但是,如果有相關領域的專家來檢查一下數據的有效性是最好的。
置信
描述置信p(x)p(x)p(x)最好的辦法是全概率公式。這條公式指出,如果有相互排斥的事件(例如ω1\omega_1ω1?和ω2\omega_2ω2?),其發生概率總和為1,則某個特征(例如衰減程度)出現的概率(也即我們的置信)是所有相互排斥的事件的似然度與對應事件先驗概率乘積的和。
后驗
貝葉斯定理的結果稱為后驗概率P(ω1∣x)P(\omega_1|x)P(ω1?∣x)和P(ω2∣x)P(\omega_2|x)P(ω2?∣x)。后驗概率表示在給定特征xxx(例如衰減程度)的情況下,觀察值屬于ω1\omega_1ω1?或ω2\omega_2ω2?類(即是否存在腫瘤)的概率。每一個觀測值都有一個后驗概率,所有后驗概率的總和必須達到1。對于我們試圖解決的癌癥檢測問題,它有兩個后驗概率。除了似然度和后驗概率之間的聯系之外,后驗概率還可能受到先驗概率P(ω)P(\omega)P(ω)的嚴重影響。
決策規則
既然我們已經很好地理解了貝葉斯定理,現在是時候看看如何利用它在兩個類之間建立一個決策邊界了。有兩種方法可以確定病人是否有腫瘤。第一種是一種簡單的方法,它只使用先驗概率值來做決定;第二種方法利用后驗概率,利用先驗概率和類條件概率分布來確定病人患有腫瘤的概率。
使用先驗概率
假設我們只根據自然的先驗概率做出決策,這意味著我們忘記貝葉斯定理中的所有其他因素。由于有腫瘤的概率P(ω1)P(\omega_1)P(ω1?)遠小于沒有腫瘤的概率P(ω2)P(\omega_2)P(ω2?),我們的模型/系統將始終預測每個患者都沒有腫瘤。盡管模型/系統在大多數情況下都是正確的,但它無法識別出真正患有腫瘤并需要救治的患者。
使用后驗概率
現在讓我們使用后驗概率P(ω1∣x)P(\omega_1|x)P(ω1?∣x)和P(ω2∣x)P(\omega_2|x)P(ω2?∣x)來采取更全面的方法。由于后驗概論是貝葉斯定理的結果,類條件概率密度p(x∣ω1)p(x|\omega_1)p(x∣ω1?)和p(x∣ω2)p(x|\omega_2)p(x∣ω2?)減輕了先驗的影響。如果我們的模型/系統所觀察的區域的衰減比普通組織要高,那么盡管存在自然的先驗概率,但腫瘤出現的概率還是會增加。假設一個特定區域有75%的幾率含有腫瘤,那么這就意味著有25%的幾率根本沒有腫瘤。這25%的幾率是我們出錯的概率,也被稱為風險。
結論
您剛剛學到的是貝葉斯決策理論的一個簡單的單變量應用,它可以通過使用多元高斯分布代替置信和似然度來擴展到更大的特征空間。雖然本文的重點是解決癌癥檢測的問題,但是貝葉斯定理也被廣泛用于包括投資、市場營銷和系統工程在內的眾多領域。
參考資源
[1]Seo, Young-Woo. (2006). Cost-Sensitive Access Control for Illegitimate Confidential Access by Insiders. Proceedings of IEEE Intelligence and Security Informatics: 23–24 May 2006. 3975. 117–128. 10.1007/11760146_11.
[2] Duda, R. O., Hart, P. E., Stork, D. G. (2001). Pattern Classification. New York: Wiley. ISBN: 978–0–471–05669–0
[3] Glatter, R., “Medicare To Cover Low-Dose CT Scans For Those At High Risk For Lung Cancer”, Forbes (2015)
作者:Rayhaan Rasheed
deephub翻譯組:Alexander Zhao
總結
以上是生活随笔為你收集整理的机器学习的统计方法 贝叶斯决策理论入门的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 紫外功率测试软件,紫外灯253.7nm紫
- 下一篇: python文件操作3--批量修改文件后