a*算法的优缺点_轻松理解机器学习算法-朴素贝叶斯
1、預備知識
貝葉斯定理(Bayes’ theorem)是概率論中的一個定理,它跟隨機變量的條件概率以及邊緣概率分布有關。通常事件A在事件B發生的條件下的概率,與事件B在事件A發生的條件下的概率是不一樣的;然而這兩種是有確定關系的,這種關系就是貝葉斯定理:
P(A|B) = ( P(A) * P(B|A) ) / P(B)
從公式來看,我們需要首先了解3個基本概念:
1)先驗概率
通常把P(A)稱為“先驗概率”(Prior probability),即在不知道B事件發生的前提下,對A事件發生概率的一個主觀判斷。
2)似然函數
P(B|A)/P(B)稱為“似然函數”(Likelyhood),即對新事件B的發生調整,作用是,使得先驗概率更接近真實概率。
- 如果“似然函數”P(B|A)/P(B)>1,意味著“先驗概率”被增強,事件A的發生的可能性變大;
- 如果“似然函數”P(B|A)/P(B)=1,意味著事件B無助于判斷事件A的可能性;
- 如果“似然函數”P(B|A)/P(B)<1,意味著“先驗概率”被削弱,事件A的可能性變小。
3)后驗概率
P(A|B)稱為“后驗概率”(Posterior probability),即在事件B發生之后,對事件A概率的重新評估。
因此,貝葉斯定理為:后驗概率=先驗概率*似然函數。
2、樸素貝葉斯算法
樸素貝葉斯算法是一種簡單但極為強大的預測建模算法。之所以稱為樸素貝葉斯,是因為它假設每一個輸入變量之間是獨立的。
樸素貝葉斯模型由兩種類型的概率組成:
- 每個類別的概率P(Cj)
- 每個屬性的條件概率P(Ai|Cj)
樸素貝葉斯的公式如下:
P(Cause,Effect1,Effect2,Effect3….Effectn)=P(Cause)∏nP(Effecti|Cause)
為了訓練樸素貝葉斯模型,需要先給出訓練數據以及這些數據對應的分類。
3、貝葉斯原理、貝葉斯分類及樸素貝葉斯之間的關系
貝葉斯原理是最大的概念,它解決了概率論中“逆向概率”的問題,在這個理論基礎上,人們設計出了貝葉斯分類器。樸素貝葉斯分類是貝葉斯分類器中的一種,也是最簡單,最常用的分類器。樸素貝葉斯之所以樸素是因為它假設屬性是相互獨立的,因此對實際情況有所約束,如果屬性之間存在關聯,分類準確率會降低。不過好在對于大部分情況下,樸素貝葉斯的分類效果都不錯。
4、樸素貝葉斯分類流程
樸素貝葉斯分類需要三個步驟:
- 準備階段
在這個階段需要確定特征屬性,并對每個特征屬性進行適當劃分,然后由人工對一部分數據進行分類,形成訓練樣本。這一階段是整個樸素貝葉斯分類中唯一需要人工參與的,其質量對整個過程有重要影響,分類器的質量很大程度上由特征屬性、特征屬性劃分及訓練樣本質量決定。
- 訓練階段
這個階段生成分類器,主要工作是計算每個類別在訓練樣本中的出現頻率及每個特征屬性劃分對每個類別的條件概率。輸入是特征屬性和訓練樣本,輸出是分類器。
- 應用階段
這個階段是使用分類器對新數據進行分類。輸入是分類器和新數據,輸出是新數據的分類結果。
5、樸素貝葉斯算法的優缺點
優點:
- 算法基于古典數學理論,分類效率穩定;
- 適用于小規模數據,能夠處理多分類任務;
- 算法簡單,對缺失數據不敏感。
缺點:
- 在屬性個數比較多或者屬性之間相關性較大時,分類效果不好。而在屬性相關性較小時,樸素貝葉斯性能最為良好;
- 需要知道先驗概率,且先驗概率很多時候取決于假設,假設的模型可以有很多種,因此在某些時候會由于假設的先驗模型的原因導致預測效果不佳;
- 通常通過先驗和數據來決定后驗的概率從而決定分類,所以分類決策存在一定的錯誤率;
- 對輸入數據的表達形式很敏感。
(本文部分內容來自https://ixyzero.com/blog/archives/4524.html和https://joshuaqyh.github.io/)
總結
以上是生活随笔為你收集整理的a*算法的优缺点_轻松理解机器学习算法-朴素贝叶斯的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: louvian算法 缺点 优化_机器学习
- 下一篇: 优秀logo设计解析_优秀Logo设计!