致敬贝叶斯以及自己对贝叶斯的一些见解
記得大二的時候,概率論里面有全概率公式這么一個東西,可是當時僅僅為了應付考試并沒有體會到貝葉斯的強大,接觸機器學習之后,漸漸體會到貝葉斯的神奇,也能通過貝葉斯來解釋更多的模型。
- 貝葉斯由來
- 與日常思維相似的推導過程
- 由已知推導未知
- 貝葉斯的應用
- 樸素貝葉斯
- 貝葉斯網絡
- 換個角度理解貝葉斯
- 貝葉斯與正則化防止過擬合
貝葉斯由來
與日常思維相似的推導過程
- 以下是火影忍者劇情中的某個日常:
第一集:某風和日麗的上午,三代目火影翻閱著暗部遞交上來的各國偵查信息,突然暗部X跑來告知,漩渦鳴人又來惡搞歷代火影的雕像了!作為成年村長,三代目肯定要迅速想一下這事的可能性,總不能別人突然跑來跟你說歷代火影復活入侵了你就發動最高戒備吧.
[稍等,頻道切換一下:我們假定事件A為{歷代火影的雕像被**了},事件B為{這是鳴人闖禍干的},三代目現在要考慮的是概率P(B|A)]
鳴人的日常基本就是各種惡作劇引起村人的注意力,而且他最大的武器就是惡搞雕像[P(B|A)=(P(A|B)P(B)P(A),鳴人的闖禍概率比較大,而他惡搞雕像更是他闖禍的日常,且不論P(A),因為P(A)這個雕像從之前來看..基本上偶爾發生一次,比較固定]
大腦快速の推斷,你覺得推斷出來的結果是鳴人闖禍而且惡搞了雕像的概率是很大的.然后…..巴拉巴拉一堆 - 成語三人成虎背后的貝葉斯推理
假如暗部Y跑進來說,X說錯了,是志乃干的,三代目腦袋里迅速的響應志乃惡作劇的概率(先驗概率),志乃平時溫和的性格以及較低的存在感,三代目覺得這肯定不可能.然后Z,K,W等等一堆暗部也跑進來了,都說是志乃干的!漸漸的,三代目開始懷疑了,由于一大堆人都說是志乃干的,腦子里對應的P(A|B)已經很大了,這個時候,三代目開始逐漸懷疑是否是志乃了,最后認為這很大可能性就是志乃干的!畢竟那么多人都說是他啊.
由已知推導未知
貝葉斯表達的數學式子可以讓我們從現在所有的經驗知識中推導某個事件發生的概率,這就是貝葉斯對于傳統的統計方法最大的區別.
- 比如現在我們手上有一些醫療數據,需要根據醫療數據對老百姓提供一個合理的降低患癌率的建議.那么我們就要知道各種不良生活習慣對于致癌的影響多大對吧.
- 現在我們想知道患癌是抽煙引起的可能性是多少?我們可以通過調研以下數值來提供一個參考:
- 老百姓的患癌率是多少
- 老百姓抽煙的人群比例是多少
- 抽煙的人群中患了癌癥的比例又是多少呢
然后我們可以通過貝葉斯公式根據已知的統計數值來的到我們之前想要但是又統計不出來的結果.
多么NICE的一件事!~~~
貝葉斯的應用
樸素貝葉斯
腦洞打開——-所有的特征都是相互獨立的!!!
- 我們通過一個經典的數據集Adult引入樸素貝葉斯,給出一些居民的個人信息,比如,種族,學歷,工種,年齡,年收入是否大于20W.然后給出另外一批居民類似的個人信息,但是不知道他們的年收入,現在讓你根據居民的信息做出預測其個人的年收入是否達到了20W.
-現在我們需要最大化p(Y|X),根據貝葉斯公式我們有P(Y|X)=P(X|Y)(Y)P(X) - 對于某個居民的信息,P(X),P(Y)對應的值都是一樣的,所以我們重點關注P(X|Y),然而我們已經假設了所有的特征之間都是相互獨立的,所以我們有P(X|Y)=∑ni=1P(xi|Y)
- 所以我們現在可以通過統計獲得以上的P(xi|Y)通過比較不同的Y對應的計算結果,就可以預測該居民的年收入時候是大于20W的概率更大還是不夠20W的概率更大了
- 具體的數學推導:舉個例子,假設僅有兩維的特征
- P(x0,x1|Y)=P(x0,x1,Y)P(Y)=P(Y)?P(x0|P(Y)?P(x1|x0,Y)P(Y)=P(x0|Y)?P(x1|x0,Y)
- 由于x0,x1是完全獨立的,所以x0發生與否與x1的發生概率并沒有任何關系,所以上面式子中的條件x0可以略去.
- 即:P(x0|Y)?P(x1|y),更多的特征緯度以此類推.
貝葉斯網絡
在樸素貝葉斯中,我們假設各個特征之間都是相互獨立的,然而實際的情況下各個特征之間都不是完全獨立的,就拿上一節中提到的訓練集來說,某些職業的培養成本比較高,需要接受十余年的教育才能從事相關的工作(eg.醫學類專業)所以某些需要高學歷的職業更大概率在高學歷年齡偏大的人群中。為了解決這個問題,學術界提出了貝葉斯網絡的概念。
和樸素貝葉斯不同的是,貝葉斯網絡是一個圖模型,相對于樸素貝葉斯,它具備以下的優點:
- 模型強調了特征之間的關系,增強了特征之間的聯動,特別是當數據中的某個特征缺失的時候,可以通過它的相關節點來提供一定的參考信息,在特征缺失的情況下表現也不俗
- 模型通過訓練學習到特征之間的因果關系(類似導引中提到的學歷和職業之間的關系),從而增進我們對數據集的了解,通過學習模型,我們可能發現新的不曾注意道的因果關系
- 通過貝葉斯公式的共軛分布我們可以很好地解決過擬合帶來的問題,提升模型的泛華能力
換個角度理解貝葉斯
貝葉斯與正則化防止過擬合
總結
以上是生活随笔為你收集整理的致敬贝叶斯以及自己对贝叶斯的一些见解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UTF 编码
- 下一篇: eclipse 背景色