PGM学习之一
一 課程基本信息
????????? 本課程是由Prof.Daphne Koller主講,同時得到了Prof. Kevin Murphy的支持,在coursera上公開傳播。在本課程中,你將學習到PGM(Probabilistic Graphical Models)表示的基本理論,以及如何利用人類自身的知識和機器學習技術來構建PGM;還將學習到使用PGM算法來對有限、帶噪聲的證據提取結論,在不確定條件下做出正確的抉擇。該課程不僅包含PGM框架的理論基礎,還有將這些技術應用于新問題的實際技巧。
????????? 本課程包含以下主題:
??????????1.貝葉斯網絡(Bayesian network)和馬爾科夫網絡(Markov network)的表示,包括隨時間變換的域和可變數量的實體的域的推理;
??????????2.推理和推斷的方法,包括精確推斷(變量消除(variable elimination),勢團樹(clique tree)),近似推斷(信仰傳播的消息傳遞,馬爾科夫鏈(蒙特卡洛方法));
????????? 3.PGM中,參數和結構化的學習方法;
????????? 4.在不確定條件下使用PGM進行決策;
?二 什么是PGM?
??? 不確定性是現實世界應用中不可避免的問題:我們幾乎從未肯定地預測將要發生的時間,即使我們對于過去和現在的信息都了如指掌。概率理論為我們提供了用以對我因時而異、因地而異的belief建模的基礎。這些belief可以結合個人的喜好來指導行動,甚至在選擇觀測中也能用到。
????概率論自17世紀以來就存在,但直到最近我們才具有有效使用概率論的知識解決涉及許多相互聯系的變量的大問題,這主要歸功于PGM模型框架的發展。該框架,主要包含例如貝葉斯網絡和馬爾科夫隨機場(Markov random fields)等方法,使用的思想是計算機科學中的離散數據結構可以快速編碼、在包含成千上萬個變量的高維空間操作概率分布。這些方法已經廣泛應用于許多領域:網頁搜索,醫療和故障診斷,圖像理解,生物網絡重建,語音識別,自然語言處理,高噪聲環境下編碼信息傳輸,機器人導航,等等。PGM框架為任何希望通過有限、含噪的觀測來正確推理提供了必要的工具。
三 PGM相關概述
3.1 為什么需要PGM?
??? PGM最開始出現在計算機科學和人工智能領域,主要應用于醫學診斷。假設一個醫生正在給一個病人看病。從醫生的角度,他掌握著病人相當數量的信息-誘因、癥狀、各種測試結果等。并且,他應當判斷出,病人的病情診斷是什么,不同的質量方案會有什么樣的反應等等。PGM的另外一個典型應用是圖像分割。比如,我們有一張可能包含成千上萬個像素。圖像分割,就是給圖像中每個像素貼上標簽。例如下圖所示,每個像素應該給貼上諸如草地、天空、?;蝰R此類類別標簽。上述兩個問題的共同點是:
????1.它們都具有大量我們需要從中推理的變量。在圖像分割問題中,不同的像素或者由像素構成的小區域的標簽叫superpixels。
????2.正確的結果具有不確定性,不管算法設計得如何清晰。
????綜上,PGM就是用來解決上述應用的框架。
3.2 什么是Model?
????? 模型是一個我們理解世界的形象化表示(Declarative representation)。如下圖所示:
??????
?
???? 簡單的講,一個模型是一種我們理解周圍世界的聲明或者表達方式。在計算機內,一個模型包含我們對若干變量的理解,比如,這些變量是什么含義,變量之間如何交互。模型的這種特性使得我們能夠將新的算法加入模型內部,同時加入新的外界知識。比如用專家只是知道模型,通過學習的方法改善模型等。
3.3什么是Probabilistic?
???首先解釋下不確定性(Uncertainty)。產生不確定性的原因主要有:
???1、對世界認知狀態的不完整;2、含有噪聲的觀測(Noisy observations);3、模型未能覆蓋所有實際現象;4、固有的隨機性;
?? 概率論,通常具有清晰的表達式,強推理模式,可建立的學習方法
3.4什么是Graphical?
??Graphical(圖)來自計算機科學,是一種復雜數據結構。通常包括頂點和連接頂點的邊。
四 Graphical Models(圖模型)
??最簡單的圖模型是貝葉斯網絡,通常貝葉斯網絡使用有向無環圖來表示,圖中的頂點表示隨機變量,圖中的邊沿表示隨機變量之間的概率依賴關系;在機器學習和圖像處理中(圖像分割)還經常使用馬爾科夫網絡(Markov network),通常馬爾科夫網絡使用無向圖來表示頂點與周圍頂點之間的關系。
??? ?????
??????????????????????????????????
?
??? 下面給出一個在圖像分割中實際應用的例子:
???????
?
五 分布(Distributions)
???聯合分布-在概率論中, 對兩個隨機變量X和Y,其聯合分布是同時對于X和Y的概率分布.
對離散隨機變量而言,聯合分布概率密度函數為Pr(X = x & Y = y),即
因為是概率分布函數,所以必須有
???以通過考試成績評估學生學習情況為例。
???????
???I表示學生智力,可取值為0和1;D表示試卷難易程度,可取值為0和1;G代表最后的試卷結果等級,可取值為1,2,3。根據三個隨機變量I,D,G的取值情況,我們知道三個隨機變量一共有2*2*3種取值。聯合分布P(I,D,G)的分布情況如上圖右表所示。需要注意的一點是,I,D,G是相互獨立的隨機變量。
???條件概率分布(條件分布)是現代概率論中的概念。已知兩個相關的隨機變量X 和Y,隨機變量Y 在條件{X =x}下的條件概率分布是指當已知X 的取值為某個特定值x之時,Y 的概率分布。 如果Y 在條件{X =x}下的條件概率分布是連續分布,那么其密度函數稱作Y 在條件{X =x}下的條件概率密度函數(條件分布密度、條件密度函數)。與條件分布有關的概念,常常以“條件”作為前綴,如條件期望、條件方差等等。
???對于離散型的隨機變量X 和Y(取值范圍分別是和),隨機變量Y 在條件{X =x}下的條件概率分布是:
同樣的,X 在條件{Y=y}下的條件概率分布是:
其中,是X 和Y 聯合分布概率,即“,并且發生的概率”。如果用表示的值: 那么隨機變量X 和Y 的邊際分布就是:
因此, 隨機變量Y 在條件{X =x}下的條件概率分布也可以表達為:
同樣的,X 在條件{Y=y}下的條件概率分布也可以表達為:
?? 繼續前面的例子,例如我們要求當G取值為1的時候的條件概率,那么P(I,D,G=1)為所有I和D變換,而G固定為1的聯合分布的取值之和。
???????????
?? 由上圖我們知道,P(I,D,G=1)的值為0.126+0.009+0.252+0.06=0.447。這里G=1的條件概率不唯一,在實際應用中,使用條件概率時,常常還需要進行條件概率的歸一化。簡單的講,就是在G=1的時候,可以將概率空間單純的之前的3維(I,D,G各自所在的空間為一維)看做2維(G固定,只剩下I,D)。因此可條件概率的歸一化是指條件概率的每一個可能的取值與條件概率之和的商。如下圖,P(I,D|g=1)的條件概率分布如右表所示。?
??????
?? 最后,還需要明確的一個概念是邊緣概率。邊緣概率是某個事件發生的概率。邊緣概率是這樣得到的:在聯合概率中,把最終結果中不需要的那些事件合并成其事件的全概率而消失(對離散隨機變量用求和得全概率,對連續隨機變量用積分得全概率)。這稱為邊緣化(marginalization)。A的邊緣概率表示為P(A),B的邊緣概率表示為P(B)。繼續之前的例子,比如我們已經知道P(I,D|g=1),然后我們邊緣化I,則我們可以得D的邊緣分布,如下圖所示:
??????
??
????
總結
- 上一篇: 400分单招计算机,湖南单招最火爆的专科
- 下一篇: fortran使用MKL函数库计算一个复