机器学习理论《统计学习方法》学习笔记:第十章 隐马尔可夫模型(HMM)
第十章 隱馬爾可夫模型(HMM)
- 摘要
- 隱馬爾可夫模型的基本概念
- 前言
- 生成模型和判別模型
- 馬爾可夫過程
- 馬爾可夫鏈
- 馬爾可夫模型
- 隱馬爾可夫模型
- 隱馬爾可夫模型的三個問題
- 第一 概率計算
- 第二 學習問題
- 第三 預測問題
- 參考文獻
摘要
隱馬爾可夫模型(HMM)是可用于標注問題的統計學習模型,描述由隱藏的馬爾可夫鏈隨機生成觀測序列的過程,屬于生成模型。隱馬爾可夫模型在語音識別、自然語言處理、生物信息、模式識別等領域有著廣泛的應用。
隱馬爾可夫模型的基本概念
前言
隱馬爾可夫模型(HMM)與回歸、分類等處理相互獨立的樣本數據模型不同,用于處理時間序列數據,即隱馬爾可夫模型用于處理樣本之間有時間序列關系的數據。HMM和卡爾曼濾波算法的本質是一樣的,區別在于HMM要假設隱藏變量是離散的,而卡爾曼濾波假設隱藏變量是連續的。隱藏變量是HMM中的關鍵概念,可以理解為無法直接觀測到的變量。與隱變量相對的是觀測變量,即可以直接觀測到的變量。HMM的能力在于能夠根據給出的觀測變量序列,估計對應的隱藏變量序列是什么,并對未來的觀測變量做預測。
比如語音識別,給你一段音頻數據,需要識別出該音頻數據對應的文字。這里音頻數據就是觀測變量,文字就是隱藏變量。我們知道,對單個文字而言,雖然在不同語境下有輕微變音,但大致發音是有統計規律的。另一方面,當我們說出一句話時,文字與文字之間也是有一些轉移規律的。比如,當我們說出“比”這個字時,下一個大概率的字一般是“如”“較”等。雖然文字千千萬,但文字與文字之間的轉移卻是有章可循的。有了文字的發音特征,以及文字與文字之間的轉移規律,那么從一段音頻中推測出對應的文字也就可以一試了。插一句,在當前深度學習一統江湖的時代,已經很少有人還在用HMM做語音識別了。
如何判斷一個問題是否適合使用HMM解決?
- 已知一組數據,需要推斷與之對應的另一組數據。比如,音頻數據、字符序列是已知數據,對應的文字是需要推斷的數據。
- 要推斷的數據是離散的,比如語音識別中的文字,而對觀測數據沒有要求,既可以是離散的,也可以是連續的。
- 對輸入數據的順序敏感,比如音頻數據和字符序列,如果把它們的順序打亂,結果就完全不一樣了。對順序敏感并不是壞事,順序即信息,有信息才可以做推斷。
生成模型和判別模型
監督學習的任務就是學習一個模型,應用這一模型,對給定的輸入預測相應的輸出。這個模型的一般形式為決策函數Y=f(x)Y=f(x)Y=f(x)或者條件概率分布:P(Y∣X)P(Y|X)P(Y∣X)。
監督學習方法可以分為生成方法(generative approach)和判別方法(discriminative approach),所學到的模型分別稱為生成模型(generative model)和判別模型(discriminative model)。
生成方法由數據學習聯合概率分布P(X,Y)P(X,Y)P(X,Y),然后求出條件概率分布P(X∣Y)P(X|Y)P(X∣Y)作為預測的模型,即生成模型:P(Y∣X)=P(X,Y)P(X)P(Y|X)={{P(X,Y)}\over{P(X)}}P(Y∣X)=P(X)P(X,Y)?這樣的方法之所以稱為生成方法,是因為模型表示了給定輸入X產生Y的生成關系。典型的生成模型有樸素貝葉斯法和隱馬爾可夫模型。
判別方法由數據直接學習決策函數f(x)f(x)f(x)或者條件概率分布P(Y∣X)P(Y|X)P(Y∣X)作為預測的模型,即判別模型。判別方法關心的是對給定的輸入X,應該預測什么樣的輸出Y。典型的判別模型包括:K近鄰法、感知機、決策樹、邏輯斯蒂回歸模型、最大熵模型、支持向量機、提升方法和條件隨機場等。
生成方法的特點生成方法可以還原出聯合概率分布P(X,Y)P(X,Y)P(X,Y),而判別方法則不能。生成方法的學習收斂速度更快,當樣本容量增加的時候,學到的模型可以更快的收斂于真實模型。當存在隱變量時,仍可以用生成方法學習,此時判別方法就不能用。
判別方法的特點判別方法直接學習的就是條件概率或決策函數,直接面對預測,往往學習的準確率更高。由于直接學習條件概率分布或決策函數,可以對數據進行各種程度上的抽象、定義特征并使用特征,因此可以簡化學習問題。
馬爾可夫過程
一種狀態轉換的隨機過程,下一狀態的概率只與當前狀態有關。
馬爾可夫鏈
時間和狀態過程的取值是離散的。
馬爾可夫模型
隱馬爾可夫模型
隱馬爾可夫模型是關于時序的概率模型,描述由一個隱藏的馬爾可夫鏈隨機生成不可觀測的狀態隨機序列,再由各個狀態生成一個觀測,從而產生觀測隨機序列的過程。
隱藏的馬爾可夫鏈隨機生成的狀態的序列,稱為狀態序列(state sequence);每個狀態生成一個觀測,而由此產生的觀測的隨機序列,稱為觀測序列(observation sequence)。序列的每一個位置又可以看作是一個時刻。
隱馬爾可夫模型由初始狀態概率向量π\piπ、狀態轉移概率矩陣AAA和觀測概率矩陣BBB決定。π\piπ和AAA決定狀態序列,BBB決定觀測序列。因此,隱馬爾可夫模型λ\lambdaλ可以用三元符號表示,即:λ=(A,B,π)\lambda=(A,B,\pi)λ=(A,B,π).A:狀態轉移矩陣,B:觀測概率矩陣,π\piπ初始狀態概率。
狀態轉移概率矩陣AAA與初始狀態概率向量π\piπ確定了隱藏的馬爾可夫鏈,生成不可觀測的狀態序列。觀測概率矩陣BBB確定了如何從狀態生成觀測,與狀態序列綜合確定了如何產生觀測序列。
隱馬爾可夫模型的三個問題
第一 概率計算
前向算法、后向算法
第二 學習問題
極大似然估計、EM算法
第三 預測問題
維比特算法
參考文獻
總結
以上是生活随笔為你收集整理的机器学习理论《统计学习方法》学习笔记:第十章 隐马尔可夫模型(HMM)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习理论《统计学习方法》学习笔记:第
- 下一篇: 图像分割综述:FCN、U-Net、PSP