模式识别与机器学习课程笔记——决策树和贝叶斯估计
文章目錄
- 前言
- 1 eager learner
- 1.1 Desicion Trees
- 1.1.1 第一個決策樹:ID3算法
- 1.1.1.2 熵
- 1.1.1.3 ID3實現舉例
- 1.1.1.4 剪枝問題
- 1.1.2 決策樹的特點
- 1.1.3 其他決策樹算法
- 1.1.4 決策樹特點
- 1.2 Bayesian
- 1.2.1 樸素貝葉斯
- 1.2.2 樸素貝葉斯舉例Na?ve Bayes Classifier (NB)
- 1.2.3 樸素貝葉斯舉例Bayesian Decision
- 1.2.3.1 最小錯誤率貝葉斯決策
- 1.2.3.2 最小風險貝葉斯決策
- 1.2.4 樸素貝葉斯舉例Parameter Estimation
- 1.3 Linear Regression
- 1.3.1 為何叫線性的
- 1.3.2 常見的基函數
- 1.3.3訓練方式:最小二乘法
- 1.3.4 解決過擬合
- 1.3 Logistic Regression(只有兩種類別)
前言
????創新不是天馬星空,無復盤不學習。
1 eager learner
1.1 Desicion Trees
1.1.1 第一個決策樹:ID3算法
1.1.1.2 熵
熵:ID3決策樹選擇屬性的依據;在熱力學中,對于孤立的系統,任何自發進行的過程都不能使得系統的狀態函數熵的總值減少(熵恒增定律)。
熵的含義:熵代表一個系統的混亂程度,對于一個孤立的系統,當發生可逆的過程的時候,熵增為零,當發生不可逆的過程的時候,熵增為正。
麥克斯韋妖(Maxwell’s demon):1867年,麥克斯韋提出一個假說,就是在一個系統旁邊有一個小妖怪,它知道所有粒子的運動狀態和屬性,而且這個系統中間插了一個帶有一個小門孔的擋板。當這個小妖怪看準時機,打開小孔,“人”為的將系統兩邊的狀態變的熱的更熱,冷的更冷。此時熵就減少了,因為熱與冷統一了,混亂減少了。
負熵:上述麥克斯韋妖獲得了分子的信息才使得系統的熵減少,我們稱信息為負熵,信息的獲取需要能量。
1.1.1.3 ID3實現舉例
信息熵公式。
天氣預報舉例:根據天氣判斷能不能出去玩。
分支選擇:
首先是我們能夠根據“規則”來判斷哪些天氣能夠出去玩,yes or no。
在任何初始樹創建之前,我們是知道訓練樣本由9個yes和5個no。
初始的信息熵為:
再算出訓練樣本中各個天氣屬性的熵,這里以outlook為例:
選擇熵減少最多(初始熵-各個各個天氣屬性的熵)的屬性作為第一個分支,因為我們的目的是熵減,熵減少越多我們得到的信息就越多,我們最后就能得到一個比較好的判斷系統。
這里以熵減少最多的outlook為例:
建立分支
繼續分裂,我們現在要在sunny,overcast,rainy下繼續分支,依然按照第一個分支所遵循的熵減最多規則。這里以sunny為例:就是所以天氣屬性為sunny的樣本為一個數據集,對其進行如1-3步驟的處理。
1.1.1.4 剪枝問題
在ID3算法中,計算信息增益時,由于信息增益存在一個內在偏置,它偏袒具有較多值的屬性,太多的屬性值把訓練樣例分割成非常小的空間。因此,這個屬性可能會有非常高的信息增益,而且被選作樹的根結點的決策屬性,并形成一棵深度只為一級但卻非常寬的樹,這棵樹可以理想地分類訓練數據。但是這個決策樹對于測試數據的分類性能可能會相當差(泛化能力較差),因為它過分地完美地分割了訓練數據,不是一個好的分類器。
1.1.2 決策樹的特點
1.1.3 其他決策樹算法
1.1.4 決策樹特點
1.2 Bayesian
???? 話說貝葉斯是個牧師,這號人是相信上帝的,所以他的理論里會有一個先驗概率。
1.2.1 樸素貝葉斯
它與貝葉斯網絡的區別就是假定各個屬性之間是獨立的。
1.2.2 樸素貝葉斯舉例Na?ve Bayes Classifier (NB)
貝葉斯分類器的思路:就是用貝葉斯公式計算出測試樣本屬于各個類別的概率,然后選出概率最大的那個類別作為該測試樣本的類別。
一個實例:
1.2.3 樸素貝葉斯舉例Bayesian Decision
貝葉斯決策的前提:
貝葉斯決策是要事先知道我決策類型的概率分布的(例如正態分布,平均分布,指數分布)。
1.2.3.1 最小錯誤率貝葉斯決策
最小錯誤率貝葉斯決策的目標是希望決策的平均錯誤率盡可能小。
定義錯誤率:
舉例:假設一組訓練數據符合正態分布,即滿足貝葉斯決策的前提條件。
選擇xc為決策邊界(x>xc歸為1類,反之歸為2類,下同)的平均錯誤率:B+D+E+C
選擇xb為決策邊界的平均錯誤率:E+D+C
選擇xa為決策邊界的平均錯誤率:A+D+C+E
可以看到我們選擇xb為決策邊界比較合適。
1.2.3.2 最小風險貝葉斯決策
目的是希望平均損失最小,我們首先定義當判斷錯誤了之后的風險函數,風險函數的定義是至關重要的,這也是和最小錯誤率貝葉斯決策的區別。比如將有病誤判成無病的風險遠遠大于將無病誤判成有病,因為前者是人的生命健康,后者是錢。
決策函數:決策函數就是根據風險最小來選擇x的類別。
顯然,最小風險貝葉斯決策選取使得條件風險最小的決策,同時該決策也會使得總體風險最小。
1.2.4 樸素貝葉斯舉例Parameter Estimation
貝葉斯網絡也可以用于參數估計,首先數據符合的模型是已知的,只是其中的參數需要進一步估計確定。
最大似然估計的方法:
最大后驗估計的方法
貝葉斯參數估計:
1.3 Linear Regression
1.3.1 為何叫線性的
1.3.2 常見的基函數
1.3.3訓練方式:最小二乘法
1.3.4 解決過擬合
1.3 Logistic Regression(只有兩種類別)
邏輯回歸使用邏輯函數(兩種類別輸入進去得到的函數值相加等于1)和回歸模型將分類目標轉換成一個線性模型,返回值用于表示二分類問題中的概率。
這里我們用邏輯函數σ(x)=exex+1\sigma(x)=\frac {e^x}{e^x+1}σ(x)=ex+1ex?
對于邏輯回歸這種二分類問題,我們使用最大似然函數來進行參數的更新
線性回歸是擬合輸入向量 x 的分布,而邏輯回歸中的線性函數是在擬合決策邊界,它們的目標不一樣,但同屬于廣義線性模型 GLM(Generalized Linear Models),通過輸入值 x 結合線性權重來預測輸出值
總結
以上是生活随笔為你收集整理的模式识别与机器学习课程笔记——决策树和贝叶斯估计的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 多项式(polynomial)和 单项式
- 下一篇: 算法的时间与空间复杂度