机器学习——PAC
文章目錄
- 一、數據壓縮
- 二、可視化
- 三、PAC問題規劃1
- 四、PAC問題規劃2
- 五、主成分數量選擇
- 六、應用PAC的建議
提示:本文是基于吳恩達老師機器學習視頻總結
一、數據壓縮
降維首先是可以用于數據壓縮的,例如將2維數據降維成一維數據,如下圖所示:
二、可視化
降維還可以將原本無法可視化的數據通過降維從而進行可視化。
如下圖是各國的各項數據,因為特征較多,因此無法進行可視化:
將這50維的數據壓縮為2維,之前需要一個向量中50個實數表示一個國家,想在只需要2個實數。
三、PAC問題規劃1
我們直觀的看一下PAC的效果。
假設我們已經通過算法選擇了要投影的線是橙色那條,那么我們可以用藍色的線繪制出它的投影誤差,我們要做的其實就是時投影誤差盡可能地小。
為了作出對比,我們繪制了下面一條粉紅色的線,可以見到它的投影誤差則是比較大的。
假如我們想從2維壓縮成1維:那么就需要找到一個向量(方向沒有關系),使得數據的投影誤差最小。
進行推廣,我們可以得到多維壓縮的定義。假如我們想從n維壓縮成k維:那么就需要找到k個向量u(1)、u(2)、…、u(k),使得數據的投影誤差最小。
上圖是展示了線性回歸和PCA的區別,如圖所示:(左圖代表線性回歸,右圖代表PCA)
四、PAC問題規劃2
在我們進行PCA處理前,我們首先需要對數據進行預處理。
其中我們需要將數據進行均值歸一化 (歸一化問題可以看這篇文章),也就是進行下列操作:
下面介紹具體如何使用PCA算法:
現在假設我們需要將n維度的數據降成k維度
1、首先要先計算出協方差,具體表達式如下:(其中σ是一個n*n的矩陣)
2、通過SVD函數計算出協方差σ的特征向量
3、我們需要使用的是U矩陣(n*n的矩陣),如下圖所示
4、因為我們想降至k維,因此我們就要從U矩陣中取出u(1)~ u(k) ,從而構建新的矩陣(n*k的矩陣),稱為Ureduce
5、最后我們要將n維的x降成k維的z,其中z=(Ureduce)TX
五、主成分數量選擇
在利用PCA算法的時候,我們需要確定降至的維度k,這個k同樣也被稱為數據主要成分的數量或者數據的主要成分保留的數量,這一小節就來討論一下如何選擇k。
PCA算法主要做的工作就是最小化average squard projection error,也就是要最小化下面這個表達式:
同時,我們還需要定義total variation(可以理解為樣本和全零點之間的舉例),也就是下面這個表達式:
當我們想要選擇k時,通用的原則是選擇下面不等式成立的最小k,如下所示:
并且,我們也可以調整0.01這個數字來調整被保留的完整性。上式就表示百分之99的方差被保留了下來。
下面介紹如何完成k選擇的算法:
1.我們從k=1開始,使用PCA算法計算這些值
2.然后檢查不等式是否成立
3.如果不成立就換k=2,k=3,…,如此繼續。假設到k=17時成立了,那么就選擇k=17
如此可見,上面這個算法比較麻煩,好在svd方法提供了簡便的計算方式。
1.首先我們通過svd算法得到相應的矩陣
2.S矩陣是一個對角矩陣,只有對角線上的數字非零
3.然后我們就開始計算過程,我們可以用下面的表達式代替計算之前的不等式。假設我們計算k=3,分子就是S11、S22、S33求和,分母是全部對角線元素求和。我們要檢查的就是它是否小于等于0.01,同樣是選擇能夠滿足不等式的最小k
如果這樣做,你就只需要調用一次svd,節省了許多時間
六、應用PAC的建議
下面則是介紹了PCA算法在較少數據維度的應用,如下圖所示:
基本思想:將原本高維度的數據x降至低維度的z,然后采用z建立模型進行訓練。
需要特別注意以下幾個方面:
1、PCA算法只能運行在訓練集上,在交叉驗證集或測試集中同樣也是使用訓練集建立的映射。(也就是在后面進行預測時要使用測試集計算出來的Ureduce)
2、不要使用PCA去防止過擬合,因此PCA可能會損失一些重要的特征,使用正則化的方法去防止過擬合更有效果
3、如果能夠在不使用PCA的情況下計算得到結果,那么就不要使用PCA。如果沒辦法計算得到(運行性太慢等等情況),再使用PCA。
總結
- 上一篇: 没钱去巴西? 谷歌地图街景带你游览比赛场
- 下一篇: 临界区 互斥 事件 信标的区别