當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习——PAC

發布時間：2024/3/12 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习——PAC 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

一、數據壓縮
二、可視化
三、PAC問題規劃1
四、PAC問題規劃2
五、主成分數量選擇
六、應用PAC的建議

提示：本文是基于吳恩達老師機器學習視頻總結

一、數據壓縮

降維首先是可以用于數據壓縮的，例如將2維數據降維成一維數據，如下圖所示：

二、可視化

降維還可以將原本無法可視化的數據通過降維從而進行可視化。
如下圖是各國的各項數據，因為特征較多，因此無法進行可視化：

將這50維的數據壓縮為2維，之前需要一個向量中50個實數表示一個國家，想在只需要2個實數。

三、PAC問題規劃1

我們直觀的看一下PAC的效果。

假設我們已經通過算法選擇了要投影的線是橙色那條，那么我們可以用藍色的線繪制出它的投影誤差，我們要做的其實就是時投影誤差盡可能地小。
為了作出對比，我們繪制了下面一條粉紅色的線，可以見到它的投影誤差則是比較大的。

假如我們想從2維壓縮成1維：那么就需要找到一個向量（方向沒有關系），使得數據的投影誤差最小。
進行推廣，我們可以得到多維壓縮的定義。假如我們想從n維壓縮成k維：那么就需要找到k個向量u(1)、u(2)、…、u(k)，使得數據的投影誤差最小。

上圖是展示了線性回歸和PCA的區別，如圖所示：（左圖代表線性回歸，右圖代表PCA）

四、PAC問題規劃2

在我們進行PCA處理前，我們首先需要對數據進行預處理。
其中我們需要將數據進行均值歸一化（歸一化問題可以看這篇文章），也就是進行下列操作：

下面介紹具體如何使用PCA算法：
現在假設我們需要將n維度的數據降成k維度
1、首先要先計算出協方差，具體表達式如下：（其中σ是一個n*n的矩陣）

2、通過SVD函數計算出協方差σ的特征向量

3、我們需要使用的是U矩陣（n*n的矩陣），如下圖所示

4、因為我們想降至k維，因此我們就要從U矩陣中取出u₍₁₎~ u_(k) ，從而構建新的矩陣(n*k的矩陣)，稱為U_reduce

5、最后我們要將n維的x降成k維的z,其中z=(U_reduce)^TX

五、主成分數量選擇

在利用PCA算法的時候，我們需要確定降至的維度k，這個k同樣也被稱為數據主要成分的數量或者數據的主要成分保留的數量，這一小節就來討論一下如何選擇k。
PCA算法主要做的工作就是最小化average squard projection error，也就是要最小化下面這個表達式：

同時，我們還需要定義total variation（可以理解為樣本和全零點之間的舉例），也就是下面這個表達式:

當我們想要選擇k時，通用的原則是選擇下面不等式成立的最小k，如下所示：

并且，我們也可以調整0.01這個數字來調整被保留的完整性。上式就表示百分之99的方差被保留了下來。

下面介紹如何完成k選擇的算法：

1.我們從k=1開始，使用PCA算法計算這些值
2.然后檢查不等式是否成立
3.如果不成立就換k=2，k=3，…，如此繼續。假設到k=17時成立了，那么就選擇k=17

如此可見，上面這個算法比較麻煩，好在svd方法提供了簡便的計算方式。

1.首先我們通過svd算法得到相應的矩陣

2.S矩陣是一個對角矩陣，只有對角線上的數字非零

3.然后我們就開始計算過程，我們可以用下面的表達式代替計算之前的不等式。假設我們計算k=3，分子就是S11、S22、S33求和，分母是全部對角線元素求和。我們要檢查的就是它是否小于等于0.01，同樣是選擇能夠滿足不等式的最小k

如果這樣做，你就只需要調用一次svd，節省了許多時間

六、應用PAC的建議

下面則是介紹了PCA算法在較少數據維度的應用,如下圖所示：

基本思想：將原本高維度的數據x降至低維度的z，然后采用z建立模型進行訓練。

需要特別注意以下幾個方面：
1、PCA算法只能運行在訓練集上，在交叉驗證集或測試集中同樣也是使用訓練集建立的映射。（也就是在后面進行預測時要使用測試集計算出來的Ureduce）
2、不要使用PCA去防止過擬合，因此PCA可能會損失一些重要的特征，使用正則化的方法去防止過擬合更有效果
3、如果能夠在不使用PCA的情況下計算得到結果，那么就不要使用PCA。如果沒辦法計算得到（運行性太慢等等情況），再使用PCA。