當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

横论机器学习算法

發布時間：2024/4/17 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了横论机器学习算法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

摘要

主要是通過回歸（discrimination learning model）來對機器學習算法建立橫向連接，有助于對各類算法的理解和歸類。

儲備知識

從統計學角度來講，一個信號基本上可以分為兩個部分：系統性部分和隨機分布，系統性部分在我看來是傳達的某種規律性的信息，而隨機成分就是用來對信號中不能通過規律性的東西進行把握的部分。所以，一般來講都采用高斯分布進行建模。系統性的部分就是所謂的利用hypothesis建模得到的，而誤差e就是用來進行建模的基礎，用公式化的描述為：

y?h(x)=y?wTx：N(μ,σ)p(e)=12π??√exp(?e22σ2)p(y|x;θ)=12π??√exp(?（y?wTx）22σ2)

上面的概率公式叫做，給定x，以參數θ的y的概率分布。以上說明的是對一個數據集建模的部分和unmodeled effects，大部分的研究都可以從這個角度出發，通過假設建模誤差的概率分布，從概率角度入手，以似然函數的最大化為目標，通過梯度下降或者牛頓方法進行迭代搜索最優。

補充：梯度下降與牛頓方法是兩種非常常用的迭代優化方法，主要的思想就是通過迭代，一步一步地逼近最優解。梯度下降比較直觀，沿著梯度的反方向進行搜索，屬于典型的貪婪算法，迭代搜索的每一步都是當前最優的下降方向，但在全局看來可能并不是最優的下降曲線；而牛頓法則是通過分析極大和極小值處曲線的特性，通過求導，并使導數為0，構造典型的f(X)=0的優化形式，每一步都從該點處的切線位置與X軸（或平面）相交的處的X作為下一次迭代的搜索位置的X坐標（對應的y可以通過f(X)=0求得）。通常情況下牛頓法收斂速度比梯度下降方法要快。

對于線性回歸分析，通常是利用平方誤差最小化進行推導的，而它的另一種表達就是通過上面的概率解釋。通過求解似然函數最大化問題，照樣可以推導出平方誤差函數來（cost function）。

關于“記憶”

這里主要參考從統計學角度來看深度學習（3）：記憶和核方法，有關內容只屬于總結性質。
人們通過對以往的經驗或者數據的回憶來推斷未來的事物，這樣的過程可以用一個經常出現在最近文獻中的詞語——記憶來概括。機器學習模型都是由這樣的‘記憶’組成的。根據機器學習模型的種類，可以分為兩種主要的記憶機制，即參數型與非參數型（還包括了介于兩者之間的模型）。深度網絡作為參數記憶型模型的代表，它將統計特性從所觀察到的數據中以模型參數或者權重的方式提煉出來。而非參數模型中的典范則是核機器（以及最近鄰），它們的記憶機制是存儲所有數據。可以自然地認為，深度網絡與核方法是兩種原理不同的由數據推導結論的方法，但是實際上，我們研究出這些方法的過程卻表明它們之間有著更加深遠的聯系以及更基本的相似性。參數型的“記憶”是通過模型的參數將數據用簡潔的模型概括出來，這種形式的好處是：將數據的特性嵌入到一個hypothesis當中，擴展性良好。而非參數型的“記憶”是通過存儲所有的數據來實現記憶的，比如最近鄰方法，就是將觀測數據存起來，當輸入新的數據時，通過對比在“記憶”里與新數據的相似度，選擇最相近的那個樣本的輸出作為其輸出。
因此“橫論”主要包括兩個方法：深度網絡、核方法，但本質上卻相互聯系。

深度網絡

線性模型與廣義線性模型，實際上通過特征變化基函數，可以實現對特征的映射或者提取，而采用深度網絡在最后一層采用線性模型，而前面的所有層可以采用非線性映射的激活函數，可以自適應的找到更好的特征，而不必進行人為地設計。即將輸出層作為線性層與前面l?1層分開，同時用映射函數?(x;θ)來表示前面l?1層的映射結果，同時賦予最后一層權重為w，此模型參數空間為q={θ,w}。
利用前面預備知識中的概率模型，得到如下的表示：

系統性部分：f=wT?(x;θ)　ｑ～Ｎ(0,σ2qI),隨機性部分：y=f(x)+e　ｅ～N(0,σ2y)
這樣就可以設計似然概率，通過聯合概率分布取對數后取負數得到，最小化這個負的似然函數，可以采用最大后驗估計，通過BP算法獲得模型參數?！坝洃洝本屯ㄟ^這個模型參數框架被保留下來。

J(w)=12∑n=1m(yn?wT?(xn;θ))2+λ2wTw

核方法

繼續地，將上面那個目標函數，寫成它的dual問題，通過對w求導為0，得到它的對偶問題。

w=1λ∑n=1m(yn?wT?(xn))?(xn)w=∑n=1αn?(xn)=ΦTα????αn=?1λ(wT?(xn)?yn)
將所有的觀測值的基函數（特征）整合到了矩陣

Φ(x)中，將最后一層參數的解代入到損失函數中，我們就得到了由新參數

α構成的對偶損失函數，以及涉及矩陣相乘的格拉姆矩陣（Gram Matrix）

K=ΦΦT。重復之前的求導過程，解出對偶損失函數最小的優化參數

α:

α=(K+λIN)?1y
這里是核方法與神經網絡分道揚鑣的地方，僅僅需要考慮特征

?(x)的內積K，而不是采用深度網絡的非線性映射進行參數化地概括，所以可以采用核替代的方法，選擇一個合適的核函數來進行計算。所以，深度網絡與核方法具有很深的聯系，實際上是互為對偶問題的。所以“記憶”的機制已經轉變為非參數了，通過核矩陣顯示地刻畫了所有樣本點。核方法的優勢在于能更容易的獲得具有我們期望性質的函數，例如具有p階可微的函數或者周期函數，而這些性質是不太可能通過隨機逼近得到的。測試數據

x?的預測值也可以通過核函數的形式寫出:

f=wTMAP?(x?)=αTΦ(x)?(x?)=∑nαnk(x?,xn)=k(X,x?)T(K+λI)?1y
這個等式是由表示定理（Representer theorem）得出的解。

2015-8-24
藝少

轉載于:https://www.cnblogs.com/huty/p/8519211.html

總結

以上是生活随笔為你收集整理的横论机器学习算法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：附加数据库时出错。有关详细信息，请单击“
下一篇： matlab repmat()