正规方程的推倒
對于多元線性回歸:
當樣本由d個屬性描述時,此時試圖學得:f(xi)=wTxi+b
使得f(xi)?yi
類似的也可以利用最小二乘法來對w和b進行估計,為了便于討論,把w和b吸入向量形式a^=(w;b),相應的,把數據集D表示為一個m×(d+1)大小的矩陣X,其中每行對應于一個示例,該行前d個元素對應于示例的d個屬性值,最后一個元素恒置為1,即
再把標記也寫成向量形式 y=(y1;y2;?;ym)
此時需要衡量f(x)與y之間的差別,均方誤差是回歸任務中最常用的性能度量,因此可讓均方誤差最小化,即最小二乘法
(w?,b?)=argmin∑i=1m(f(xi)?yi)2
現在可以得到:
令 Ew^=(y?Xw^)T(y?Xw^), 對w^求導得到:
?Ew^?w^=2XT(Xw^?y)
當XTX為滿秩矩陣或正定矩陣時,令上式為0時,得到:
矩陣求導
得到參數后就得到正規方程了。
什么時候選擇正規方程
梯度下降特點:
選擇合適的學習速率α,通過不斷的迭代,找到W, 使得代價函數值最小
正規方程特點:
不需要選擇學習速率α,不需要n輪迭代,只需要一個公式計算即可
但是并不是所有的線性回歸都適合用正規方程,我們知道求解一個矩陣的逆復雜度為O(n3),因此當特征維度n非常大的時候(XT?X)?1需要O(n^3)時間,此時選擇正規方程效率將會特別低
當n < 1000時候選擇正規方程比較合適,但是當n > 1000的時候使用梯度下降算法會是更佳的方案
參考:《機器學習》-周志華
總結
- 上一篇: 中国人寿保单借款可以借几次
- 下一篇: 样本距离计算、向量范数、矩阵范数