机器学习笔记:梯度下降
1 梯度下降介紹
?我們首先隨機一個點,然后沿著梯度方向的反方向尋找最低點
?迭代多次,直到找到局部最優(也有可能是全局最優)【線性回歸問題里面,局部最優就是全局最優了】
多個參數同理,分別進行梯度下降
2.1 梯度與Hessian矩陣
?梯度為0的時候,不一定是local minimum。他還可能是local maxinum 和鞍點,那么,怎么判斷是不是local minimum呢?
我們類比一元二次方程a的正負和上下開口的問題,考慮二階導(hessian矩陣)
| local min | hessian矩陣半正定 | |
| local max | hessian矩陣半負定 | |
| 鞍點 | hessian矩陣既不半正定也不半負定 |
2??梯度下降可能存在的問題
????????我們可能會找到鞍點,可能會找到局部最優,而且從不同位置出發,可能最終梯度下降的結果會有很大的區別
????????
3 梯度下降小tips
3.1?合理調整學習率
pytorch筆記:調整學習率(torch.optim.lr_scheduler)_UQI-LIUWJ的博客-CSDN博客
?3.2 特征縮放
????????當我們面對多維度特征問題的時候,我們需要保證這些特征都有相近的尺度,這樣會幫助梯度下降更快地收斂。
????????
? ? ? ? 以上圖為例,圖像非常扁平,梯度下降算法需要非常多次的迭代才能夠收斂
? ? ? ? 為了更快地收斂,我們將所有特征的尺度放縮到-1~1之間:
?
4 梯度下降原理
4.1 泰勒級數
我們可以用這種方式來近似函數f(x)
用求和的方式來寫,有:
4.1.1 用于函數近似的泰勒級數
?換言之,泰勒級數越靠后的項,越小。
因此,出于近似考慮,我們可以只考慮最初的兩項:
?4.1.2 多變量的泰勒近似
?4.2 梯度下降的理論,
?||v||是一樣的,所以我們的目標就是找的最小值
????????可以看成是向量和向量v的內積。那么什么時候內積的結果最小呢?就是
v=的時候
總結
以上是生活随笔為你收集整理的机器学习笔记:梯度下降的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习笔记:岭回归(L2正则化)
- 下一篇: 文巾解题 56. 合并区间