机器学习中的矩阵向量求导(三) 矩阵向量求导之微分法
在機器學習中的矩陣向量求導(二) 矩陣向量求導之定義法中,我們討論了定義法求解矩陣向量求導的方法,但是這個方法對于比較復雜的求導式子,中間運算會很復雜,同時排列求導出的結果也很麻煩。因此我們需要其他的一些求導方法。本文我們討論使用微分法來求解標量對向量的求導,以及標量對矩陣的求導。
本文的標量對向量的求導,以及標量對矩陣的求導使用分母布局。如果遇到其他資料求導結果不同,請先確認布局是否一樣。
1. 矩陣微分
在高數里面我們學習過標量的導數和微分,他們之間有這樣的關系:df=f′(x)dxdf=f′(x)dx。如果是多變量的情況,則微分可以寫成:
df=∑i=1n?f?xidxi=(?f?x)Tdxdf=∑i=1n?f?xidxi=(?f?x)Tdx
從上次我們可以發現標量對向量的求導和它的向量微分有一個轉置的關系。
現在我們再推廣到矩陣。對于矩陣微分,我們的定義為:
df=∑i=1m∑j=1n?f?XijdXij=tr((?f?X)TdX)df=∑i=1m∑j=1n?f?XijdXij=tr((?f?X)TdX)
其中第二步使用了矩陣跡的性質,即跡函數等于主對角線的和。即
tr(ATB)=∑i,jAijBijtr(ATB)=∑i,jAijBij
從上面矩陣微分的式子,我們可以看到矩陣微分和它的導數也有一個轉置的關系,不過在外面套了一個跡函數而已。由于標量的跡函數就是它本身,那么矩陣微分和向量微分可以統一表示&#
總結
以上是生活随笔為你收集整理的机器学习中的矩阵向量求导(三) 矩阵向量求导之微分法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习中的矩阵向量求导(二) 矩阵向量
- 下一篇: 机器学习中的矩阵向量求导(四) 矩阵向量