矩阵论思维导图_矩阵求导与矩阵微分
矩陣求導與矩陣微分
符號定義
? 使用大寫的粗體字母表示矩陣
? 使用小寫的粗體字母表示向量
,這里默認為列向量? 使用小寫的正體字母表示標量
需要明白的是,矩陣求導的意義在哪來,我們回想一下函數求導的意義,最大的作用就是尋找極值,導數為0的位置就是函數極值位置,某個點的導數代表梯度下降的方向。
0.布局約定
? 當向量對于向量的求導的時候,通常會有兩種結果,出現不同結果的原因是所使用的的布局不同。通常布局(Layout)有兩種,分子布局(numerator layout)和分母布局(denominator layout),簡單來說,兩種區別在于:
- 分子布局:分子為列向量或者分母為行向量
- 分母布局,分子為行向量或者分母為列向量
注意到分子布局與分母布局只是相差一個轉置。我們考慮的大多數問題都是以函數自變量為一個矩陣或者向量(我們使用列向量),函數值為一個數,采用分母布局,得到的結果的維度將于自變量相同,所以下面都采用分母布局。
1.課本上的定義
在開始之前,先看一下戴華老師的《矩陣論》里面關于矩陣微分的描述:
矩陣
的導數? 矩陣
對的導數可以表示成:函數對矩陣的導數
? 設
,元函數,定義對矩陣的導數為:函數矩陣對矩陣的導數
? 設
,元函數定義函數矩陣:對
的的導數如下:其中
2.函數值為數
? 本節中我們考慮的問題是求
或者,說白了就是一些變量到一個數的函數映射,在該情況下,矩陣求導就是為了找到這些變量的具體的值,使得這個函數映射取得極值。矩陣求導就為了尋找
。2.1 通過定義求解例——最小二乘問題
? 以上我們知道了矩陣求導的定義,也明確了有兩種基本的布局,由于在本文中,我們求解的問題通常是函數值為一個數,自變量為矩陣,目的是求矩陣變化對函數值的影響,導數應該維度與自變量相同,所以采用分母布局。一個最經典的問題就是最小二乘問題。
? 最小二乘問題是為了求解方程
,其中,,。為了求解,映射到一個數,當滿足時候,這個數取極值。構造如下映射:很顯然,這個數只有在滿足測量的情況下,取得極值0。求極值就需要求導,求
對于的導數有兩種方法,首先最簡單的一種就是寫成定義形式:所以有:
其中:
上式展示的是導數的每一行,
的求和可以看成是兩個向量的內積,特別要注意,只利用的是分母布局,得到的是一個列向量,對于需要轉置,,,得到:2.2 更簡單的解法——矩陣微分
? 可以看出,使用定義寫法非常麻煩,需要把每個分量都寫出來,而且特別容易出錯,有沒有更簡單的方法,那是肯定的,可以使用矩陣微分的方法。
因為這里面都是數,可以寫成:
可以更快得到最終結果。
? 該簡單的方法主要用到了矩陣微分的方法,矩陣微分主要有以下幾種:
- 加減乘運算,轉置,求跡:
- 求逆運算:
? 簡單證明:
- 哈達瑪積,也就是一般說的逐元素乘,即:
- 逐元素函數,其中
? 接下來將導數與微分聯系起來。我們先考慮對于一個二元函數
導數與微分的聯系:對于一個函數矩陣
,類似的,有:寫成矩陣形式就是:
注意到,如果矩陣降維成向量,上式子直接變成了
。? 結合求跡的技巧,可以更加方便地計算求導:
- 標量求跡:
- 轉置:
- 線性:
- 乘法交換:
2.3 更多的例子
直接求跡,可以得到:,所以可以得到。
計算其導數,有
這里利用了哈達瑪積的交換性,式子中的表示將向量變成對角矩陣。所以可以得到:寫在最后
? 本文簡單介紹了矩陣求導的一些相關計算方法,本文的主要目的是通過矩陣求導尋找極值問題,為了幫助大家梳理,我給出了以下思維導圖:
? 未完待續。。。
以后有機會我還會更新尋找極值的一些常見方法,主要包括梯度下降法和牛頓法。希望能夠幫到大家。
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的矩阵论思维导图_矩阵求导与矩阵微分的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 什么食物好吃又不长胖?
- 下一篇: 尊宝披萨中尊宝这什么意思?