當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

矩阵论思维导图_矩阵求导与矩阵微分

發布時間：2024/10/8 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了矩阵论思维导图_矩阵求导与矩阵微分小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

矩陣求導與矩陣微分

符號定義

? 使用大寫的粗體字母表示矩陣

? 使用小寫的粗體字母表示向量

，這里默認為列向量

? 使用小寫的正體字母表示標量

需要明白的是，矩陣求導的意義在哪來，我們回想一下函數求導的意義，最大的作用就是尋找極值，導數為0的位置就是函數極值位置，某個點的導數代表梯度下降的方向。

0.布局約定

? 當向量對于向量的求導的時候，通常會有兩種結果，出現不同結果的原因是所使用的的布局不同。通常布局(Layout)有兩種，分子布局(numerator layout)和分母布局(denominator layout)，簡單來說，兩種區別在于：

分子布局：分子為列向量或者分母為行向量
分母布局，分子為行向量或者分母為列向量

注意到分子布局與分母布局只是相差一個轉置。我們考慮的大多數問題都是以函數自變量為一個矩陣或者向量（我們使用列向量），函數值為一個數，采用分母布局，得到的結果的維度將于自變量相同，所以下面都采用分母布局。

1.課本上的定義

在開始之前，先看一下戴華老師的《矩陣論》里面關于矩陣微分的描述：

矩陣

的導數

? 矩陣

對的導數可以表示成:

函數對矩陣的導數

? 設

，元函數，定義對矩陣的導數為：

函數矩陣對矩陣的導數

? 設

，元函數定義函數矩陣：

對

的的導數如下：

其中

2.函數值為數

? 本節中我們考慮的問題是求

或者，說白了就是一些變量到一個數的函數映射，在該情況下，矩陣求導就是為了找到這些變量的具體的值，使得這個函數映射取得極值。

矩陣求導就為了尋找

。

2.1 通過定義求解例——最小二乘問題

? 以上我們知道了矩陣求導的定義，也明確了有兩種基本的布局，由于在本文中，我們求解的問題通常是函數值為一個數，自變量為矩陣，目的是求矩陣變化對函數值的影響，導數應該維度與自變量相同，所以采用分母布局。一個最經典的問題就是最小二乘問題。

? 最小二乘問題是為了求解方程

，其中，，。為了求解，映射到一個數，當滿足時候，這個數取極值。構造如下映射：

很顯然，這個數只有在滿足測量的情況下，取得極值0。求極值就需要求導，求

對于的導數有兩種方法，首先最簡單的一種就是寫成定義形式：

所以有：

其中：

上式展示的是導數的每一行，

的求和可以看成是兩個向量的內積，特別要注意，只利用的是分母布局，得到的是一個列向量，對于需要轉置，，，得到：

2.2 更簡單的解法——矩陣微分

? 可以看出，使用定義寫法非常麻煩，需要把每個分量都寫出來，而且特別容易出錯，有沒有更簡單的方法，那是肯定的，可以使用矩陣微分的方法。

因為這里面都是數，可以寫成：

可以更快得到最終結果。

? 該簡單的方法主要用到了矩陣微分的方法，矩陣微分主要有以下幾種：

加減乘運算，轉置，求跡：

求逆運算：

? 簡單證明：

哈達瑪積，也就是一般說的逐元素乘，即：

逐元素函數，其中

? 接下來將導數與微分聯系起來。我們先考慮對于一個二元函數

導數與微分的聯系：

對于一個函數矩陣

，類似的，有：

寫成矩陣形式就是：

注意到，如果矩陣降維成向量，上式子直接變成了

。

? 結合求跡的技巧，可以更加方便地計算求導:

標量求跡：
轉置：
線性：
乘法交換：

2.3 更多的例子

首先給出一個非常簡單的例子：
直接求跡，可以得到：，所以可以得到。

再給出一個更加復雜的例子，這個例子中會出現哈達瑪積：

計算其導數，有

這里利用了哈達瑪積的交換性，式子中的表示將向量變成對角矩陣。所以可以得到：

還有一些例子可以見知乎上大佬的文章：矩陣求導術（上）

寫在最后

? 本文簡單介紹了矩陣求導的一些相關計算方法，本文的主要目的是通過矩陣求導尋找極值問題，為了幫助大家梳理，我給出了以下思維導圖：

? 未完待續。。。

以后有機會我還會更新尋找極值的一些常見方法，主要包括梯度下降法和牛頓法。希望能夠幫到大家。

與50位技術專家面對面20年技術見證，附贈技術全景圖

總結

以上是生活随笔為你收集整理的矩阵论思维导图_矩阵求导与矩阵微分的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。