深度学习基础知识_数学基础(学习笔记)
線性代數
向量、矩陣、矩陣計算,矩陣的秩,范數
了解更多可以參考: 嗶哩嗶哩: 曉之車高山老師 https://space.bilibili.com/138962930/channel/collectiondetail?sid=31387
1. 基本概念
- 標量(scalar)(0階張量):一個標量就是一個單獨的數
- 向量(vactor)(1階張量):一個向量就是一列數
- 矩陣(matrix)(2階張量):矩陣是一個二維數組,其中的每一個元素被兩個索引(而非一個)所確定
- 張量(tensor):坐標超過兩維的數組
2. 矩陣運算
- 轉置:行變列,列變行
(1) 矩陣加法:
- 兩個相同大小的矩陣,對應元素相加
(2) 矩陣乘法
結果中的aij=A的i行和B的j列對應相乘再相加
注:矩陣和自己不能直接相乘,需要對其中一個轉置一下
(3) 逆矩陣運算
參考:https://www.bilibili.com/read/cv2920478
- 逆矩陣是什么:設A是數域上的一個n階矩陣,若在相同數域上存在另一個n階矩陣B,使得: AB=BA=E ,則我們稱B是A的逆矩陣,而A則被稱為可逆矩陣。注:E為單位矩陣
- 逆矩陣的求法:待定系數法、 伴隨矩陣法、 初等變換法
例子:求下面三階矩陣的逆矩陣
A=(1?4?31?5?3?164)\mathrm{A}=\left( \begin{matrix} 1& -4& -3\\ 1& -5& -3\\ -1& 6& 4\\ \end{matrix} \right) A=???11?1??4?56??3?34????
待定系數法求逆矩陣
待定系數法顧名思義是一種求未知數的方法。將一個多項式表示成另一種含有待定系數的新的形式,這樣就得到一個恒等式。然后根據恒等式的性質得出系數應滿足的方程或方程組,其后通過解方程或方程組便可求出待定的系數,或找出某些系數所滿足的關系式,這種解決問題的方法叫做待定系數法。
伴隨矩陣法求逆矩陣
A?1=1∣A∣A?\mathrm{A}^{-1}\,\,=\,\,\frac{1}{|\mathrm{A}|}\mathrm{A}^* A?1=∣A∣1?A?
其中|A|≠0,|A|為該矩陣對應的行列式的值
(1)二階行列式:主對角線元素積與副對角線元素積的差
D=∣a11a12a21a22∣=a11a22?a12a21\mathrm{D}=\left| \begin{matrix} \mathrm{a}_{11}& \mathrm{a}_{12}\\ \mathrm{a}_{21}& \mathrm{a}_{22}\\ \end{matrix} \right|=\mathrm{a}_{11}\mathrm{a}_{22}-\mathrm{a}_{12}\mathrm{a}_{21} D=∣∣?a11?a21??a12?a22??∣∣?=a11?a22??a12?a21?
(2)三階行列式:依然叫“對角線法則”,但更復雜
∣xyzrstabc∣=xsc+rbz+yta?zsa?yrc?tbx\left| \begin{matrix}{} \mathrm{x}& \mathrm{y}& \mathrm{z}\\ \mathrm{r}& \mathrm{s}& \mathrm{t}\\ \mathrm{a}& \mathrm{b}& \mathrm{c}\\ \end{matrix} \right|=\mathrm{xsc}+\mathrm{rbz}+\mathrm{yta}-\mathrm{zsa}-\mathrm{yrc}-\mathrm{tbx} ∣∣?xra?ysb?ztc?∣∣?=xsc+rbz+yta?zsa?yrc?tbx
(3)多階行列式:行列式等于其任意某行(或某列)的各元素與其對應代數余子式乘積之和
A=(1?4?31?5?3?164)\mathrm{A}=\left( \begin{matrix} 1& -4& -3\\ 1& -5& -3\\ -1& 6& 4\\ \end{matrix} \right) A=???11?1??4?56??3?34????
初等變換法求逆矩陣
一般采用的是初等行變換
- 初等行變換是指以3種變換:
① A(i,j) → 交換 i ,j 兩行
② A(i(k)) → 第 i 行乘以 k 得到
③ A(i,j(k)) → 第 j 行乘 k 加到第 i 行得到 - 先引入兩個概念:
- 行階梯矩陣:
- 全0行都在矩陣的底部
- 每行最左邊首個非零元素嚴格的比上面系數靠右
- 首項系數所在列,在首項系數下面元素都是0
- 行最簡矩陣
在行階梯矩陣的基礎上,非零行的第一個非零單元為1,且這些非零單元所在的列其他元素都是0 - 可以證明:任意一個矩陣經過一系列初等行變換總能變成行階梯型矩陣
- 方法是一般從左到右,一列一列處理先把第一個比較簡單的(或小)的非零數交換到左上角(其實最后變換也行),用這個數把第一列其余的數消成零處理完第一列后,第一行與第一列就不用管,再用同樣的方法處理第二列(不含第一行的數)
- 行階梯矩陣:
- 例題的初等行變換解法:
3. 矩陣的秩
- 在線性代數中,一個矩陣A的列(行)秩是A的線性獨立的縱列(橫行)的極大數目。即如果把矩陣看成一個個行向量或者列向量,秩就是這些行向量或者列向量的秩,也就是極大無關組中所含向量的個數。
- 求法: 用初等行變換把矩陣變成行階梯形矩陣,行階梯形矩陣中非零行的行數就是該矩陣的秩
- 矩陣A的秩(Rank) 記為r(A)
- 舉例:
- r(A) = 0的矩陣, 零矩陣
- r(A) = 1的矩陣, 各行和各列成正比, 行向量和列向量的秩也是1
- r(A) = 0的矩陣, 零矩陣
4. 特征值和特征向量
A是n階方陣, 對于一個數λ, 存在非零列向量α, Aα = λα
則λ叫特征值, α叫特征向量, 且是對應于λ的特征向量
λ可以為0, 特征向量不能為0
實對稱矩陣的不同特征值對應的特征向量是正交的
矩陣乘法即線性變換——對向量進行旋轉和長度伸縮,效果與函數相同;
特征向量指向只縮放不旋轉的方向;
特征值即縮放因子;
參考: https://zhuanlan.zhihu.com/p/353774689
5. 范數
向量范數,總體來講,為表示向量長度的一種函數,為向量空間的所有向量賦予非零長度。
微積分基礎
導數、梯度、泰勒展開
1. 導數
- 導數:曲線的斜率,反映曲線變化的快慢
f′(x0)=lim?△x→0f(x0+△x)?f(x0)△x\mathrm{f}^{\mathrm{'}}\left( \mathrm{x}_0 \right) =\underset{\bigtriangleup \mathrm{x}\rightarrow 0}{\lim}\frac{\mathrm{f}\left( \mathrm{x}_0+\bigtriangleup \mathrm{x} \right) -\mathrm{f}\left( \mathrm{x}_0 \right)}{\bigtriangleup \mathrm{x}} f′(x0?)=△x→0lim?△xf(x0?+△x)?f(x0?)? - 常見函數的導數
- 高階導數:導數的繼續求導
- 偏導數:關于其中一個變量的導數,而保持其他變量固定
2. 梯度
-
一個函數對每一個自變量分別求偏導,這些偏導所構成的列向量就是梯度
注:連續可微是指函數可以求導且導函數連續 -
梯度的方向是函數在該點變化最快的方向
-
梯度的維度和x分量的個數相同
-
舉例
3. 泰勒公式
- 泰勒公式是在局部,用一個多項式函數,近似地替代,一個復雜函數.
- 如何通俗地理解泰勒公式:https://www.zhihu.com/question/21149770
- 泰勒公式的靈魂是導數值,而非冪函數。在展開的這一點,泰勒展開式與f(x)的每一階導數值都完全相等。而這種“各階導數值相等”,揭示了多項式函數和它想要替代的復雜函數f(x)在「每一個維度上完全相同」的奇妙的事實
4. 矩陣微分
多元微積分的一種表達方式,即使用矩陣和向量來表示因變量每個成分關于自變量每個成分的偏導數。
5. 微分鏈式法則
概率與統計基礎
概率公式、常見分布、統計量
1. 概率公式
- 條件概率(后驗概率)
等號上面一個三角表示:定義為 - 貝葉斯公式(本質上也是條件概率)
2.1 一維隨機變量及其分布
(1)隨機變量
- 作用:把隨機事件統一化,數字化
- 例子:把拋硬幣為正面映射到數軸上的1
隨機變量是函數X=X(w);如圖所示:w的出現是有概率的,所以X的出現也是有概率的(其值隨機會而定,故叫隨機變量)
(2)分布函數
- 想用微積分做工具來研究隨機變量,但是,w是事件,無法求導之類的,所以引入分布函數
- 分布函數是概率
- 橫坐標小x,縱坐標p概率
- 橫坐標小x,縱坐標p概率
- 分布函數的性質
a. F(x)單調不減
b. 規定右連續:左空心,右實心,右極限值為函數值
c.
注:由a和c可得 0≤F(x)≤1,是有界函數 - 分布函數的應用:求概率
(3)離散型隨機變量和連續型隨機變量
- 離散型隨機變量及其概率分布x~pi(求和)
分布函數:步步高的階梯函數 - 連續性隨機變量及其概率分布x~f(x) (積分)
- 離散和連續的對比
- 連續性隨機變量在一點的事件是可能發生的 ,但是測不到,所以概率是0,左極限和右極限相等
2.2 常見分布
離散型(5個)
其中 0-1分布 和 二項分布 比較常見
也可以寫成:
- p ≠(1-p)的二項分布圖像
- p =(1-p)的二項分布圖像
k:欲知道概率的質點的個數,λ:強度
注:有時表示稀有概率發生的概率(青椒炒肉絲中肉絲有10根發生的概率,在食堂,λ0小,在家λ0大
4. 幾何分布,G(p),跟集合沒有關系,Ber-E∞,首中即停止
5. 超幾何分布H(n,N,M)古典概型的概率
連續型
接下來的分布都有自己的f(x),而不是pi(離散)了
- 一維幾何概型(8點到九點任意時刻進入教室具有等可能性)
- 概率密度函數:(PDF)
面積為1 - 分布函數:(CDF)
規定等號跟著大于號
f確定了可以確定F,F確定了,它的f不具有唯一性(可以在任意位置改成實心的,因為圖像上任意扣個點不影響面積,測不出來)
- 如果任何分布具有以下特征,則稱為正態分布:
- 分布的均值、中位數和眾數重合。
- 分布曲線呈鐘形,關于線 x=μ 對稱。
- 曲線下的總面積為 1。
- 恰好一半的值位于中心的左側,另一半位于右側。
- PDF(概率密度函數):
- 標準正態分布:均值為0,標準差為1
參考:https://www.analyticsvidhya.com/blog/2017/09/6-probability-distributions-data-science/#h2_4
3. Jensen不等式
- 凸函數:圖中的不等式是Jensen不等式的兩點形式
- Jensen不等式:上式的泛化形式
- 在概率論中的Jensen不等式:
- 把λi看成取值為xi的離散變量X的概率分布
如果 X 是隨機變量,g 是凸函數,則期望的函數 < 函數的期望
- 對于連續變量,Jensen不等式給出了積分的凸函數值和凸函數的積分值間的關系:
- 把λi看成取值為xi的離散變量X的概率分布
4. 大數定理
大數定理簡單來說,指的是某個隨機事件在單次試驗中可能發生也可能不發生,但在大量重復實驗中往往呈現出明顯的規律性,即該隨機事件發生的頻率會向某個常數值收斂,該常數值即為該事件發生的概率。
另一種表達方式為當樣本數據無限大時,樣本均值趨于總體均值。
因為現實生活中,我們無法進行無窮多次試驗,也很難估計出總體的參數。
大數定律告訴我們能用頻率近似代替概率;能用樣本均值近似代替總體均值
參考:https://zhuanlan.zhihu.com/p/77312635
5. 隨機過程
若一隨機系統的樣本點是隨機函數,則稱此函數為樣本函數,這一隨機系統全部樣本函數的集合是一個隨機過程。
實際應用中,樣本函數的一般定義在時間域或者空間域。隨機過程的實例如股票和匯率的波動、語音信號、視頻信號、體溫的變化,隨機運動如布朗運動、隨機徘徊等等。
6. 信息熵
- 信息熵越大,事件不確定性就越大
- 信息熵其實從某種意義上反映了信息量存儲下來需要多少存儲空間
- 根據真實分布,我們能夠找到一個最優策略,以最小的代價消除系統的不確定性(比如編碼),而這個代價的大小就是信息熵
參考:https://charlesliuyx.github.io/2017/09/11/%E4%BB%80%E4%B9%88%E6%98%AF%E4%BF%A1%E6%81%AF%E7%86%B5%E3%80%81%E4%BA%A4%E5%8F%89%E7%86%B5%E5%92%8C%E7%9B%B8%E5%AF%B9%E7%86%B5/
7. 統計學習和機器學習區別
- 統計學習:對歷史數據做關系分析
- 機器學習:對未來數據預測(基于統計學習,但同時解決統計學習的過擬合問題)
總結
以上是生活随笔為你收集整理的深度学习基础知识_数学基础(学习笔记)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 游戏音乐制作的硬件环境
- 下一篇: 对计算机会计上机课的心得,浅谈高职会计电