深蓝学院的深度学习理论与实践课程:第一章
預備知識:
概念1:數學期望理解
在概率論和統計學中,數學期望(mean)(或均值,亦簡稱期望)是試驗中每次可能結果的概率乘以其結果的總和,是最基本的數學特征之一。它反映隨機變量平均取值的大小。
需要注意的是,期望值并不一定等同于常識中的“期望”——“期望值”也許與每一個結果都不相等。期望值是該變量輸出值的平均數。期望值并不一定包含于變量的輸出值集合里。
大數定律規定,隨著重復次數接近無窮大,數值的算術平均值幾乎肯定地收斂于期望值。
舉個例子會更好的理解:
假設你參與了一個擲骰子的游戲,游戲規定擲出1點可以獲得1元,2點可以獲得2元,以此類推。那么在這個游戲中,擲一次骰子的期望值是多少?每一個結果都有1/6的概率,因此期望值為:? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
大致一看,3.5元似乎是一個無效數據,畢竟你不可能擲一次骰子就獲得3.5元,但事實上,期望值是一個非常有用的參考數據,通過比較成本投入和期望收益,你就能知道做這件事是不是“值得”。比如,還是上述的擲骰子游戲,每玩一次需要繳納3元,你還玩嗎?(我是不玩了,因為每玩一把也就有可能才賺0.5元;我要一秒暴富,玩一個繳納1毛錢,期望是100萬的游戲,哈哈)當然,因為期望回報(3.5元)會高于游戲成本(3元)。這雖然并不代表你每一次玩都能保證賺到錢,但至少可以幫助你認清哪些事情值得冒險。
概率論里有一個與期望相關的定律叫做大數定律,即隨著實驗次數的增多,結果的平均值會越來越接近期望值。大數定律可以解釋很多問題,比如為什么賭場從長期來看總是掙錢:賭場內所有項目的概率都是有利于賭場老板的(出“老千”的賭客不考慮在內)。如果賭場的營業時間足夠長,吸引到下注人數也足夠多,那么賭場從賭桌賺到的錢肯定要比付出的多。
參考鏈接:https://www.sohu.com/a/303475017_120067885
概念2:極限
“極限”是數學中的分支——微積分的基礎概念,廣義的“極限”是指“無限靠近而永遠不能到達”的意思。數學中的“極限”指:某一個函數中的某一個變量,此變量在變大(或者變小)的永遠變化的過程中,逐漸向某一個確定的數值A不斷地逼近而“永遠不能夠重合到A”(“永遠不能夠等于A,但是取等于A‘已經足夠取得高精度計算結果)的過程中,此變量的變化,被人為規定為“永遠靠近而不停止”、其有一個“不斷地極為靠近A點的趨勢”。極限是一種“變化狀態”的描述。此變量永遠趨近的值A叫做“極限值”(當然也可以用其他符號表示)。
概念3:損失函數/代價函數/目標函數
損失函數用來評價模型的預測值和真實值不一樣的程度,損失函數越好,通常模型的性能越好。不同的模型用的損失函數一般也不一樣。
首先給出結論:損失函數和代價函數是同一個東西,目標函數是一個與他們相關但更廣的概念,對于目標函數來說在有約束條件下的最小化就是損失函數(loss function)。
代價函數cost function 與損失函數loss funciton?并不是完全相同的概念;
Andrew的解釋:
The loss function computes the error for a single training example; the cost function is the average of the loss funcitons of the entire training set。
loss(error) function 是單個樣例的損失/誤差;而 cost function 是對數據集整體的誤差描述,是選定參數 w 和 b 后對數據進行估計所要支付的代價,cost 是對所有數據的誤差取平均得到的。
個人理解:
Loss Function(損失函數) 是定義在單個樣本上的,算的是一個樣本的誤差。
Cost Function(代價函數) 是定義在整個訓練集上的,是所有樣本誤差的平均,也就是損失函數的平均。
Object Function(目標函數 )定義為:Cost Function + 正則化項。
矩陣的逆計算
三種方法:
1、初等變換
(下面我們介紹如何通過初等(行)變換來求逆矩陣)
首先,寫出增廣矩陣A|E,即矩陣A右側放置一個同階的單位矩陣,得到一個新矩陣。
1 2 1 0
-1 -3 0 1
然后進行初等行變換。依次進行
第1行加到第2行,得到
1 2 1 0
0 -1 1 1
第2行×2加到第1行,得到
1 0 3 2
0 -1 1 1
第2行×(-1),得到
1 0 3 2
0 1 -1 -1
2、伴隨矩陣
以下內容是知乎:四種方法
https://www.zhihu.com/question/345971704/answer/823964140
矩陣的冪計算
有下面三種情況:
1、如果你所要求的是一般矩陣的高次冪的話,是沒有捷徑可走的,只能夠一個個去乘出來。
至于低次冪,如果能夠相似對角化,即:存在簡便算法的話,在二階矩陣的情況下簡便算法未必有直接乘來得快,所以推薦直接乘。
2、如果你要求的是能夠相似對角化的矩陣的高次冪的話,是存在簡便算法的。
設要求矩陣A的n次冪,且A=Q^(-1)*Λ*Q,其中Q為可逆陣,Λ為對角陣。
即:A可以相似對角化。那么此時,有求冪公式:A^n=Q^(-1)*(Λ)^n*Q,而對角陣求n次方,只需要每個對角元素變為n次方即可,這樣就可以快速求出二階矩陣A的的高次冪。
3、如果矩陣可以相似對角化,求相似對角化的矩陣Q的具體步驟為:
求|λE-A|=0 (其中E為單位陣)的解,得λ1和λ2(不管是否重根),這就是Λ矩陣的對角元素。(也就是特征值)
(依次把λ1和λ2帶入方程(如果λ是重根只需代一次,就可求得兩個基礎解)[λE-A][x]=[0],求得兩個解向量[x1]、[x2],從而矩陣Q的形式就是[x1 x2]。(也就是特征向量組成的矩陣)
示例1:
示例2:
正態分布/高斯分布
正態曲線呈鐘型,兩頭低,中間高,左右對稱因其曲線呈鐘形,因此人們又經常稱之為鐘形曲線。
若隨機變量X服從一個數學期望為μ、方差為σ2的正態分布,記為N(μ,σ2)。其概率密度函數為正態分布的期望值μ決定了其位置,其標準差σ決定了分布的幅度。當μ = 0,σ = 1時的正態分布是標準正態分布。
指數分布
(參見馬同學的最小二乘法:https://www.matongxue.com/madocs/818)
(參見馬同學的泊松分布:https://www.matongxue.com/madocs/858/)
極大似然估計
(待定)
中心極限定理
(待定)
Jensen不等式
(待定)
梯度下降
參見博客:https://blog.csdn.net/m0_37957160/article/details/113625507
總結
以上是生活随笔為你收集整理的深蓝学院的深度学习理论与实践课程:第一章的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习中的梯度下降( Gradient
- 下一篇: 深蓝学院的深度学习理论与实践课程:第二章