《Neural network and deep learning》学习笔记(一)
生活随笔
收集整理的這篇文章主要介紹了
《Neural network and deep learning》学习笔记(一)
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
Using neural nets to recognize handwritten digits
Learning with gradient descent
對(duì)于一個(gè)網(wǎng)絡(luò),它的代價(jià)函數(shù):
C(w,b)≡12n∑x∥y(x)?a∥2其中,w和b為權(quán)重和偏置,n為輸入樣本總數(shù),y(x)為輸入樣本x所屬的類別,也就是groundtruth,a為經(jīng)過網(wǎng)絡(luò)計(jì)算后得到的向量。另外,C可以稱作是二次代價(jià)函數(shù),或者均方誤差(MSE)。
我們要做的就是盡可能找到一組權(quán)重和偏置(w,b)來最小化代價(jià)函數(shù),也就是說讓預(yù)測值越接近groundtruth越好。訓(xùn)練算法采用梯度下降法(gradient descent)。
最小化 C(v),而 v=v1,v2,…,其中用 v來表示w和b。假設(shè)代價(jià)函數(shù)C有兩個(gè)分量,v1和v2
我們要做的就是找到曲面的最低點(diǎn),因此要得到C的梯度信息。
ΔC≈?C?v1Δv1+?C?v2Δv2
注意啊,這里是變化值,不是梯度啊!
然后將上式中的導(dǎo)數(shù)部分提出來作為一個(gè)向量有: (?C?v1,?C?v2)T,那么有: ?C≡(?C?v1,?C?v2)T 注意這里就是梯度信息了啊! 然后 v1和v2也提出來作為一個(gè)向量: Δv≡(Δv1,Δv2)T,然后見證奇跡的時(shí)刻到了! ΔC≈?C?Δv 再然后令 Δv=?η?C,得到: ΔC≈?η?C??C=?η|?C|2 其中, η就是所謂的學(xué)習(xí)率啦(learning rate)。這樣,由于 ∥?C∥2≥0,而且 η為正數(shù),那么就保證了 ΔC≤0。 v→v′=v?η?C 按照這種方式逼近全局最小值。
關(guān)于learning rate的選取,如果過大會(huì)導(dǎo)致 ΔC>0,如果過小就會(huì)導(dǎo)致 Δv變化的太慢。
總結(jié)
以上是生活随笔為你收集整理的《Neural network and deep learning》学习笔记(一)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 博客积分规则 博客等级
- 下一篇: java naive方法_朴素贝叶斯方法