关于激励函数的一些思考
在學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的時候,會發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)中的各個神經(jīng)元代表的其實就一種運算,這=這種運算就是激勵函數(shù),激勵函數(shù)一般都是非線性的,為什么呢?
因為線性函數(shù)有一個特點,那就是線性函數(shù)的組合還是線性函數(shù),這也就以為這不論你所設(shè)計的神經(jīng)網(wǎng)絡(luò)有多深,多么復(fù)雜,只要里面用到的激勵函數(shù)是線性函數(shù),那么這些層層之間都是線性函數(shù)的一個組合,最終整個網(wǎng)絡(luò)依然是線性的,可以用一個矩陣來代替,跟只有一層網(wǎng)絡(luò)是沒有區(qū)別的,所以線性激勵函數(shù)的表達能力是有限的,不能描述現(xiàn)實生活中存在的大部分的問題,故我們采用非線性的激勵函數(shù),以下是神經(jīng)網(wǎng)絡(luò)中常用的幾種激勵函數(shù):
1、sigmod函數(shù)
? ?
sigmoid導(dǎo)數(shù)曲線:
sigmod函數(shù)有幾個特點:將輸入映射到區(qū)間(0,1),當(dāng)輸入偏離0附近的時候,輸出的變化非常緩慢,達到飽和,從sigmo函數(shù)的導(dǎo)數(shù)是一個區(qū)間(0,1)上的拋物線,當(dāng)sigmo函數(shù)的取值是1/2的時候,其導(dǎo)數(shù)達到最大值1/4.
根據(jù)這幾個特性就可以總結(jié)出來sigmo作為激勵函數(shù)的一些優(yōu)缺點。
優(yōu)點:1、將輸入映射到(0,1)上,這在一些分類問題中作為輸出,歸一化后就可以表征被分為該類的概率,會帶來一些計算上的方便。
? ? ? ? ? ?2、在整個定義域都是處處可導(dǎo)的,在梯度反向傳播的時候求導(dǎo)比較方便
缺點:收斂速度比較慢,原因是因為當(dāng)達到sigmoid的飽和區(qū)的時候,輸入的變化不會對輸出帶來什么影響,反過來也就是說sigmo函數(shù)在飽和區(qū)的導(dǎo)數(shù)非常小,在梯度反向傳播過程中會帶來梯度的大量衰減,從其導(dǎo)數(shù)的曲線上可以看出,其反向傳播過程中最多只能向前傳遞原梯度的1/4,那么再經(jīng)過神經(jīng)網(wǎng)絡(luò)的前一層傳遞,梯度傳遞減少至原梯度的1/16,整個呈指數(shù)級降低,所以對于神經(jīng)網(wǎng)絡(luò)中前面幾層的參數(shù)調(diào)整是非常有限的,這也就導(dǎo)致了整個神經(jīng)網(wǎng)絡(luò)的訓(xùn)練收斂速度非常慢。
2、tanh函數(shù)
tanh激勵函數(shù)實際上與sigmoid函數(shù)沒有本質(zhì)上的區(qū)別,最大的區(qū)別是tanh函數(shù)將輸入映射在了區(qū)間(-1,1)上,所以tanh作為激勵函數(shù)的優(yōu)點與缺點與sigmoid函數(shù)相同。
優(yōu)點:1、將輸入映射到(-1,1)上,在某些應(yīng)用中是比較想要的輸出
? ? ? ? ? ? 2、在整個定義域都是處處可導(dǎo)的,在梯度反向傳播的時候求導(dǎo)比較方便
缺點:收斂速度慢
但是tanh函數(shù)與sigmo函數(shù)相比,延遲了飽和區(qū)域,所以性能優(yōu)于sigmoid函數(shù)
3、RELU函數(shù)
在實際的應(yīng)用中使用最多的就是RELU函數(shù)作為激勵函數(shù),這要是因為RELU函數(shù)的較以上兩種激勵函數(shù)的一些優(yōu)勢:
? ? ? ? 1、計算簡單,只是一個閾值計算,不涉及指數(shù)運算
? ? ? ? 2、梯度損失比較小,收斂速度快,顯然當(dāng)輸入大于0時候,RELU的導(dǎo)數(shù)恒為1,整個梯度反向傳播過程中不會引起梯度的損失,但是當(dāng)輸入小于0的時候,輸出全部為0,這樣其實相當(dāng)于阻斷了一些網(wǎng)絡(luò)支路,其實也就相當(dāng)于引起特征的丟失,但是一般情況下特征量足夠多,所以影響并不大
? ? ? ? 3、因為RELU會使得輸入小于0的所有神經(jīng)元的輸出為0,這樣就促進了整個網(wǎng)絡(luò)的稀疏性,使得網(wǎng)絡(luò)更加的簡單,其實也就是與正則化的效果一直,從而延緩了網(wǎng)絡(luò)過擬合的速度。
? ? ? ? 4、更加符合生物意義上的神經(jīng)元結(jié)構(gòu)(雖然我并不懂啥意思。。。)
4、LeakyRELU函數(shù):
leakyRELU函數(shù)實際上是對于RELU函數(shù)的一種優(yōu)化,相比于RELU函數(shù)直接阻斷了一些小于0的特征,LeakyRELU函數(shù)考慮了這部分特征。
總結(jié)
以上是生活随笔為你收集整理的关于激励函数的一些思考的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python黑洞_史上第一张黑洞照片是用
- 下一篇: 梯度反向传播求解示例