3.8 激活函数的导数-深度学习-Stanford吴恩达教授
| 3.7 為什么需要非線性激活函數 | 回到目錄 | 3.9 神經網絡的梯度下降法 |
激活函數的導數 (Derivatives of Activation Functions)
在神經網絡中使用反向傳播的時候,你真的需要計算激活函數的斜率或者導數。針對以下四種激活,求其導數如下:
1)sigmoid activation function
圖3.8.1
其具體的求導如下: 公式3.25:ddzg(z)=11+e?z(1?11+e?z)=g(z)(1?g(z))\fracze8trgl8bvbq{dz}g(z)=\frac{1}{1+e^{-z}}(1-\frac{1}{1+e^{-z}})=g(z)(1-g(z))dzd?g(z)=1+e?z1?(1?1+e?z1?)=g(z)(1?g(z))
注:
當 z=10z=10z=10 或 z=?10;ddzg(z)≈0z=-10;\fracze8trgl8bvbq{dz}g(z)\approx0z=?10;dzd?g(z)≈0
當 z=0,ddzg(z)=g(z)(1?g(z))=14z=0,\fracze8trgl8bvbq{dz}g(z)=g(z)(1-g(z))=\frac14z=0,dzd?g(z)=g(z)(1?g(z))=41?
在神經網絡中a=g(z);g(z)′=ddzg(z)=a(1?a)a=g(z);g(z)^{'}=\fracze8trgl8bvbq{dz}g(z)=a(1-a)a=g(z);g(z)′=dzd?g(z)=a(1?a)
2)Tanh activation function
圖3.8.2
其具體的求導如下: 公式3.26:g(z)=tanh(z)=ez?e?zez+e?zg(z)=tanh(z)=\frac{e^z-e^{-z}}{e^z+e^{-z}}g(z)=tanh(z)=ez+e?zez?e?z?
公式3.27: ddzg(z)=1?(tanh(z))2\fracze8trgl8bvbq{dz}g(z)=1-(tanh(z))^2dzd?g(z)=1?(tanh(z))2
注:
當 z=10z=10z=10 或 z=?10,ddzg(z)≈0z=-10,\fracze8trgl8bvbq{dz}g(z)\approx0z=?10,dzd?g(z)≈0
當 =0,ddzg(z)=1?(0)=1=0,\fracze8trgl8bvbq{dz}g(z)=1-(0)=1=0,dzd?g(z)=1?(0)=1
在神經網絡中;
3)Rectified Linear Unit (ReLU)
注:通常在 z=0z=0z=0 的時候給定其導數1,0;當然 z=0z=0z=0 的情況很少
4)Leaky linear unit (Leaky ReLU)
與ReLU類似
g(z)=max(0.01z,z)g(z)′={0.01ifz<01ifz>0undefinedifz=0g(z)=max(0.01z,z)\\ g(z)^{'}=\left\{ \begin{matrix} 0.01 & if\ z<0\\ 1 & if\ z>0\\ undefined & if\ z=0\\ \end{matrix} \right.g(z)=max(0.01z,z)g(z)′=????0.011undefined?if?z<0if?z>0if?z=0?
注:通常在 z=0z=0z=0 的時候給定其導數1,0.01;當然 z=0z=0z=0 的情況很少。
課程PPT
| 3.7 為什么需要非線性激活函數 | 回到目錄 | 3.9 神經網絡的梯度下降法 |
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀
總結
以上是生活随笔為你收集整理的3.8 激活函数的导数-深度学习-Stanford吴恩达教授的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 3.7 为什么需要非线性激活函数-深度学
- 下一篇: 3.9 神经网络的梯度下降法-深度学习-