當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

PyTorch教程（八）：常见激活函数与Loss的梯度

發(fā)布時間：2024/9/18 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了 PyTorch教程（八）：常见激活函数与Loss的梯度小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

如果不用激活函數(shù)，每一層輸出都是上層輸入的線性函數(shù)，無論神經(jīng)網(wǎng)絡(luò)有多少層，輸出都是輸入的線性組合，這種情況就是最原始的感知機(jī)。

如果使用的話，激活函數(shù)給神經(jīng)元引入了非線性因素，使得神經(jīng)網(wǎng)絡(luò)可以任意逼近任何非線性函數(shù)，這樣神經(jīng)網(wǎng)絡(luò)就可以應(yīng)用到眾多的非線性模型中。

上圖就是一個最簡單的激活函數(shù)，當(dāng) $∑i=0N>0\sum_{i=0}^N>0$ 時節(jié)點才會激活。
但是這個激活函數(shù)有一個問題是不可導(dǎo)，在 $∑i=0N=0\sum_{i=0}^N=0$ 處是處于不連續(xù)的情況下，因此不可以求導(dǎo)，因此這個函數(shù)無法直接使用梯度下降的方式來優(yōu)化，當(dāng)時使用了啟發(fā)式搜索的方式來求解單層感知機(jī)最優(yōu)解的情況。

為了解決單層激活函數(shù)階梯不可導(dǎo)的情況，科學(xué)家提出了sigmoid函數(shù)(Logistic函數(shù))：
$=\sigma(x)= \frac{1}{1+e^{-x}}$

當(dāng) $\to \infty$ 時， $\to 1$ ，當(dāng) $\to -\infty$ 時， $\to 0$ 。而且可以看出倒數(shù)是連續(xù)可導(dǎo)的。

實際上sigmoid激活函數(shù)使用的非常多，最主要的是因為它連續(xù)光滑，而且值壓縮在(0,1)的范圍內(nèi)，我們很多時候都需要(0,1)這樣一個范圍，比如概率和RGB。

但是sigmoid存在一個致命的權(quán)限，當(dāng) $\to \infty$ 和 $\to -\infty$ 時，導(dǎo)數(shù)都為0，因此當(dāng)值處在這部分區(qū)間時，參數(shù) $θ′=θ??=θ?0=θ\theta'=\theta-\nabla=\theta-0=\theta$ 長時間得不到更新，出現(xiàn)梯度離線現(xiàn)象。

sigmoid在PyTorch實現(xiàn)

import torchz = torch.linspace(-100,100,10) # tensor([-100.0000, -77.7778, -55.5556, -33.3333, -11.1111, 11.1111, # 33.3333, 55.5556, 77.7778, 100.0000])torch.sigmoid(z) # tensor([0.0000e+00, 1.6655e-34, 7.4564e-25, 3.3382e-15, 1.4945e-05, 9.9999e-01, # 1.0000e+00, 1.0000e+00, 1.0000e+00, 1.0000e+00])

或者使用from torch.nn import functional as F的方式：

from torch.nn import functional as FF.sigmoid(z) # tensor([0.0000e+00, 1.6655e-34, 7.4564e-25, 3.3382e-15, 1.4945e-05, 9.9999e-01, # 1.0000e+00, 1.0000e+00, 1.0000e+00, 1.0000e+00])

可以看出當(dāng) $z = ? 100$ 的時候，sigmoid的值已經(jīng)是非常小的了，接近于0了；當(dāng) $z = 100$ 的時候，sigmoid的值也接近于0了

Tanh激活函數(shù)

Tanh激活函數(shù)在RNN中用的比較多。
$tanh(x)=\frac{e^x-e^{-x}}{(e^x+e^{-x})}=2sigmoid(2x)-1$

所以Tanh的取值范圍是(-1,1)。

z = torch.linspace(-1,1,10) torch.tanh(z) #tensor([-0.7616, -0.6514, -0.5047, -0.3215, -0.1107, 0.1107, 0.3215, 0.5047, # 0.6514, 0.7616])

Rectified Linear Unit (ReLU)激活函數(shù)

非常簡單，但是可以說是現(xiàn)在深度學(xué)習(xí)的奠基石的激活函數(shù)。現(xiàn)在深度學(xué)習(xí)使用最多的激活函數(shù)就是ReLU激活函數(shù)。

$f(x)={0for?x<0x,x≥0f(x)=\begin{cases} 0 & \text {for x<0} \\ x, & \text{x}\geq 0 \end{cases}$

ReLU函數(shù)的導(dǎo)數(shù)：
$f′(x)={0for?x<01,x≥0f'(x)=\begin{cases} 0 & \text {for x<0} \\ 1, & \text{x}\geq 0 \end{cases}$
因為當(dāng) $x≥0x\ge0$ 時，梯度是1，因此在向后傳播時，梯度計算起來非常方便，不會放大也不會縮小，不會出現(xiàn)梯度離散和梯度爆炸的情況。

z = torch.linspace(-1,1,10) torch.relu(z) # tensor([ 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 11.1111, 33.3333, # 55.5556, 77.7778, 100.0000]) F.relu(z) # tensor([0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.1111, 0.3333, 0.5556, 0.7778, # 1.0000])

一般在做research的時候，通常都是用ReLU激活函數(shù)。

總結(jié)

以上是生活随笔為你收集整理的PyTorch教程（八）：常见激活函数与Loss的梯度的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： PyTorch教程（七）：属性统计
下一篇：打金传奇哪个靠谱（可以赚人民币的传奇手游