(pytorch-深度学习系列)pytorch中backwards()函数对梯度的操作
backwards()函數(shù)對梯度的操作
對于一個新的tensor來說,梯度是空的;但當(dāng)對這個tensor進(jìn)行運(yùn)算操作后,他就會擁有一個梯度:
x = torch.ones(2, 2, requires_grad=True) print(x) print(x.grad_fn)y = x + 2 print(y) print(y.grad_fn)輸出結(jié)果:
tensor([[1., 1.],[1., 1.]], requires_grad=True) None tensor([[3., 3.],[3., 3.]], grad_fn=<AddBackward>) <AddBackward object at 0x1100477b8>x是直接創(chuàng)建的,所以它沒有g(shù)rad_fn,, 而y是通過一個加法操作創(chuàng)建的,所以它有一個為<AddBackward>的grad_fn
像x這種直接創(chuàng)建的稱為葉子節(jié)點,葉子節(jié)點對應(yīng)的grad_fn是None。
print(x.is_leaf, y.is_leaf) # True False對于不同的計算,會自動產(chǎn)生對應(yīng)的不同的梯度:
z = y * y * 3 out = z.mean() print(z, out)輸出結(jié)果:
tensor([[27., 27.],[27., 27.]], grad_fn=<MulBackward>) tensor(27., grad_fn=<MeanBackward1>)這里z由乘法計算得出,所以獲得了<MulBackward>,而out是一個mean(均值操作),所以獲得了<MeanBackward1>
通過.requires_grad_()來用in-place內(nèi)聯(lián)的方式改變requires_grad屬性
默認(rèn)情況下,requires_grad的值是False,此時不會在運(yùn)算時自動獲得梯度,當(dāng)設(shè)置requires_grad的值為True后,就可以自動獲得梯度
對梯度的操作
調(diào)用backwar()函數(shù)時需要指定求導(dǎo)變量,而對于標(biāo)量,不需要指定,因為其求導(dǎo)變量就是torch.tensor(1.)
out.backward() # 等價于 out.backward(torch.tensor(1.)) print(x.grad) #out關(guān)于x的梯度輸出:
tensor([[4.5000, 4.5000],[4.5000, 4.5000]])我們手動計算一下求導(dǎo)的結(jié)果:
因為: y = x + 2 z = y * y * 3 out = z.mean()
其實這里有更加重要的原因,就是避免向量(甚至更高維張量)對張量求導(dǎo),而轉(zhuǎn)換成標(biāo)量對張量求導(dǎo)。但是pytorch不允許張量對張量求導(dǎo),只允許標(biāo)量對張量求導(dǎo),求導(dǎo)結(jié)果是和自變量同形的張量。
所以必要時我們要把張量通過將所有張量的元素加權(quán)求和的方式轉(zhuǎn)換為標(biāo)量
數(shù)學(xué)上,如果有一個函數(shù)值和自變量都為向量的函數(shù),
那么因變量關(guān)于自變量的梯度就是一個雅各比矩陣:
輸出:
tensor([[5.5000, 5.5000],[5.5000, 5.5000]]) tensor([[1., 1.],[1., 1.]])我舉一個例子,為什么需要在backwards時傳入一個與指定求導(dǎo)變量同型的向量
x = torch.tensor([1.0, 2.0, 3.0, 4.0], requires_grad=True) y = 2 * x z = y.view(2, 2) print(z) tensor([[2., 4.],[6., 8.]], grad_fn=<ViewBackward>)現(xiàn)在 z 不是一個標(biāo)量,所以在調(diào)用backward時需要傳入一個和z同形的權(quán)重向量進(jìn)行加權(quán)求和得到一個標(biāo)量。
v = torch.tensor([[1.0, 0.1], [0.01, 0.001]], dtype=torch.float) z.backward(v) print(x.grad) tensor([2.0000, 0.2000, 0.0200, 0.0020])其實這里你應(yīng)該能看明白,傳入的同型張量實際上是一個權(quán)重向量,就是用來對我們的張良進(jìn)行加權(quán)求和,變成一個標(biāo)量,從而避免張量對張量求和。
梯度追蹤
x = torch.tensor(1.0, requires_grad=True) y1 = x ** 2 with torch.no_grad():y2 = x ** 3 y3 = y1 + y2print(x.requires_grad) print(y1, y1.requires_grad) # True print(y2, y2.requires_grad) # False print(y3, y3.requires_grad) # True True tensor(1., grad_fn=<PowBackward0>) True tensor(1.) False tensor(2., grad_fn=<ThAddBackward>) True我們將y3對x求梯度:
y3.backward() print(x.grad) #tensor(2.)
為什么y3對x求梯度值會是2?
因為,y2是torch.no_grad()的,所以關(guān)于y2的梯度是不會回傳的,這里就相當(dāng)于對x^2進(jìn)行求導(dǎo),當(dāng)然梯度為2了
如果我們想要修改tensor的數(shù)值,但是又不希望被autograd記錄(即不會影響反向傳播),那么可以對tensor.data進(jìn)行操作
x = torch.ones(1,requires_grad=True)print(x.data) # 還是一個tensor print(x.data.requires_grad) # 但是已經(jīng)是獨(dú)立于計算圖之外y = 2 * x x.data *= 100 # 只改變了值,不會記錄在計算圖,所以不會影響梯度傳播y.backward() print(x) # 更改data的值也會影響tensor的值 print(x.grad)這是什么意思?
說白了,就是tensor.data是獨(dú)立于計算圖之外的,修改tensor.data會影響tensor的值,但是這個修改操作不會回傳backwards,即不會影響反向傳播。
總結(jié)
以上是生活随笔為你收集整理的(pytorch-深度学习系列)pytorch中backwards()函数对梯度的操作的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux netstat服务,linu
- 下一篇: linux nohup 运行,linux