#论文 《Deep Residual Learning for Image Recognition》
2015年的paper,微軟何凱明等。
解決的問題:
梯度消失/爆炸問題;
之前的解決方案:This problem, however, has been largely addressed by normalized initial- ization [23, 9, 37, 13] and intermediate normalization layers [16], which enable networks with tens of layers to start con- verging for stochastic gradient descent (SGD) with back- propagation [22].
The degradation (of training accuracy) :可能深層的網絡訓練結果反而沒有淺層好,并且這個問題并非由過擬合導致。結果,之前最深的網絡基本在30層以內。
解決的思路:
residual learning reformulation :擬合殘差,來解決梯度消失/爆炸問題。
假設輸出是H(x),某層可以擬合殘差F(x) = H(x) - x。理論上等價。但是,H(x)中要經過多層非線性轉換,可能有梯度問題。而用殘差你和,就沒有這個問題了。
認為高深度網絡不應該比低深度網絡差,通過shortcut來做恒等映射,使得至少讓高深度網絡表現不差于低深度網絡。這樣,以后可以在計算能力可以的情況下,可以增加任意多層。
?
附加的問題和結果:
最大訓練到152層(ImageNet)和1000層(CIFAR-10)。
計算量并沒有大很多。參數也是。
實驗表現很好,包括ImageNet(達到3.57%的top 5錯誤率,拿了第一名),COCO(提升28%左右)。
其他:
文章里主要和VGG plain網絡進行對比。
?
參考翻譯的一篇文章:
https://blog.csdn.net/wspba/article/details/57074389
總結
以上是生活随笔為你收集整理的#论文 《Deep Residual Learning for Image Recognition》的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: #论文 《ImageNet Classi
- 下一篇: #论文 《Towards Binary-