图解LSTM神经网络架构及其11种变体(附论文)
來(lái)源:機(jī)器之心
英文原文:Deep learning architecture diagrams
參與:老紅、李亞洲
原文鏈接:圖解LSTM神經(jīng)網(wǎng)絡(luò)架構(gòu)及其11種變體(附論文)
本文經(jīng)機(jī)器之心(微信公眾號(hào):almosthuman2014)授權(quán)轉(zhuǎn)載,禁止二次轉(zhuǎn)載
就像雨季后非洲大草原許多野生溪流分化成的湖泊和水洼,深度學(xué)習(xí)已經(jīng)分化成了各種不同的專(zhuān)門(mén)架構(gòu)。
并且,每個(gè)架構(gòu)都會(huì)有一個(gè)圖解,這里將詳細(xì)介紹它們。
神經(jīng)網(wǎng)絡(luò)在概念上很簡(jiǎn)單,并且它們十分動(dòng)人。在層級(jí)上,有著一堆同質(zhì)化的元素和統(tǒng)一的單位,并且它們之間還存在在一系列的加權(quán)連接。這就是神經(jīng)網(wǎng)絡(luò)的所有,至少?gòu)睦碚撋蟻?lái)說(shuō)是這樣。然而,時(shí)間證明的結(jié)果卻有所不同。并非工程的特性,我們現(xiàn)在擁有的是建筑工程,而非工程的特性,正如 Stephen Merrity 描述的那樣:
深度學(xué)習(xí)的浪漫主義描述通常預(yù)示著手工制作工程特性的日子一去不復(fù)返了,這個(gè)模型的本身是足以先進(jìn)到能夠解決問(wèn)題的。正如大多數(shù)廣告一樣,它同時(shí)具備真實(shí)性和誤導(dǎo)性。
雖然深度學(xué)習(xí)在很多情況下簡(jiǎn)化了工程特性,但它肯定還沒(méi)有徹底地?cái)[脫它。隨著工程特性的減少,機(jī)器學(xué)習(xí)模型本身的結(jié)構(gòu)變得越來(lái)越復(fù)雜。大多數(shù)時(shí)候,這些模型架構(gòu)會(huì)特定于一個(gè)給定的任務(wù),就像過(guò)去的工程特性那樣。
需要澄清一下的是,這仍然是很重要的一步。結(jié)構(gòu)工程要比工程特性更具一般性,并且提供了許多新的機(jī)會(huì)。正如我們提到的,我們不能無(wú)視這樣一個(gè)事實(shí):我們離我們想要達(dá)到的還很遠(yuǎn)。
LSTM 圖解
怎樣解釋這些架構(gòu)?自然地,我們可以通過(guò)圖解,圖解往往可以讓闡述變得更清晰。
讓我們先來(lái)看看如今最流行的兩種網(wǎng)絡(luò),CNN 和 LSTM:
很簡(jiǎn)單吧,我們?cè)俑屑?xì)地研究下:
正如大家所言,你可能有很多不理解的數(shù)學(xué)問(wèn)題,但你會(huì)慢慢習(xí)慣它們。幸運(yùn)地是,我們有很多非常好的解釋。
仍覺(jué)得 LSTM 太復(fù)雜了?那讓我們來(lái)試試簡(jiǎn)單的版本,GRU (Gated Recurrent Unit),相當(dāng)瑣碎。
尤其是這一個(gè),被稱(chēng)為 minimal GRU:
更多圖解
LSTM 個(gè)多各樣的變體如今很常見(jiàn)。下面就是一個(gè),我們稱(chēng)之為深度雙向 LSTM:
DB-LSTM(參見(jiàn)論文:End-to-end Learning of Semantic Role Labeling Using Recurrent Neural Networks )
剩下的也不需要加以過(guò)多說(shuō)明。讓我們從 CNN 和 LSTM 的結(jié)合開(kāi)始說(shuō)起:
卷積殘差記憶網(wǎng)絡(luò)(參見(jiàn)論文:Convolutional Residual Memory Networks)
動(dòng)態(tài) NTM(參見(jiàn)論文:Dynamic Neural Turing Machine with Soft and Hard Addressing Schemes)
可發(fā)展神經(jīng)圖靈機(jī)(參見(jiàn)論文:Evolving Neural Turing Machines for Reward-based Learning)
視覺(jué)注意的循環(huán)模型(參見(jiàn)論文:Recurrent Models of Visual Attention)
通過(guò)反向傳播無(wú)監(jiān)督域適應(yīng)(參見(jiàn)論文:Unsupervised Domain Adaptation by Backpropagation)
進(jìn)行圖像超分辨率的深度遞歸 CNN(參見(jiàn)論文:Deeply-Recursive Convolutional Network for Image Super-Resolution)
帶有合成梯度的多層感知器的圖解在清晰度上得分很高:
帶有合成梯度的 MLP(參見(jiàn)論文:Decoupled Neural Interfaces using Synthetic Gradients)
每天都有新的成果出現(xiàn),下面這個(gè)就是新鮮的,來(lái)自谷歌的神經(jīng)機(jī)器翻譯系統(tǒng):
一些完全不同的東西
Neural Network ZOO(一篇描述神經(jīng)網(wǎng)絡(luò)架構(gòu)的文章,機(jī)器之心同樣進(jìn)行了編譯) 的描繪非常簡(jiǎn)單,但很多都華而不實(shí),例如:ESM, ESN 和 ELM。
它們看上去像沒(méi)有完全連接的感知器,它們看上去像沒(méi)有完全連接的感知器,但它們應(yīng)該代表的是一種液體狀態(tài)機(jī)、一個(gè)回聲狀態(tài)網(wǎng)絡(luò)和一個(gè)極端學(xué)習(xí)機(jī)。
LSM 和 ESN 有何不同?很簡(jiǎn)單,LSM 有著三角狀綠色的神經(jīng)元。而 ESN 和 ELM 又有什么不同呢?它們都有藍(lán)色的神經(jīng)元。
講真,雖然類(lèi)似,,ESN 是一個(gè)遞歸網(wǎng)絡(luò)而 ELM 則不是。而這種區(qū)別也可在架構(gòu)圖中見(jiàn)到。
歡迎加入我愛(ài)機(jī)器學(xué)習(xí)QQ13群:550972653
微信掃一掃,關(guān)注我愛(ài)機(jī)器學(xué)習(xí)公眾號(hào)
微博:我愛(ài)機(jī)器學(xué)習(xí)
總結(jié)
以上是生活随笔為你收集整理的图解LSTM神经网络架构及其11种变体(附论文)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Statistical language
- 下一篇: Tensorflow学习-工具相关