入门 | 初学者必读:解读14个深度学习关键词
作者:Matthew Mayo
機(jī)器之心編譯
參與:Xuwen Wang、Chen Chen
微信公眾號:(almosthuman2014)授權(quán)轉(zhuǎn)載,禁止二次轉(zhuǎn)載,點(diǎn)此為原文鏈接
本文介紹了包括 LSTM、ANNS、生物神經(jīng)元、反向傳播、多元感知機(jī)等 14 個深度學(xué)習(xí)關(guān)鍵概念,對初學(xué)者來說,搞清楚這些關(guān)鍵詞的含義對理解深度學(xué)習(xí)至關(guān)重要。機(jī)器之心曾在九月的一篇文章中介紹過有關(guān)深度學(xué)習(xí)的其他專業(yè)術(shù)語。
盡管在最近的在線搜索中已經(jīng)占據(jù)高的搜索量,深度學(xué)習(xí)仍然是一個相對較新的概念。由于在各個不同的領(lǐng)域都獲得了巨大的成功,機(jī)器學(xué)習(xí)在研究和生產(chǎn)領(lǐng)域中大量涌現(xiàn)。機(jī)器學(xué)習(xí)是應(yīng)用深度神經(jīng)網(wǎng)絡(luò)技術(shù)的一個過程——也就是有著多個隱藏層的神經(jīng)網(wǎng)絡(luò)構(gòu)架——去解決問題。像數(shù)據(jù)挖掘一樣,深度學(xué)習(xí)也是一個進(jìn)程,它采用了神經(jīng)網(wǎng)絡(luò)構(gòu)架——一種特定的機(jī)器學(xué)習(xí)算法。
近段時間來深度學(xué)習(xí)已經(jīng)積累了可觀的研究成果。據(jù)此,在我看來,將以下下幾點(diǎn)牢記在心對機(jī)器學(xué)習(xí)十分重要:
-
機(jī)器學(xué)習(xí)不是萬靈藥——它不能夠解決所有的問題。
-
它并不是一個傳說中的大師級的算法——深度學(xué)習(xí)不能夠替代其他機(jī)器學(xué)習(xí)的算法和數(shù)據(jù)科學(xué)的技術(shù),或者說,至少它至今還未被證明可以
-
我們需要對它持以平和的期待——盡管最近各種分類問題,特別是計(jì)算機(jī)視覺和自然語言處理,強(qiáng)化學(xué)習(xí)以及其他領(lǐng)域都已取得顯著進(jìn)步,深度學(xué)習(xí)目前還沒有到達(dá)可以解決諸如「實(shí)現(xiàn)世界和平」這種復(fù)雜問題的水平。
-
深度學(xué)習(xí)和人工智能并非同義詞。
-
深度學(xué)習(xí)可以通過向一大堆數(shù)據(jù)提供附加的操作和工具從而解決問題。由此,深度學(xué)習(xí)在數(shù)據(jù)科學(xué)領(lǐng)域是一個十分有用的輔助。
就像上圖所示,深度學(xué)習(xí)深度學(xué)習(xí)之于數(shù)據(jù)挖掘,就像(深度)神經(jīng)網(wǎng)絡(luò)之于機(jī)器學(xué)習(xí)(進(jìn)程 VS 構(gòu)架)。同時我們也可以看到深度神經(jīng)網(wǎng)絡(luò)絕大程度屬于當(dāng)前人工智能的情況。兩者概念相互交織幾乎已經(jīng)到了相同意思的程度(但實(shí)際上這兩者并非相同的事物,人工智能除了神經(jīng)網(wǎng)絡(luò)還含有大量其他的算法和技術(shù))同時,在深度學(xué)習(xí)過程和神經(jīng)網(wǎng)絡(luò)技術(shù)的帶領(lǐng)下,近幾年來在相關(guān)領(lǐng)域有了卓越的跨越。其中起重要作用的,深度學(xué)習(xí)/深度神經(jīng)網(wǎng)絡(luò)和計(jì)算機(jī)視覺,自然語言處理,生成模型之間的聯(lián)系值得關(guān)注。由此,讓我們通過簡明扼要的定義,來了解深度學(xué)習(xí)和相關(guān)術(shù)語。
1. 深度學(xué)習(xí)
就像上述定義的一樣,深度學(xué)習(xí)是應(yīng)用神經(jīng)網(wǎng)絡(luò)解決問題的過程。深度神經(jīng)網(wǎng)絡(luò)是有著至少一個隱藏層的神經(jīng)網(wǎng)絡(luò)(如下圖)。像數(shù)據(jù)挖掘一樣,深度學(xué)習(xí)所指的是一個特定的過程。其中采用了深度神經(jīng)網(wǎng)絡(luò)-一種特定的機(jī)器學(xué)習(xí)算法的框架。
2. 人工神經(jīng)網(wǎng)絡(luò)(ANNs)
機(jī)器學(xué)習(xí)構(gòu)架最早的靈感來源于生物大腦(尤其是神經(jīng)元)深度學(xué)習(xí)就運(yùn)用到了神經(jīng)元的概念。事實(shí)上,單一的人工神經(jīng)網(wǎng)絡(luò)(并非深度神經(jīng)網(wǎng)絡(luò))在很早之前就被發(fā)現(xiàn),在過去已經(jīng)能解決一些特定的問題。然而,相較于現(xiàn)在,目前的神經(jīng)網(wǎng)絡(luò)構(gòu)架都被設(shè)計(jì)為包含數(shù)個隱藏層(除了簡單的輸入和輸出層)。層數(shù)的增加提高了網(wǎng)絡(luò)的復(fù)雜度,使得網(wǎng)絡(luò)能夠進(jìn)行深度學(xué)習(xí),成為一種更強(qiáng)大的問題解決工具。
?實(shí)際上,人工神經(jīng)網(wǎng)絡(luò) ANN 一族結(jié)構(gòu)差別很大,因此,目前沒有一個確切的神經(jīng)網(wǎng)絡(luò)定義。目前兩個主流的適用于所有 ANN 的特征,一個是擁有一個可調(diào)整的權(quán)重集合,另一個是具有模擬輸入信號到神經(jīng)元的非線性功能的能力。
3. 生物神經(jīng)元
在生物和人工神經(jīng)網(wǎng)絡(luò)之間的關(guān)系已經(jīng)有了明確的定義。大量傳播開的出版物渲染出這樣一個概念:ANN 是某種對發(fā)生在人(或其他生物)大腦的過程的完全復(fù)制。這種觀念顯然是不準(zhǔn)確的。充其量我們只能說早期的人工神經(jīng)網(wǎng)絡(luò)是受到生物學(xué)的啟發(fā)。兩者間抽象的關(guān)系不比原子的組成和功能與太陽系間的抽象關(guān)系明確。
也就是說,如果僅僅了解是什么啟發(fā)了 ANN,這提供了一種高層次的解讀,可幫助我們?nèi)ダ斫馍锷窠?jīng)是如何工作的。
以下是我們對生物神經(jīng)元的最感興趣的部分,包括:
-
攜帶著遺傳信息的細(xì)胞核(如 DNA)
-
處理輸入刺激并轉(zhuǎn)化為輸出刺激的細(xì)胞體。
-
從其他神經(jīng)元接受刺激的樹突。
-
信息傳給其他神經(jīng)的軸突。
-
軸突末端,和相鄰樹突之間形成的突觸結(jié)構(gòu)。
在軸突末端與相鄰樹突形成的突出間隙中,擴(kuò)散著一種叫做神經(jīng)傳遞素的化學(xué)物質(zhì),他實(shí)現(xiàn)了神經(jīng)傳遞。神經(jīng)中最關(guān)鍵的部分,是神經(jīng)通過樹突接收到刺激,處理后,通過軸突末梢傳輸出去。在末梢處會經(jīng)過突觸間隙,然后到達(dá)許多接受神經(jīng)的樹突。該過程將重復(fù)進(jìn)行。
4. 感知機(jī)
感知機(jī)是一個簡單的線形二進(jìn)制分類器。它接收輸入和與其相連的權(quán)重(表示輸入變量的相對重要性),將它們結(jié)合來產(chǎn)生輸出。輸出接下來被用于分類。感知機(jī)已經(jīng)存在很長一段時間了,最早的使用可追溯到 1950 年代,其中一個也是應(yīng)用到早期的人工神經(jīng)網(wǎng)絡(luò)中。
5. 多層感知機(jī)
一個多層感知機(jī)(MLP)是由幾個含有全鄰接層的感知機(jī)組成,形成一個簡單的前饋神經(jīng)網(wǎng)絡(luò)(見下)。這個多層感知器在非線性激活函數(shù)上有許多好處,這些都是單層感知器不具備的。
6. 前饋神經(jīng)網(wǎng)絡(luò)
在非周期性連接的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,前饋神經(jīng)網(wǎng)絡(luò)是最簡單的形式。最初的人工神經(jīng)網(wǎng)絡(luò)中,前饋網(wǎng)絡(luò)中的信息從輸入節(jié)點(diǎn)單方向前進(jìn),而后通過所有隱藏層,到達(dá)輸出節(jié)點(diǎn),不存在任何周期。前饋網(wǎng)絡(luò)不同于之后的連接構(gòu)成有向循環(huán)的周期性網(wǎng)絡(luò)架構(gòu)(見下文)。
7. 循環(huán)神經(jīng)網(wǎng)絡(luò)
和上文所提到的前饋神經(jīng)網(wǎng)絡(luò)不同,循環(huán)神經(jīng)網(wǎng)絡(luò)的連接構(gòu)成有向循環(huán)。這種雙向流動允許內(nèi)部時間狀態(tài)表示,繼而允許序列處理。并且值得注意的是,它提供了用于識別語音和手寫的必要能力。
8. 激活函數(shù)
在神經(jīng)網(wǎng)絡(luò)中,激活函數(shù)通過組合網(wǎng)絡(luò)的加權(quán)輸入來產(chǎn)生判定邊界輸出結(jié)果。激活函數(shù)的范圍從標(biāo)識(線性)到 Sigmoid 函數(shù)(邏輯或軟步長),雙曲線(正切)和超越。為了采用反向傳播(見下文),神經(jīng)網(wǎng)絡(luò)必須使用可微的激活函數(shù)。
9. 反向傳播
我所見過的對反向傳播的定義中,最基本、簡潔的定義是數(shù)據(jù)科學(xué)家 Mikio L. Braun 在 Quora(https://www.quora.com/How-do-you-explain-back-propagation-algorithm-to-a-beginner-in-neural-network/answer/Mikio-L-Braun) 上給出的答案。我在此列出原文,以防破壞這份答案簡潔的完美。
反向傳播只是在個別錯誤上進(jìn)行梯度下降。通過比較對神經(jīng)網(wǎng)絡(luò)預(yù)期輸出的預(yù)測,而后計(jì)算相對于神經(jīng)網(wǎng)絡(luò)的權(quán)重的誤差梯度。然后得出了權(quán)值空間中減小誤差的方向。
我將它列在這里。
10. 成本函數(shù)
在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時,必須評估網(wǎng)絡(luò)輸出的正確性。眾所周知,預(yù)期上正確的訓(xùn)練輸出數(shù)據(jù)和實(shí)際的訓(xùn)練輸出是可比擬的。成本函數(shù)便能測量實(shí)際和訓(xùn)練輸出之間的差異。實(shí)際和預(yù)期輸出之間的零成本將意味著訓(xùn)練神經(jīng)網(wǎng)絡(luò)成為可能。但這顯然是理想化的。
?所以,通過什么機(jī)制來調(diào)整成本函數(shù),以實(shí)現(xiàn)將其最小化的目標(biāo)呢?
11. 梯度下降
梯度下降法是求函數(shù)局部極小值的一個優(yōu)化算法。雖然它不能保證全定義域內(nèi)的最小值,但梯度下降對于難以通過分析(例如通過將導(dǎo)數(shù)取 0 獲得最優(yōu)解)求得精確解的問題十分有用。
正如上文所述,在神經(jīng)網(wǎng)絡(luò)的情況中,隨機(jī)梯度下降用于對網(wǎng)絡(luò)參數(shù)做出知情調(diào)整,以達(dá)到使成本函數(shù)最小化的目標(biāo),從而使網(wǎng)絡(luò)的實(shí)際輸出迭代性地愈加接近在培訓(xùn)期間的預(yù)期輸出。這種迭代最小化采用微積分,即微分。在訓(xùn)練步驟之后,網(wǎng)絡(luò)權(quán)重根據(jù)成本函數(shù)的梯度和網(wǎng)絡(luò)的當(dāng)前權(quán)重接收更新,使得下一個訓(xùn)練步驟的結(jié)果可以更加接近正確值(通過更小的成本函數(shù)測量)。反向傳播(關(guān)于錯誤的反向傳播)便用于將這些更新以小份的形式送到網(wǎng)絡(luò)。
12. 梯度消失問題
由于反向傳播使用鏈?zhǔn)揭?guī)則來計(jì)算梯度(通過微分),朝向 n 層神經(jīng)網(wǎng)絡(luò)的「前」(輸入)層將使其修改的梯度以一個較小的值乘以 n 次方,然后再更新之前的固定值。這意味著梯度將指數(shù)性減小。n 越大,網(wǎng)絡(luò)將需要越來越多的時間來有效地訓(xùn)練。
13. 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)(CNN)通常與計(jì)算機(jī)視覺和圖像識別相關(guān)聯(lián),并采用卷積的數(shù)學(xué)概念來模仿生物視覺皮層的神經(jīng)連接網(wǎng)格。
首先,正如 Denny Britz 所描述一樣(http://www.kdnuggets.com/2015/11/understanding-convolutional-neural-networks-nlp.html),卷積可以被認(rèn)為是在圖像的矩陣表示之上的滑動窗口(見下文)。
來源:斯坦福
在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,至少在計(jì)算機(jī)視覺實(shí)現(xiàn)該概念將導(dǎo)致專用于處理局部圖像的神經(jīng)元的集合。當(dāng)在某些例如自然語言處理的其他領(lǐng)域中使用時,鑒于輸入(字,句子等)可以置于矩陣中并以類似的方式處理,故可以采取同樣的方法。
14. 長短期記憶網(wǎng)絡(luò)(LSTM)
來源:Christopher Olah(http://colah.github.io/posts/2015-08-Understanding-LSTMs/)
長短期記憶網(wǎng)絡(luò)(LSTM)是經(jīng)優(yōu)化以用于從時間相關(guān)數(shù)據(jù)中學(xué)習(xí)和作用的循環(huán)神經(jīng)網(wǎng)絡(luò),而這些數(shù)據(jù)可能在相關(guān)事件之間具有未定義的或未知的時間長度。它們的特定架構(gòu)給予 ANN「內(nèi)存」并允許其持久性。最近手寫識別和自動語音識別的突破便得益于 LSTM 網(wǎng)絡(luò)。
這顯然只是深度學(xué)習(xí)術(shù)語的一個小部分以及許多衍生的從基礎(chǔ)到高級的概念。若欲了解更多關(guān)于機(jī)器學(xué)習(xí)研究當(dāng)前領(lǐng)先的領(lǐng)域,您需要自行探索。
總結(jié)
以上是生活随笔為你收集整理的入门 | 初学者必读:解读14个深度学习关键词的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: treeview常见用法
- 下一篇: Partial的应用