简单形象又有趣地说说强大的神经网络
簡(jiǎn)單形象又有趣地說(shuō)說(shuō)強(qiáng)大的神經(jīng)網(wǎng)絡(luò)
圖片:The Playful Geometer / CC BY如何簡(jiǎn)單形象又有趣地講解神經(jīng)網(wǎng)絡(luò)是什么?
王小龍,數(shù)學(xué),計(jì)算機(jī)視覺(jué),圖形圖像處理神經(jīng)網(wǎng)絡(luò)很萌的!
0. 分類
神經(jīng)網(wǎng)絡(luò)最重要的用途是分類,為了讓大家對(duì)分類有個(gè)直觀的認(rèn)識(shí),咱們先看幾個(gè)例子:
- 垃圾郵件識(shí)別:現(xiàn)在有一封電子郵件,把出現(xiàn)在里面的所有詞匯提取出來(lái),送進(jìn)一個(gè)機(jī)器里,機(jī)器需要判斷這封郵件是否是垃圾郵件。
- 疾病判斷:病人到醫(yī)院去做了一大堆肝功、尿檢測(cè)驗(yàn),把測(cè)驗(yàn)結(jié)果送進(jìn)一個(gè)機(jī)器里,機(jī)器需要判斷這個(gè)病人是否得病,得的什么病。
- 貓狗分類:有一大堆貓、狗照片,把每一張照片送進(jìn)一個(gè)機(jī)器里,機(jī)器需要判斷這幅照片里的東西是貓還是狗。
這種能自動(dòng)對(duì)輸入的東西進(jìn)行分類的機(jī)器,就叫做分類器。
分類器的輸入是一個(gè)數(shù)值向量,叫做特征(向量)。在第一個(gè)例子里,分類器的輸入是一堆 0、1 值,表示字典里的每一個(gè)詞是否在郵件中出現(xiàn),比如向量 (1,1,0,0,0......) 就表示這封郵件里只出現(xiàn)了兩個(gè)詞 abandon 和 abnormal;第二個(gè)例子里,分類器的輸入是一堆化驗(yàn)指標(biāo);第三個(gè)例子里,分類器的輸入是照片,假如每一張照片都是 320*240 像素的紅綠藍(lán)三通道彩色照片,那么分類器的輸入就是一個(gè)長(zhǎng)度為 320*240*3=230400 的向量。
分類器的輸出也是數(shù)值。第一個(gè)例子中,輸出 1 表示郵件是垃圾郵件,輸出 0 則說(shuō)明郵件是正常郵件;第二個(gè)例子中,輸出 0 表示健康,輸出 1 表示有甲肝,輸出 2 表示有乙肝,輸出 3 表示有餅干等等;第三個(gè)例子中,輸出 0 表示圖片中是狗,輸出 1 表示是貓。
分類器的目標(biāo)就是讓正確分類的比例盡可能高。一般我們需要首先收集一些樣本,人為標(biāo)記上正確分類結(jié)果,然后用這些標(biāo)記好的數(shù)據(jù)訓(xùn)練分類器,訓(xùn)練好的分類器就可以在新來(lái)的特征向量上工作了。
1. 神經(jīng)元
咱們假設(shè)分類器的輸入是通過(guò)某種途徑獲得的兩個(gè)值,輸出是 0 和 1,比如分別代表貓和狗。現(xiàn)在有一些樣本:
大家想想,最簡(jiǎn)單地把這兩組特征向量分開(kāi)的方法是啥?當(dāng)然是在兩組數(shù)據(jù)中間畫(huà)一條豎直線,直線左邊是狗,右邊是貓,分類器就完成了。以后來(lái)了新的向量,凡是落在直線左邊的都是狗,落在右邊的都是貓。
一條直線把平面一分為二,一個(gè)平面把三維空間一分為二,一個(gè) n-1 維超平面把 n 維空間一分為二,兩邊分屬不同的兩類,這種分類器就叫做神經(jīng)元。
大家都知道平面上的直線方程是?,等式左邊大于零和小于零分別表示點(diǎn)??在直線的一側(cè)還是另一側(cè),把這個(gè)式子推廣到 n 維空間里,直線的高維形式稱為超平面,它的方程是:
神經(jīng)元就是當(dāng) h 大于 0 時(shí)輸出 1,h 小于 0 時(shí)輸出 0 這么一個(gè)模型,它的實(shí)質(zhì)就是把特征空間一切兩半,認(rèn)為兩瓣分別屬兩個(gè)類。你恐怕再也想不到比這更簡(jiǎn)單的分類器了,它是 McCulloch 和 Pitts 在 1943 年想出來(lái)了。
這個(gè)模型有點(diǎn)像人腦中的神經(jīng)元:從多個(gè)感受器接受電信號(hào)?,進(jìn)行處理(加權(quán)相加再偏移一點(diǎn),即判斷輸入是否在某條直線??的一側(cè)),發(fā)出電信號(hào)(在正確的那側(cè)發(fā)出 1,否則不發(fā)信號(hào),可以認(rèn)為是發(fā)出 0),這就是它叫神經(jīng)元的原因。
當(dāng)然,上面那幅圖我們是開(kāi)了上帝視角才知道“一條豎直線能分開(kāi)兩類”,在實(shí)際訓(xùn)練神經(jīng)元時(shí),我們并不知道特征是怎么抱團(tuán)的。神經(jīng)元模型的一種學(xué)習(xí)方法稱為 Hebb 算法:
先隨機(jī)選一條直線 / 平面 / 超平面,然后把樣本一個(gè)個(gè)拿過(guò)來(lái),如果這條直線分錯(cuò)了,說(shuō)明這個(gè)點(diǎn)分錯(cuò)邊了,就稍微把直線移動(dòng)一點(diǎn),讓它靠近這個(gè)樣本,爭(zhēng)取跨過(guò)這個(gè)樣本,讓它跑到直線正確的一側(cè);如果直線分對(duì)了,它就暫時(shí)停下不動(dòng)。因此訓(xùn)練神經(jīng)元的過(guò)程就是這條直線不斷在跳舞,最終跳到兩個(gè)類之間的豎直線位置。
2. 神經(jīng)網(wǎng)絡(luò)
MP 神經(jīng)元有幾個(gè)顯著缺點(diǎn)。首先它把直線一側(cè)變?yōu)?0,另一側(cè)變?yōu)?1,這東西不可微,不利于數(shù)學(xué)分析。人們用一個(gè)和 0-1 階躍函數(shù)類似但是更平滑的函數(shù) Sigmoid 函數(shù)來(lái)代替它(Sigmoid 函數(shù)自帶一個(gè)尺度參數(shù),可以控制神經(jīng)元對(duì)離超平面距離不同的點(diǎn)的響應(yīng),這里忽略它),從此神經(jīng)網(wǎng)絡(luò)的訓(xùn)練就可以用梯度下降法來(lái)構(gòu)造了,這就是有名的反向傳播算法。
神經(jīng)元的另一個(gè)缺點(diǎn)是:它只能切一刀!你給我說(shuō)說(shuō)一刀怎么能把下面這兩類分開(kāi)吧。
解決辦法是多層神經(jīng)網(wǎng)絡(luò),底層神經(jīng)元的輸出是高層神經(jīng)元的輸入。我們可以在中間橫著砍一刀,豎著砍一刀,然后把左上和右下的部分合在一起,與右上的左下部分分開(kāi);也可以圍著左上角的邊沿砍 10 刀把這一部分先挖出來(lái),然后和右下角合并。
每砍一刀,其實(shí)就是使用了一個(gè)神經(jīng)元,把不同砍下的半平面做交、并等運(yùn)算,就是把這些神經(jīng)元的輸出當(dāng)作輸入,后面再連接一個(gè)神經(jīng)元。這個(gè)例子中特征的形狀稱為異或,這種情況一個(gè)神經(jīng)元搞不定,但是兩層神經(jīng)元就能正確對(duì)其進(jìn)行分類。
只要你能砍足夠多刀,把結(jié)果拼在一起,什么奇怪形狀的邊界神經(jīng)網(wǎng)絡(luò)都能夠表示,所以說(shuō)神經(jīng)網(wǎng)絡(luò)在理論上可以表示很復(fù)雜的函數(shù) / 空間分布。但是真實(shí)的神經(jīng)網(wǎng)絡(luò)是否能擺動(dòng)到正確的位置還要看網(wǎng)絡(luò)初始值設(shè)置、樣本容量和分布。
神經(jīng)網(wǎng)絡(luò)神奇的地方在于它的每一個(gè)組件非常簡(jiǎn)單——把空間切一刀 + 某種激活函數(shù) (0-1 階躍、sigmoid、max-pooling),但是可以一層一層級(jí)聯(lián)。輸入向量連到許多神經(jīng)元上,這些神經(jīng)元的輸出又連到一堆神經(jīng)元上,這一過(guò)程可以重復(fù)很多次。這和人腦中的神經(jīng)元很相似:每一個(gè)神經(jīng)元都有一些神經(jīng)元作為其輸入,又是另一些神經(jīng)元的輸入,數(shù)值向量就像是電信號(hào),在不同神經(jīng)元之間傳導(dǎo),每一個(gè)神經(jīng)元只有滿足了某種條件才會(huì)發(fā)射信號(hào)到下一層神經(jīng)元。當(dāng)然,人腦比神經(jīng)網(wǎng)絡(luò)模型復(fù)雜很多:人工神經(jīng)網(wǎng)絡(luò)一般不存在環(huán)狀結(jié)構(gòu);人腦神經(jīng)元的電信號(hào)不僅有強(qiáng)弱,還有時(shí)間緩急之分,就像莫爾斯電碼,在人工神經(jīng)網(wǎng)絡(luò)里沒(méi)有這種復(fù)雜的信號(hào)模式。
神經(jīng)網(wǎng)絡(luò)的訓(xùn)練依靠反向傳播算法:最開(kāi)始輸入層輸入特征向量,網(wǎng)絡(luò)層層計(jì)算獲得輸出,輸出層發(fā)現(xiàn)輸出和正確的類號(hào)不一樣,這時(shí)它就讓最后一層神經(jīng)元進(jìn)行參數(shù)調(diào)整,最后一層神經(jīng)元不僅自己調(diào)整參數(shù),還會(huì)勒令連接它的倒數(shù)第二層神經(jīng)元調(diào)整,層層往回退著調(diào)整。這很像中國(guó)的文藝體制,武媚娘傳奇劇組就是網(wǎng)絡(luò)中的一個(gè)神經(jīng)元,最近剛剛調(diào)整了參數(shù)。
3. 大型神經(jīng)網(wǎng)絡(luò)
我們不禁要想了,假如我們的這個(gè)網(wǎng)絡(luò)有 10 層神經(jīng)元,第 8 層第 2015 個(gè)神經(jīng)元,它有什么含義呢?我們知道它把第七層的一大堆神經(jīng)元的輸出作為輸入,第七層的神經(jīng)元又是以第六層的一大堆神經(jīng)元做為輸入,那么這個(gè)特殊第八層的神經(jīng)元,它會(huì)不會(huì)代表了某種抽象的概念?
就好比你的大腦里有一大堆負(fù)責(zé)處理聲音、視覺(jué)、觸覺(jué)信號(hào)的神經(jīng)元,它們對(duì)于不同的信息會(huì)發(fā)出不同的信號(hào),那么會(huì)不會(huì)有這么一個(gè)神經(jīng)元(或者神經(jīng)元小集團(tuán)),它收集這些信號(hào),分析其是否符合某個(gè)抽象的概念,和其他負(fù)責(zé)更具體和更抽象概念的神經(jīng)元進(jìn)行交互。
2012 年多倫多大學(xué)的 Krizhevsky 等人構(gòu)造了一個(gè)超大型卷積神經(jīng)網(wǎng)絡(luò)[1],有 9 層,共 65 萬(wàn)個(gè)神經(jīng)元,6 千萬(wàn)個(gè)參數(shù)。網(wǎng)絡(luò)的輸入是圖片,輸出是 1000 個(gè)類,比如小蟲(chóng)、美洲豹、救生船等等。這個(gè)模型的訓(xùn)練需要海量圖片,它的分類準(zhǔn)確率也完爆先前所有分類器。紐約大學(xué)的Zeiler 和 Fergusi[2]把這個(gè)網(wǎng)絡(luò)中某些神經(jīng)元挑出來(lái),把在其上響應(yīng)特別大的那些輸入圖像放在一起,看它們有什么共同點(diǎn)。他們發(fā)現(xiàn)中間層的神經(jīng)元響應(yīng)了某些十分抽象的特征。
第一層神經(jīng)元主要負(fù)責(zé)識(shí)別顏色和簡(jiǎn)單紋理:
第二層的一些神經(jīng)元可以識(shí)別更加細(xì)化的紋理,比如布紋、刻度、葉紋。
第三層的一些神經(jīng)元負(fù)責(zé)感受黑夜里的黃色燭光、雞蛋黃、高光。
第四層的一些神經(jīng)元負(fù)責(zé)識(shí)別萌狗的臉、七星瓢蟲(chóng)和一堆圓形物體的存在。
第五層的一些神經(jīng)元可以識(shí)別出花、圓形屋頂、鍵盤(pán)、鳥(niǎo)、黑眼圈動(dòng)物。
這里面的概念并不是整個(gè)網(wǎng)絡(luò)的輸出,是網(wǎng)絡(luò)中間層神經(jīng)元的偏好,它們?yōu)楹竺娴纳窠?jīng)元服務(wù)。雖然每一個(gè)神經(jīng)元都傻不拉幾的(只會(huì)切一刀),但是 65 萬(wàn)個(gè)神經(jīng)元能學(xué)到的東西還真是深邃呢。
[1] Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems (pp. 1097-1105).
[2] Zeiler, M. D., & Fergus, R. (2013). Visualizing and understanding convolutional neural networks. arXiv preprint arXiv:1311.2901.
總結(jié)
以上是生活随笔為你收集整理的简单形象又有趣地说说强大的神经网络的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: IBM在人工智能方面的新进展,理解谈话情
- 下一篇: 开源后5个月,Google的深度学习都有