Deep Learning简明深度学习方法概述
說(shuō)明:本文主要是翻譯整理Li Deng 和 Dong Yu所著的《Deep Learning:Methods and Application》文章并沒(méi)有全文翻譯,而是一個(gè)總結(jié)并加入個(gè)人理解生成的概括性文章。如果要深入了解推薦讀原文。博主真心能力有限,所以理解之處錯(cuò)誤在所難免,請(qǐng)勿噴。
一、 綜述
在這片介紹性文章開(kāi)始,先簡(jiǎn)單介紹一下深度學(xué)習(xí)的概念。深度學(xué)習(xí)(Deap Learning),是機(jī)器學(xué)習(xí)的一個(gè)新的研究領(lǐng)域,它的定義有很多,這里隨意列舉一兩個(gè)定義你們感受一下(老外的語(yǔ)言還是很干練的):
1) “A class of machine learning techniques that exploit many layers of non-linear information processing for supervised or unsupervised feature extraction and transformation, and for pattern analysis and classification.”
2) “deep learning is a set of algorithms in machine learning that attempt to learning in multiple levels, corresponding to different levels of abstraction. It typically uses artificial neural networks. The levels in these learned statistical models correspond to distinct levels of concepts, where higher-level concepts are defined from lower-level ones, and the same lower-level concepts can help to define many higher-level concepts”
上述英文定義的共同點(diǎn)包括兩個(gè)主要方面:
深度學(xué)習(xí)是多學(xué)科領(lǐng)域的交叉,比如神經(jīng)網(wǎng)絡(luò)、人工智能、圖建模、最優(yōu)化理論、模式識(shí)別和信號(hào)處理。需要注意的是本文所描述的深度學(xué)習(xí)是在信號(hào)和信息處理內(nèi)容中學(xué)習(xí)出一種深度結(jié)構(gòu)。它不是對(duì)信號(hào)和信息處理知識(shí)的理解,盡管某些意義上說(shuō)它倆相似,但深度學(xué)習(xí)重點(diǎn)在于學(xué)習(xí)出一種深度網(wǎng)絡(luò)結(jié)構(gòu),是實(shí)實(shí)在在存在的一種計(jì)算機(jī)可存儲(chǔ)結(jié)構(gòu),這種結(jié)構(gòu)表示了信號(hào)的某種意義上的內(nèi)涵。
從06年開(kāi)始,深度結(jié)構(gòu)學(xué)習(xí)方法(深度學(xué)習(xí)或者分層學(xué)習(xí)方法)作為機(jī)器學(xué)習(xí)領(lǐng)域的新的研究方向出現(xiàn)。由于三種主要領(lǐng)域的技術(shù)進(jìn)步(比如芯片處理性能的巨大提升,數(shù)據(jù)爆炸性增長(zhǎng)和機(jī)器學(xué)習(xí)與信信號(hào)處理研究的進(jìn)步),在過(guò)去的短短幾年時(shí)間,深度學(xué)習(xí)技術(shù)得到快速發(fā)展,已經(jīng)深深的影響了學(xué)術(shù)領(lǐng)域,其研究涉及的應(yīng)用領(lǐng)域包括計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、對(duì)話語(yǔ)音識(shí)別、圖像特征編碼、語(yǔ)意表達(dá)分類(lèi)、自然語(yǔ)言理解、手寫(xiě)識(shí)別、音頻處理、信息檢索、機(jī)器人學(xué)。
由于深度學(xué)習(xí)在眾多領(lǐng)域表現(xiàn)比較好的性能,越來(lái)越多的學(xué)術(shù)機(jī)構(gòu)把目光投入深度學(xué)習(xí)領(lǐng)域。今年來(lái)活躍在機(jī)器學(xué)習(xí)領(lǐng)域的研究機(jī)構(gòu)包括眾多高校比如斯坦福,伯克利,還有一些企業(yè)例如Google,IBM 研究院,微軟研究院,FaceBook,百度等等。這些研究機(jī)構(gòu)在計(jì)算機(jī)領(lǐng)域的眾多應(yīng)用中都成功利用了深度學(xué)習(xí)方法,甚至有一個(gè)關(guān)于分子生物學(xué)的研究指出他們利用深度學(xué)習(xí)方法引領(lǐng)下發(fā)現(xiàn)了新的藥物。
本文只是闡述了截止2014年最新的有關(guān)深度學(xué)習(xí)研究的一部分內(nèi)容綜述,如果需要了解這個(gè)領(lǐng)域的最新進(jìn)展,推薦到以下網(wǎng)址獲取:
- http://deeplearning.net/reading-list/
- http://ufldl.stanford.edu/wiki/index.php/UFLDL_Recommended_Readings
- http://www.cs.toronto.edu/~hinton/
- http://deeplearning.net/tutorial/
- http://ufldl.stanford.edu/wiki/index.php/UFLDL_Tutorial
二、 深度學(xué)習(xí)歷史
直到近些年,大多數(shù)機(jī)器學(xué)習(xí)和信號(hào)處理技術(shù)大多還是采用淺層的結(jié)構(gòu),這些典型結(jié)構(gòu)包含至多一層或兩層非線性特征變換。這種淺層結(jié)構(gòu)的代表比如高斯混合模型(GMM),線性或非線性動(dòng)態(tài)系統(tǒng),條件隨機(jī)場(chǎng)(CRFs),最大熵模型,支持向量機(jī)(SVMs),邏輯回歸(LR),核回歸,多層感知器(MLPS)。例如,SVMs 使用了一個(gè)淺層的線性模式分類(lèi)器,當(dāng)使用核技巧的話,包含一個(gè)特征轉(zhuǎn)換層。淺層結(jié)構(gòu)方法(既機(jī)器學(xué)習(xí)方法)已經(jīng)在一些簡(jiǎn)單和有限制難題中得到了比較好的結(jié)果,但是當(dāng)處理復(fù)雜的現(xiàn)實(shí)世界的問(wèn)題時(shí)(例如語(yǔ)音,自然聲音圖像,語(yǔ)言,視場(chǎng)等),它們有限的模型復(fù)雜度和表達(dá)能力就遇到了困難。
人類(lèi)自我信息的處理和理解(例如視覺(jué)信息,聲音信息),一直以來(lái)都比較復(fù)雜,因此需要更深的結(jié)構(gòu)算法從輸入層中提取特征。比如說(shuō),語(yǔ)音生成和理解系統(tǒng)在把波形信號(hào)轉(zhuǎn)變成語(yǔ)言級(jí)別的信號(hào)的時(shí)候,就是設(shè)置了清晰的多層結(jié)構(gòu)去學(xué)習(xí)。歷史上來(lái)看,深度學(xué)習(xí)的概念起源于神經(jīng)網(wǎng)絡(luò)的研究。含有多隱層的前饋神經(jīng)網(wǎng)絡(luò)(BP)或者多層感知器(多隱層MLPs通常指深度神經(jīng)網(wǎng)絡(luò)DNNs),就是一個(gè)深度結(jié)構(gòu)模型的例子。BP神經(jīng)網(wǎng)絡(luò)流行在上世紀(jì)80年的,已經(jīng)成為廣為人知的學(xué)習(xí)算法。遺憾的是,加入多隱層的BP神經(jīng)網(wǎng)絡(luò)算法效果卻并不好(網(wǎng)絡(luò)中普遍存在的非凸目標(biāo)函數(shù)的局部最優(yōu)化調(diào)整問(wèn)題是主要的訓(xùn)練難題)。隨著網(wǎng)絡(luò)深度的增加,越難達(dá)到局部最優(yōu)化。而這個(gè)困境的原因是忽視了機(jī)器學(xué)習(xí)和信號(hào)處理領(lǐng)域的研究,比如機(jī)器學(xué)習(xí)方法中的SVM,CRF,和最大熵模型,包含損失函數(shù),使用這些方法可以有效獲得全局優(yōu)化。
深信網(wǎng)絡(luò)(deep belief network DBN)提出后,深度模型的最優(yōu)化困難可以在經(jīng)驗(yàn)上得到降低。DBN是由一組限制玻爾茲曼機(jī)(RBMs)組成的層次網(wǎng)絡(luò)學(xué)習(xí)算法,它可以在線性的時(shí)間復(fù)雜度內(nèi)達(dá)到模型參數(shù)的最優(yōu)化。使用MLP采用合理配置初始化權(quán)值后,DBN經(jīng)常能表現(xiàn)的比隨機(jī)參數(shù)更好一點(diǎn)。同理,含多隱層的MLPs 或者深度神經(jīng)網(wǎng)絡(luò)(DNN)學(xué)術(shù)上也被稱為DBNs。最近,研究人員已經(jīng)更精細(xì)的區(qū)分DNNs和DBNs,如果使用DBN去初始化DNN的訓(xùn)練的話,那么這個(gè)網(wǎng)絡(luò)就可以被稱為DBN-DNN。這上述的深度學(xué)習(xí)的理論提出后,學(xué)術(shù)界不斷提出改進(jìn)的理論來(lái)豐富深度學(xué)習(xí)的內(nèi)容,深度學(xué)習(xí)理論已經(jīng)得到了極大的豐富和發(fā)展。
我們可以從另一個(gè)角度來(lái)了解這個(gè)發(fā)展歷程,下圖展現(xiàn)了不同時(shí)代的神經(jīng)網(wǎng)絡(luò)被宣傳的熱度。巔峰期出現(xiàn)在1980s和1990s,此時(shí)被稱為神經(jīng)網(wǎng)絡(luò)的第二代。DBN在06年被研究出來(lái),當(dāng)DBN被用在初始化DNN的時(shí)候,學(xué)習(xí)算法的效率就變的更加有效,這促進(jìn)了學(xué)術(shù)界連續(xù)的快速研究成果。DBN和DNN的產(chǎn)業(yè)級(jí)語(yǔ)音特征提取和識(shí)別應(yīng)用出現(xiàn)在09年,當(dāng)時(shí)產(chǎn)業(yè)界和學(xué)術(shù)界以及深度學(xué)習(xí)的研究專(zhuān)家有著密切的相互合作。這種合作快速發(fā)展了語(yǔ)音識(shí)別的深度學(xué)習(xí)方法,并由此而取得了巨大成功。
industry scale
圖中“plateau of productivity(穩(wěn)定產(chǎn)出)”短語(yǔ)目前還沒(méi)有到來(lái),但是期望在未來(lái)將會(huì)比圖中顯示出的走勢(shì)更加劇烈,像標(biāo)記中的虛線那樣,而我們就是剛剛處于這個(gè)時(shí)期,尤其最近深度學(xué)習(xí)概念屢屢被熱炒,其發(fā)展熱度可見(jiàn)一斑。
三類(lèi)深度學(xué)習(xí)網(wǎng)絡(luò)
本篇介紹深度學(xué)習(xí)的大致分類(lèi),根據(jù)其應(yīng)用方式的不同,我們可以粗分類(lèi)幾種不同結(jié)構(gòu)的深度學(xué)習(xí)方法。
(1) 三種深度學(xué)習(xí)網(wǎng)絡(luò)分類(lèi)方式
如文章(一)中所述,深度網(wǎng)絡(luò)是指一大類(lèi)的機(jī)器學(xué)習(xí)和各種層次結(jié)構(gòu)結(jié)合的網(wǎng)絡(luò),其特性是使用多層的非線性信息處理方法(這和一般神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)類(lèi)似,包含了更多的隱層)。根據(jù)這些結(jié)構(gòu)和技術(shù)的應(yīng)用領(lǐng)域比如綜合/生成或識(shí)別/分類(lèi),我們可以大致的把這些結(jié)構(gòu)分為三類(lèi):
“混合”這一稱呼和一般學(xué)術(shù)指的不同,學(xué)術(shù)上可能指把一個(gè)神經(jīng)網(wǎng)絡(luò)的概率輸出反饋到HMM(隱形馬爾科夫模型,推薦李航的《統(tǒng)計(jì)學(xué)習(xí)方法》中了解)中所組成的語(yǔ)音識(shí)別系統(tǒng)。
如果按照普通的采用機(jī)器學(xué)習(xí)的慣例,那就可以很自然的把深度學(xué)習(xí)技術(shù)分為深度判別模型(監(jiān)督學(xué)習(xí))(比如深度神經(jīng)網(wǎng)絡(luò)或者DNNS,遞歸神經(jīng)網(wǎng)絡(luò)或者RNNs,卷積神經(jīng)網(wǎng)絡(luò)或者CNNs等等)和生成或非監(jiān)督模型(比如限制玻爾茲曼機(jī)或者RBMs,深信網(wǎng)絡(luò)或者DBNs,深度玻爾茲曼機(jī)(DBMs)規(guī)則自編碼器等等)。但這兩種分類(lèi)方式都忽略了生成或非監(jiān)督模型通過(guò)最優(yōu)化和正則化可以極大的改進(jìn)DNNs和其他深度判定模型和監(jiān)督模型的訓(xùn)練。并且,深度無(wú)監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)未必能從數(shù)據(jù)中有意義的采樣。我們注意到已經(jīng)有研究通過(guò)生成傳統(tǒng)的去噪自編碼器來(lái)來(lái)有效采樣(具體論文不列出,大家可以去搜搜看)。不管怎么說(shuō),傳統(tǒng)的兩種分類(lèi)方式的確指出了監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)深度網(wǎng)絡(luò)中的不同點(diǎn)。比較上面提到的兩類(lèi)深度學(xué)習(xí)方法,深度監(jiān)督學(xué)習(xí)方法例如DNNs是通常可以有效測(cè)試和訓(xùn)練的模型,可以靈活構(gòu)建并且適合復(fù)雜系統(tǒng)的首位相連的學(xué)習(xí)(比如loopy belief propagation)。另一方面來(lái)說(shuō),深度非監(jiān)督學(xué)習(xí)模型,特別是概率生成模型,更容易解釋,容易嵌入局部先驗(yàn)知識(shí),容易組織和容易處理不確定性。但是它在推理學(xué)習(xí)和復(fù)雜系統(tǒng)學(xué)習(xí)方面比較困難。這些區(qū)分也保留在本文推薦的三類(lèi)深度網(wǎng)絡(luò)模型分類(lèi)里面,這是一個(gè)好現(xiàn)象。
(2) 非監(jiān)督學(xué)習(xí)或生成學(xué)習(xí)深度網(wǎng)絡(luò)
非監(jiān)督學(xué)習(xí)指學(xué)習(xí)沒(méi)有監(jiān)督信息的數(shù)據(jù)(比如根本沒(méi)有數(shù)據(jù)的類(lèi)標(biāo)簽,無(wú)法根據(jù)數(shù)據(jù)的類(lèi)屬性分類(lèi))。很多這類(lèi)深度網(wǎng)絡(luò)可以從神經(jīng)網(wǎng)絡(luò)知識(shí)里借鑒生成,比如RBMs,DBNs,DBMs和生成去噪自編碼器。還有一些比如稀疏編碼網(wǎng)絡(luò)以及深度自編碼器的原始形式。下面給出這類(lèi)網(wǎng)絡(luò)的樣例以及相關(guān)文獻(xiàn)信息,具體內(nèi)容可以根據(jù)興趣學(xué)習(xí):
[1] Y. Bengio, N. Boulanger, and R. Pascanu. Advances in optimizing recurrent networks. In Proceedings of International Conference on Acoustics Speech and Signal Processing (ICASSP). 2013
[2] Y. Bengio, P. Lamblin, D. Popovici, and H. Larochelle. Greedy layerwise training of deep networks. In Proceedings of Neural Information Processing Systems (NIPS). 2006.
[3] Y. Bengio. Learning deep architectures for AI. in Foundations and Trends in Machine Learning, 2(1):1–127, 2009.
[4] Y. LeCun, S. Chopra, M. Ranzato, and F. Huang. Energy-based models in document recognition and computer vision. In Proceedings of International Conference on Document Analysis and Recognition (ICDAR).2007.
[5] J. Ngiam, Z. Chen, P. Koh, and A. Ng. Learning deep energy models. In Proceedings of International Conference on Machine Learning (ICML).2011.
[6] L. Deng, M. Seltzer, D. Yu, A. Acero, A. Mohamed, and G. Hinton.Binary coding of speech spectrograms using a deep autoencoder. In Proceedings of Interspeech. 2010.
[7] G. Hinton and R. Salakhutdinov. Reducing the dimensionality of data with neural networks. Science, 313(5786):504–507, July 2006.
[8] P. Vincent, H. Larochelle, I. Lajoie, Y. Bengio, and P. Manzagol.Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion. Journal of Machine Learning Research, 11:3371–3408, 2010.
[9] G. Hinton. A better way to learn features. Communications of the Association for Computing Machinery (ACM), 54(10), October 2011.
[10] I. Goodfellow, M. Mirza, A. Courville, and Y. Bengio. Multi-prediction deep boltzmann machines. In Proceedings of Neural Information Processing Systems (NIPS). 2013.
[11] R. Salakhutdinov and G. Hinton. Deep boltzmann machines. In Proceedings of Artificial Intelligence and Statistics (AISTATS). 2009.
[12] R. Salakhutdinov and G. Hinton. A better way to pretrain deep Boltzmann machines. In Proceedings of Neural Information Processing Systems (NIPS). 2012.
[13] N. Srivastava and R. Salakhutdinov. Multimodal learning with deep boltzmann machines. In Proceedings of Neural Information Processing Systems (NIPS). 2012.
[14] G. Dahl, M. Ranzato, A. Mohamed, and G. Hinton. Phone recognition with the mean-covariance restricted boltzmann machine. In Proceedings of Neural Information Processing Systems (NIPS), volume 23, pages 469–477. 2010.
[15] M. Ranzato and G. Hinton. Modeling pixel means and covariances using factorized third-order boltzmann machines. In Proceedings of Computer Vision and Pattern Recognition (CVPR). 2010.
[16] A. Mohamed, G. Hinton, and G. Penn. Understanding how deep belief networks perform acoustic modelling. In Proceedings of International Conference on Acoustics Speech and Signal Processing (ICASSP). 2012.
[17] R. Gens and P. Domingo. Discriminative learning of sum-product networks.Neural Information Processing Systems (NIPS), 2012.
[18] H. Poon and P. Domingos. Sum-product networks: A new deep architecture.In Proceedings of Uncertainty in Artificial Intelligence. 2011.
[19] J. Martens and I. Sutskever. Learning recurrent neural networks with hessian-free optimization. In Proceedings of International Conference on Machine Learning (ICML). 2011.
[20] Y. Bengio. Deep learning of representations: Looking forward. In Statistical Language and Speech Processing, pages 1–37. Springer, 2013.
[21] I. Sutskever. Training recurrent neural networks. Ph.D. Thesis, University of Toronto, 2013.
[22] T. Mikolov, M. Karafiat, L. Burget, J. Cernocky, and S. Khudanpur. Recurrent neural network based language model. In Proceedings of International Conference on Acoustics Speech and Signal Processing (ICASSP), pages 1045–1048. 2010.
[23] G. Mesnil, X. He, L. Deng, and Y. Bengio. Investigation of recurrentneural-network architectures and learning methods for spoken language understanding. In Proceedings of Interspeech. 2013.
[24] K. Yao, G. Zweig, M. Hwang, Y. Shi, and D. Yu. Recurrent neural networks for language understanding. In Proceedings of Interspeech.2013.
[25] Z. Ling, L. Deng, and D. Yu. Modeling spectral envelopes using restricted boltzmann machines for statistical parametric speech synthesis.In International Conference on Acoustics Speech and Signal Processing (ICASSP), pages 7825–7829. 2013.
[26] M. Shannon, H. Zen, and W. Byrne. Autoregressive models for statistical parametric speech synthesis. IEEE Transactions on Audio, Speech,Language Processing, 21(3):587–597, 2013.
[27] H. Zen, Y. Nankaku, and K. Tokuda. Continuous stochastic feature mapping based on trajectory HMMs. IEEE Transactions on Audio,Speech, and Language Processings, 19(2):417–430, February 2011.
[28] M. Wohlmayr, M. Stark, and F. Pernkopf. A probabilistic interaction model for multi-pitch tracking with factorial hidden markov model.IEEE Transactions on Audio, Speech, and Language Processing, 19(4),May 2011.
[29] R. Socher, C. Lin, A. Ng, and C. Manning. Parsing natural scenes and natural language with recursive neural networks. In Proceedings of International Conference on Machine Learning (ICML). 2011.
[30] R. Socher, Y. Bengio, and C. Manning. Deep learning for NLP.Tutorial at Association of Computational Logistics (ACL), 2012, and North American Chapter of the Association of Computational Linguistics (NAACL), 2013.
http://www.socher.org/index.php/DeepLearning?Tutorial.
(有點(diǎn)多。。。大家可以根據(jù)需要檢索,不過(guò)都是比較新的索引文獻(xiàn),值得一讀)
(3) 監(jiān)督學(xué)習(xí)深度網(wǎng)絡(luò)
很多信號(hào)和信息處理方面的監(jiān)督學(xué)習(xí)的判別技術(shù)都是淺層結(jié)構(gòu)比如HMMs(隱形馬爾科夫模型)和條件隨機(jī)場(chǎng)(CRFs),條件隨機(jī)場(chǎng)本質(zhì)上就是一個(gè)淺層判別模型,在輸入特征和多度特征上用線性關(guān)系描述。最近深度組織CRFs被提出來(lái),它存儲(chǔ)每一層CRF的輸出,和原始輸入數(shù)據(jù)一起傳輸?shù)剿母邔印8鞣N版本的深度組織CRFs已經(jīng)成功的應(yīng)用在了電話語(yǔ)音識(shí)別,語(yǔ)音識(shí)別和自然語(yǔ)言處理上。下面給出監(jiān)督學(xué)習(xí)相關(guān)的深度網(wǎng)絡(luò)方面的參考文獻(xiàn),具體內(nèi)容大家根據(jù)興趣查找閱讀:
[1] M. Gibson and T. Hain. Error approximation and minimum phone error acoustic model estimation. IEEE Transactions on Audio, Speech, and Language Processing, 18(6):1269–1279, August 2010.
[2] Heintz, E. Fosler-Lussier, and C. Brew. Discriminative input stream combination for conditional random field phone recognition. IEEE Transactions on Audio, Speech, and Language Processing, 17(8):1533–1546, November 2009.
[3] G. Heigold, H. Ney, P. Lehnen, T. Gass, and R. Schluter. Equivalence of generative and log-liner models. IEEE Transactions on Audio, Speech,and Language Processing, 19(5):1138–1148, February 2011.
[4] D. Yu, S. Wang, and L. Deng. Sequential labeling using deep-structured conditional random fields. Journal of Selected Topics in Signal Processing,4:965–973, 2010.
[5] D. Yu and L. Deng. Deep-structured hidden conditional random fields for phonetic recognition. In Proceedings of Interspeech. September 2010.
[6] D. Yu, S. Wang, and L. Deng. Sequential labeling using deep-structured conditional random fields. Journal of Selected Topics in Signal Processing,4:965–973, 2010.
[7] N. Morgan. Deep and wide: Multiple layers in automatic speech recognition.IEEE Transactions on Audio, Speech, & Language Processing,20(1), January 2012.
[8] L. Deng and D. Yu. Deep convex network: A scalable architecture for speech pattern classification. In Proceedings of Interspeech. 2011
[9] L. Deng, D. Yu, and J. Platt. Scalable stacking and learning for building deep architectures. In Proceedings of International Conference on Acoustics Speech and Signal Processing (ICASSP). 2012a.
[10] B. Hutchinson, L. Deng, and D. Yu. A deep architecture with bilinear modeling of hidden representations: Applications to phonetic recognition.In Proceedings of International Conference on Acoustics Speech and Signal Processing (ICASSP). 2012.
[11] L. Deng, G. Tur, X. He, and D. Hakkani-Tur. Use of kernel deep convex networks and end-to-end learning for spoken language understanding.In Proceedings of IEEE Workshop on Spoken Language Technologies.December 2012.
[12] L. Deng, K. Hassanein, and M. Elmasry. Analysis of correlation structure for a neural predictive model with application to speech recognition.Neural Networks, 7(2):331–339, 1994.
[13] A. Graves. Sequence transduction with recurrent neural networks. Representation
[14] Learning Workshop, International Conference on Machine Learning (ICML), 2012
[15] A. Graves, A. Mohamed, and G. Hinton. Speech recognition with deep recurrent neural networks. In Proceedings of International Conference on Acoustics Speech and Signal Processing (ICASSP). 2013.
(4) 混合深度網(wǎng)絡(luò)
“混合”這個(gè)名詞使用在這個(gè)類(lèi)別里正是指一類(lèi)既包含和利用了生成模型也用了判別模型的一種深度網(wǎng)絡(luò)。在目前學(xué)術(shù)圈發(fā)表的混合結(jié)構(gòu)模型中,生成組件最常被用來(lái)幫助判別模型,判別模型是這個(gè)混合模型的最終目標(biāo)。生成模型如何促進(jìn)判別模型可以從下列兩種觀點(diǎn)來(lái)佐證:
下面提供關(guān)于這類(lèi)模型相關(guān)的參考文獻(xiàn),相信大家可以從中學(xué)習(xí)到比較深入的知識(shí)。
[1] D. Erhan, Y. Bengio, A. Courvelle, P.Manzagol, P. Vencent, and S. Bengio.Why does unsupervised pre-training help deep learning? Journal on Machine Learning Research, pages 201–208, 2010.
[2] D. Erhan, Y. Bengio, A. Courvelle, P.Manzagol, P. Vencent, and S. Bengio.Why does unsupervised pre-training help deep learning? Journal on Machine Learning Research, pages 201–208, 2010.
[3] A. Mohamed, D. Yu, and L. Deng. Investigation of full-sequence training of deep belief networks for speech recognition. In Proceedings of Interspeech. 2010.
[4] B. Kingsbury, T. Sainath, and H. Soltau. Scalable minimum bayes risk training of deep neural network acoustic models using distributed hessian-free optimization. In Proceedings of Interspeech. 2012.
[5] M. Ranzato, J. Susskind, V. Mnih, and G. Hinton. On deep generative models with applications to recognition. In Proceedings of Computer Vision and Pattern Recognition (CVPR). 2011.
[6] H. Lee, R. Grosse, R. Ranganath, and A. Ng. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations.In Proceedings of International Conference on Machine Learning (ICML). 2009.
在接下來(lái)的一篇文章中,我們將詳細(xì)說(shuō)明三種深度學(xué)習(xí)領(lǐng)域典型類(lèi)型的模型。給出簡(jiǎn)單的結(jié)構(gòu)描述和數(shù)學(xué)描述。這三種舉例的模型可能不一定是最具代表性和有影響力的模型,不過(guò)可以作為一種說(shuō)明來(lái)讓大家明白區(qū)別。
深度自編碼———-非監(jiān)督學(xué)習(xí)
一下介紹了非監(jiān)督學(xué)習(xí)深度網(wǎng)絡(luò)模型,我們以此開(kāi)始三種類(lèi)別網(wǎng)絡(luò)的實(shí)例化介紹。
深度自編碼是一類(lèi)特別的DNN(不含有類(lèi)標(biāo)簽),它的輸出向量和輸入向量維度相同。它常常用來(lái)學(xué)習(xí)一種原始數(shù)據(jù)的表示或者有效的編碼方式,并在隱藏的輸入層作為向量的形式表示。注意自編碼模型是一種非線性特征提取模型,沒(méi)有類(lèi)標(biāo)簽。同樣的,特征提取模型目標(biāo)是保存和更好的表示信息而不是任務(wù)分類(lèi),經(jīng)過(guò)某些方面來(lái)說(shuō)這兩個(gè)目標(biāo)相互聯(lián)系。
一個(gè)典型的自編碼模型擁有一個(gè)可以表示原始數(shù)據(jù)的輸入層或者說(shuō)叫輸入特征向量(比如,圖像像素或者聲音頻譜),一個(gè)或者更多表示特征轉(zhuǎn)換的隱藏層,以及一個(gè)匹配輸入層用來(lái)重建的輸出層。當(dāng)隱藏層數(shù)量超過(guò)一個(gè)的時(shí)候,自編碼模型就認(rèn)為是深度自編碼模型。隱藏層的維度既可以比輸入層維度更小(目的是壓縮特征)也可以更大(目的是把特征映射到更高維空間)。
自編碼模型經(jīng)常使用隨機(jī)梯度下降法訓(xùn)練參數(shù)。盡管這樣的方法很有效,但經(jīng)常在訓(xùn)練帶有多隱層的網(wǎng)絡(luò)的時(shí)候有一些基本困難。當(dāng)一些誤差反饋到初始的一些層的時(shí)候,誤差變得極小,訓(xùn)練變得無(wú)效起來(lái)。雖然有些其它的更高級(jí)的反饋傳播方法某種程度上可以去解決這些困難,但是仍然導(dǎo)致低效,尤其是當(dāng)訓(xùn)練數(shù)據(jù)有限的時(shí)候。但幸運(yùn)的是,這個(gè)難題可以通過(guò)把每一層網(wǎng)絡(luò)昨晚自編碼模型進(jìn)行預(yù)訓(xùn)練來(lái)解決(引用:G. Hinton, S. Osindero, and Y. Teh. A fast learning algorithm for deep belief nets. Neural Computation, 18:1527–1554, 2006.)。這種策略已經(jīng)被應(yīng)用在很多方面比如:使用深度自編碼去把圖像映射到一個(gè)基于短二進(jìn)制編碼的圖像檢索中,編碼文檔(稱為語(yǔ)意哈希)以及編碼頻譜類(lèi)語(yǔ)音特征中。
1) 使用深度自編碼提取語(yǔ)音特征
這里我們回顧一組工作,其發(fā)表在(L. Deng, M. Seltzer, D. Yu, A. Acero, A. Mohamed, and G. Hinton.Binary coding of speech spectrograms using a deep autoencoder. In
Proceedings of Interspeech. 2010.),這篇文章發(fā)展出了使用非監(jiān)督方式從原始頻譜語(yǔ)音數(shù)據(jù)中提取二進(jìn)制語(yǔ)音編碼的方法自編碼模型。這種從模型中提取的依據(jù)二進(jìn)制編碼的離散表示法能應(yīng)用在信息檢索或者在語(yǔ)音識(shí)別中作為瓶頸特性。
包含256種頻段和1,3,9或13幀的頻譜塊生成模型如下圖所示。這種稱為無(wú)向圖模型稱為Gaussian-Bernoulli RBM(高斯-伯努利受限玻爾茲曼機(jī)),它含有一個(gè)加高斯噪聲的線性參數(shù)的可見(jiàn)層和一個(gè)包含500到3000二進(jìn)制隱變量的隱層。學(xué)習(xí)Gaussian-Bernoulli RBM后,它的隱單元的響應(yīng)可以作為訓(xùn)練其他Gaussian-Bernoulli RBM的輸入。這兩個(gè)Gaussian-Bernoulli RBM可以組成一個(gè)深信網(wǎng)絡(luò)(deep belief net DBN),這篇論文中使用的DBN表示在圖的左側(cè),兩個(gè)RBMS被分開(kāi)表示。
這個(gè)包含三層隱層的深度自編碼模型使用DBN的權(quán)矩陣鋪開(kāi)組成。最底下一層使用權(quán)矩陣編碼輸入,上一層使用權(quán)矩陣倒序的編碼輸入。然后此深度自編碼模型使用誤差反饋來(lái)微調(diào)以最小化重建誤差,如圖右邊所示。當(dāng)學(xué)習(xí)過(guò)程結(jié)束的時(shí)候,一個(gè)可變長(zhǎng)度的頻譜圖可以被編碼和重構(gòu)。
2) 堆疊噪聲自編碼模型
在早期的自編碼研究中,編碼層維度比輸入層維度小。然而,在某些應(yīng)用領(lǐng)域需要編碼層維度更大一些,這些情況下,一些需要一些技術(shù)去防止神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)一些瑣碎無(wú)用的映射函數(shù)。使用更高維度隱層和編碼層的一個(gè)原因是使得自編碼模型捕捉到輸入數(shù)據(jù)的更豐富的信息。
避免上面提到瑣碎映射函數(shù)問(wèn)題的方法包括使用稀疏約束,或者使用隨機(jī)丟棄方法比如隨機(jī)的強(qiáng)制某些數(shù)值歸零,由此引入輸入層或者隱層數(shù)據(jù)噪聲。例如,在堆疊噪聲自編碼模型(詳細(xì)見(jiàn),P. Vincent, H. Larochelle, I. Lajoie, Y. Bengio, and P. Manzagol.
Stacked denoising autoencoders: Learning useful representations in a
deep network with a local denoising criterion. Journal of Machine
Learning Research, 11:3371–3408, 2010.)中,隨機(jī)噪聲加在輸入數(shù)據(jù)里。這有幾個(gè)目的,第一,強(qiáng)制輸出匹配原始無(wú)失真輸入數(shù)據(jù),模型能避免學(xué)習(xí)到瑣碎無(wú)用函數(shù)。第二,噪聲隨機(jī)加入后,學(xué)習(xí)到的模型在同樣畸變的測(cè)試數(shù)據(jù)中將更具魯棒性。第三,每處畸變輸入樣本不同,極大的提高了測(cè)試集尺寸并因此減輕過(guò)擬合線問(wèn)題。
3) 變換自編碼模型
上述深度自編碼模型可以提取穩(wěn)固的特征向量編碼歸功于模型中多層的非線性處理過(guò)程。然而,這種方法提取到的編碼是多種多樣的。換句話說(shuō),當(dāng)測(cè)試者選擇的輸入特征向量變化的時(shí)候,提取的編碼將會(huì)改變。有時(shí)候需要編碼變化是可預(yù)測(cè)的并且反應(yīng)獲取內(nèi)容的相對(duì)不變性。懷著這種目標(biāo)的變換自編碼模型在圖像識(shí)別中被提出(G. Hinton, A. Krizhevsky, and S. Wang. Transforming autoencoders. In
Proceedings of International Conference on Artificial Neural Networks.
2011.)。
變換自編碼模型的構(gòu)件是一個(gè)被稱為“膠囊”的東西,它是一個(gè)獨(dú)立子網(wǎng)絡(luò),其提取一個(gè)單一參數(shù)化特征并且表示一個(gè)單一實(shí)體(一個(gè)可視的或者音頻的東西)。變換自編碼同時(shí)接收輸入向量和目標(biāo)輸出向量(通過(guò)一個(gè)全局變換機(jī)制從輸入向量變換得到)。一個(gè)顯示表示全局變換機(jī)制假定已知。變換自編碼模型的編碼層由一些“膠囊”組成。
在訓(xùn)練階段,不同的膠囊學(xué)習(xí)提取不同的實(shí)體以便最小化最終輸出和目標(biāo)輸出的誤差。
除了這里介紹的深度自編碼結(jié)構(gòu)以外,這里有很多學(xué)術(shù)上描述的生成模型只使用數(shù)據(jù)本身(無(wú)分類(lèi)標(biāo)簽數(shù)據(jù)),用來(lái)自動(dòng)獲取高層特征信息。
預(yù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)———-混合體
在此篇里,我們介紹一種廣泛使用的混合深度結(jié)構(gòu)————預(yù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)(PDNN)并且討論一下相關(guān)技術(shù)以及構(gòu)建RBM(受限玻爾茲曼機(jī))和DBN(上面描述過(guò))。我們?cè)谏疃壬窠?jīng)網(wǎng)絡(luò)(DNN)之前討論混合的DNN實(shí)例部分是因?yàn)閺姆潜O(jiān)督模型到DNN中間的混合模型再到DNN的過(guò)度比較自然。監(jiān)督學(xué)習(xí)的屬性已經(jīng)廣為人知,因此很容易理解使用了非監(jiān)督預(yù)訓(xùn)練的DNN混合模型。
本節(jié)參考了最近發(fā)布的文章:
【1】G. Dahl, D. Yu, L. Deng, and A. Acero. Context-dependent, pre-trained
deep neural networks for large vocabulary speech recognition. IEEE
Transactions on Audio, Speech, & Language Processing, 20(1):30–42,
January 2012.
【2】G. Hinton, L. Deng, D. Yu, G. Dahl, A. Mohamed, N. Jaitly, A. Senior,
V. Vanhoucke, P. Nguyen, T. Sainath, and B. Kingsbury. Deep neural
networks for acoustic modeling in speech recognition. IEEE Signal
Processing Magazine, 29(6):82–97, November 2012.
【3】D. Yu and L. Deng. Deep learning and its applications to signal and
information processing. IEEE Signal Processing Magazine, pages 145–
154, January 2011.
1) 限制玻爾茲曼機(jī)(RBM)
限制玻爾茲曼機(jī)是一種特殊類(lèi)型的馬爾科夫隨機(jī)場(chǎng),它含有一層隨機(jī)隱藏單元和一層隨機(jī)可見(jiàn)單元。RBM能表示一個(gè)二分圖,所有可見(jiàn)的單元鏈接到所有隱藏單元,而且沒(méi)有可見(jiàn)—-可見(jiàn)或者隱藏—-隱藏之間的鏈接。
2) 非監(jiān)督層級(jí)預(yù)訓(xùn)練
這里我們描述如何堆疊RBMs并構(gòu)成DBN作為DNN預(yù)訓(xùn)練的基礎(chǔ)。在討論細(xì)節(jié)之前,我們首先注意一下由Hinton和Salakhutdinov提出的程序(【1】G. Hinton, S. Osindero, and Y. Teh. A fast learning algorithm for deep
belief nets. Neural Computation, 18:1527–1554, 2006.),這是一個(gè)更一般的非監(jiān)督層級(jí)預(yù)訓(xùn)練。也就是說(shuō),不僅RBMs可以堆疊生成深度生成網(wǎng)絡(luò),其他類(lèi)型的神經(jīng)網(wǎng)絡(luò)也可以做相同的事情,比如由Bengio提出了使用自編碼的一個(gè)變體記性預(yù)訓(xùn)練生成深度網(wǎng)絡(luò)(Y. Bengio, P. Lamblin, D. Popovici, and H. Larochelle. Greedy layerwise
training of deep networks. In Proceedings of Neural Information
Processing Systems (NIPS). 2006.)。
層次堆疊的RBM可以生成DBN,如下圖就是一個(gè)這樣的例子。堆疊過(guò)程如下:當(dāng)學(xué)習(xí)一個(gè)高斯伯努利RBM(比如連續(xù)語(yǔ)音特性的應(yīng)用)后,我們把當(dāng)前層的響應(yīng)作為下一層的訓(xùn)練數(shù)據(jù)。第二層的響應(yīng)用作為第三層的輸入數(shù)據(jù),以此類(lèi)推。這種層次堆疊的貪婪學(xué)習(xí)策略已經(jīng)在文章【1】有了理論分析驗(yàn)證。注意這種學(xué)習(xí)過(guò)程是非監(jiān)督的而且不需要類(lèi)標(biāo)簽。
當(dāng)用在分類(lèi)任務(wù)的時(shí)候,這種預(yù)訓(xùn)練模型可以相互連接,并且有識(shí)別能力的學(xué)習(xí)過(guò)程可以微調(diào)所有連接權(quán)提高網(wǎng)絡(luò)的能力。這種可識(shí)別的能力的微調(diào)通過(guò)添加表示一組表示目標(biāo)輸出數(shù)據(jù)的最終參數(shù)層來(lái)實(shí)現(xiàn)。然后,反饋調(diào)節(jié)算法可以調(diào)整網(wǎng)絡(luò)權(quán)值來(lái)修正參數(shù)。最上一層的標(biāo)簽層是什么是根據(jù)DNN的應(yīng)用領(lǐng)域的不同而定。
基于RBM堆疊為RBM的預(yù)訓(xùn)練已經(jīng)在大多數(shù)場(chǎng)合得到很好表現(xiàn)。需要指出的是除了這種方式以外還有很多其他方式作為預(yù)訓(xùn)練方法。
3) 連接DNNS和HMMS
目前討論的預(yù)訓(xùn)練的DNN是一個(gè)顯著的混合深度網(wǎng)絡(luò),它是一個(gè)輸入向量固定維度的靜態(tài)分類(lèi)器。然而,很多實(shí)際的模式識(shí)別和信息處理難題,包括語(yǔ)音識(shí)別,機(jī)器翻譯,自然語(yǔ)義理解,視頻處理和生物信息處理需要連續(xù)識(shí)別。在連續(xù)識(shí)別中,輸入層和輸出層的維度是變化的。
基于動(dòng)態(tài)編程操作的隱形馬爾科夫模型(HMM)是一個(gè)解決這個(gè)問(wèn)題的方便方法。因此,很自然而然的想到結(jié)合前饋神經(jīng)網(wǎng)絡(luò)和HMM橋接。一個(gè)使用DNN解決這個(gè)問(wèn)題的流行結(jié)構(gòu)如下圖所示。這個(gè)結(jié)構(gòu)成功的應(yīng)用在了語(yǔ)音識(shí)別實(shí)驗(yàn)中(G. Dahl, D. Yu, L. Deng, and A. Acero. Context-dependent DBNHMMs
in large vocabulary continuous speech recognition. In Proceedings
of International Conference on Acoustics Speech and Signal Processing
(ICASSP). 2011.)。
深度堆棧網(wǎng)絡(luò)———-監(jiān)督學(xué)習(xí)
在識(shí)別和分類(lèi)任務(wù)包括語(yǔ)音識(shí)別和圖像分類(lèi)中,DNN已經(jīng)展現(xiàn)了巨大的威力,但是訓(xùn)練一個(gè)DNN網(wǎng)絡(luò)卻因?yàn)閺?fù)雜度高而難以計(jì)算。尤其是常見(jiàn)的訓(xùn)練DNN的技術(shù)涉及計(jì)算復(fù)雜度高的隨機(jī)梯度下降法,這很難通過(guò)機(jī)器并行(CPU)來(lái)提高速度。這使得學(xué)習(xí)變成一個(gè)大規(guī)模復(fù)雜問(wèn)題。現(xiàn)在可以使用一個(gè)單一功能強(qiáng)悍的GPU去訓(xùn)練DNN為基礎(chǔ)的包含數(shù)十到數(shù)百數(shù)千小時(shí)訓(xùn)練數(shù)據(jù)的表現(xiàn)很好的語(yǔ)音識(shí)別器。然而,現(xiàn)在還不清楚如何使用更大規(guī)模的訓(xùn)練數(shù)據(jù)來(lái)提高識(shí)別的成功率。J. Dean, G. Corrado, R. Monga, K. Chen, M. Devin, Q. Le, M. Mao,
M. Ranzato, A. Senior, P. Tucker, K. Yang, and A. Ng. Large scale
distributed deep networks. In Proceedings of Neural Information Processing
Systems (NIPS). 2012.介紹了一些最近的探索工作。
這里我們描述一種新的深度學(xué)習(xí)結(jié)構(gòu)——-深度堆疊網(wǎng)絡(luò)(DSN)。這小節(jié)基于最近發(fā)表的幾篇文章并作進(jìn)一步討論:
【1】L. Deng and D. Yu. Deep convex network: A scalable architecture for
speech pattern classification. In Proceedings of Interspeech. 2011.
【2】L. Deng, D. Yu, and J. Platt. Scalable stacking and learning for building
deep architectures. In Proceedings of International Conference on
Acoustics Speech and Signal Processing (ICASSP). 2012a.
【3】B. Hutchinson, L. Deng, and D. Yu. A deep architecture with bilinear
modeling of hidden representations: Applications to phonetic recognition.
In Proceedings of International Conference on Acoustics Speech
and Signal Processing (ICASSP). 2012.
【4】B. Hutchinson, L. Deng, and D. Yu. Tensor deep stacking networks.
IEEE Transactions on Pattern Analysis and Machine Intelligence,
35:1944–1957, 2013.
DSN的主要設(shè)計(jì)概念基于堆疊方法,在L. Breiman. Stacked regression. Machine Learning, 24:49–64, 1996.中有基本概念的描述。堆疊方法首先構(gòu)建一個(gè)單模型函數(shù)或分類(lèi)器,然后把這些函數(shù)相互堆疊“堆疊”以便學(xué)習(xí)復(fù)雜的函數(shù)或分類(lèi)器。很多實(shí)現(xiàn)堆疊的操作方法在最近被提了出來(lái),主要思想是利用在單一模型中使用可監(jiān)督的信息。堆疊分類(lèi)器上層的分類(lèi)器使用串聯(lián)結(jié)構(gòu)中的下層分類(lèi)器的輸出以及初始輸入中獲取新的特征。在這片論文中
(W. Cohen and R. V. de Carvalho. Stacked sequential learning. In
Proceedings of International Joint Conference on Artificial Intelligence
(IJCAI), pages 671–676. 2005.)堆疊模型使用的簡(jiǎn)單模型是條件隨機(jī)場(chǎng)(CRF)。添加隱藏狀態(tài)后,這類(lèi)深度結(jié)構(gòu)在自然語(yǔ)言處理和語(yǔ)音識(shí)別領(lǐng)域(這些應(yīng)用的訓(xùn)練數(shù)據(jù)的分割信息位置)應(yīng)用取得了進(jìn)一步發(fā)展并取得成果。在這片論文中
(K. Jarrett, K. Kavukcuoglu, and Y. LeCun. What is the best multistage
architecture for object recognition? In Proceedings of International
Conference on Computer Vision, pages 2146–2153. 2009.),卷積神經(jīng)網(wǎng)絡(luò)也被當(dāng)做堆疊結(jié)構(gòu),但是監(jiān)督信息通常在最終的堆疊模型中并未使用。
DSN結(jié)構(gòu)最早在論文【1】中提出,當(dāng)時(shí)被作為深度凸網(wǎng)絡(luò),用來(lái)強(qiáng)調(diào)主要學(xué)習(xí)網(wǎng)絡(luò)算法中的凸特性。DSN把監(jiān)督信息用在相互堆疊的基礎(chǔ)模型中,模型利用了多層感知器的方便性。在基礎(chǔ)模型中,輸出單元是線性的而且隱層sigmoidal(反曲函數(shù))非線性。輸出層的線性特征能使用較好的凸優(yōu)化求解。由于在輸入和輸出之間的封閉限制,輸入層權(quán)值能高效估計(jì)出來(lái)。
一種基礎(chǔ)深度堆疊網(wǎng)絡(luò)結(jié)構(gòu)
如下圖所示是一種DSN結(jié)構(gòu)模型,包含可變數(shù)量的層次化模型,其中每一個(gè)模型都是由一個(gè)隱層和兩組可訓(xùn)練的權(quán)值組成典型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。在圖中,只展示了四個(gè)此類(lèi)模型,每個(gè)模型都由不同的顏色表示。事實(shí)上,在圖像和語(yǔ)音分類(lèi)實(shí)驗(yàn)中有數(shù)百數(shù)千個(gè)模型被高效訓(xùn)練著。
此深度堆疊模型使用輸入輸出堆疊,展示了四個(gè)模型堆疊,虛線表示層的復(fù)制
DSN結(jié)構(gòu)中最低一層模型包含一個(gè)線性輸入單元的輸入層,一個(gè)非線性單元的非線性隱層和第二個(gè)線性輸出單元的線性層。隱藏層使用了sigmoidal非線性函數(shù)(當(dāng)然可以使用其他非線性函數(shù),原理相同,非線性函數(shù)保證模型訓(xùn)練出的映射的非線性,否則訓(xùn)練出的映射是線性)。如果DSN用在識(shí)別一個(gè)圖像,輸入單元可以適應(yīng)一組圖像像素(或者一組圖像特征)。如果用在語(yǔ)音識(shí)別,輸入單元可以適應(yīng)一組語(yǔ)音波形樣本或者提取的語(yǔ)音波形特征,比如功率譜和倒譜系數(shù)。輸出單元表示目標(biāo)的分類(lèi)信息。例如, DSN用來(lái)識(shí)別數(shù)字,輸出可能表示0,1,2,3 等等的數(shù)值并采用二進(jìn)制編碼的形式。
較低層的權(quán)值矩陣我們可以用W表示,連接了線性輸入單元和非線性隱層單元。上一層權(quán)值矩陣用U表示,連接非線性隱層和線性輸出層。權(quán)值矩陣U可根據(jù)W的值采用均方差訓(xùn)練方法確定封閉解。
如上所述,DSN包括一組連接,重疊和層次的模型。其中每個(gè)模型有相同的結(jié)構(gòu)。注意的是底層輸出單元是臨近高層模型的輸入單元的子集。具體來(lái)說(shuō),DSN靠上的一層的輸入層包含底層輸出層的單元,邏輯上說(shuō)也包括初始時(shí)候的原始圖像特征。
一個(gè)學(xué)習(xí)好的DSN可以部署在自動(dòng)分類(lèi)任務(wù)例如幀水平語(yǔ)音通話或者狀態(tài)分類(lèi)中。把DSN的輸出層連接到HMM或者任何動(dòng)態(tài)可編程設(shè)備可以進(jìn)行連續(xù)語(yǔ)音識(shí)別任務(wù)和其他類(lèi)型序列模式識(shí)別任務(wù)。
from:?http://www.goldencui.org/2014/12/02/%E7%AE%80%E6%98%8E%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E6%96%B9%E6%B3%95%E6%A6%82%E8%BF%B0%EF%BC%88%E4%B8%80%EF%BC%89/
http://www.goldencui.org/2014/12/06/%E7%AE%80%E6%98%8E%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E6%96%B9%E6%B3%95%E6%A6%82%E8%BF%B0%EF%BC%88%E4%BA%8C%EF%BC%89/
http://www.goldencui.org/2015/03/02/%E7%AE%80%E6%98%8E%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E6%96%B9%E6%B3%95%E6%A6%82%E8%BF%B0%EF%BC%88%E4%B8%89%EF%BC%89/
總結(jié)
以上是生活随笔為你收集整理的Deep Learning简明深度学习方法概述的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 基于tensorflow的MNIST手写
- 下一篇: windows64位环境下python安