深度学习的常用框架
目?錄
一、Caffe?(源于Berkeley的主流CV工具包)
二、TensorFlow?(Google的深度學習框架)
三、Torch?(Facebook用的卷積神經網絡工具包)
四、Theano?
五、Keras?
六、MXNet
七、其他深度學習框架
八、其他知識拓展認識
前言:深度學習框架是幫助使用者進行深度學習的工具,它的出現降低了深度學習入門的門檻,你不需要從復雜的神經網絡開始編代碼,就可以根據需要使用現有的模型。各種開源深度學習框架也層出不窮,其中包括Caffe、TensorFlow、Keras、Torch7、MXNet、CNTK、Leaf、Theano、DeepLearning4、Lasagne、Neon等等。不同框架之間的“好與壞”,沒有一個統一的標準。
本人僅是深度學習的探索者,綜合網上前輩的資源,先給出一個表“各個開源框架在GitHub上的數據統計”,然后對其中的幾個分別進行如下總結:
一、Caffe?(源于Berkeley的主流CV工具包)
1.1?Caffe簡述。
全稱為Convolutional?Architecture?for?Fast?Feature?Embedding,是一個被廣泛使用的開源深度學習框架(在TensorFlow出現之前一直是深度學習領域GitHub?star最多的項目),目前由伯克利視覺學中心(Berkeley?Vision?and?Learning?Center,BVLC)進行維護。Caffe的創始人是加州大學伯克利的Ph.D.賈揚清,他同時也是TensorFlow的作者之一,曾工作于MSRA、NEC和Google?Brain,目前就職于Facebook?FAIR實驗室。
Caffe基于C++和英偉達(NVIDIA)公司的GPU(Graphic?Processing?Unit)通用計算架構CUDA(Compute?Unified?Device?Architecture)開發,特點是高效、可配置化的輸入、GPU和CPU的無縫切換。當然還有非常重要的一點,Caffe擁有龐大的社區,無論是科研領域還是業界都有大量的用戶。每當一些最前沿的深度學習方法發表后,沒多久就會有官方的預訓練模型或是第三方基于Caffe的實現,所以Caffe是一個對初學者和有經驗的人都非常適合的工具。
值得注意的是:Caffe是目前最成熟的框架,雖然有被TensorFlow趕超之勢,但是對于初學者而言最容易找到的資料還是Caffe,而且Caffe上手難度略低于TensorFlow。MXNet的上手難度低,非常適合初學者。一直以來遭到詬病的文檔“爛”問題隨著Amazon的支持應該會慢慢改善,潛力很好。
?
1.2?Caffe介紹。
首先,官方網址:caffe.berkeleyvision.org/?及其GitHub:github.com/BVLC/caffe
其次,概括一下Caffe主要特點:源于Berkeley的主流CV工具包,支持C++,python,matlab,Model?Zoo中有大量預訓練好的模型供使用。容易上手,網絡結構都是以配置文件形式定義,不需要用代碼設計網絡。訓練速度快,能夠訓練state-of-the-art的模型與大規模的數據。組件模塊化,可以方便地拓展到新的模型和學習任務上。在計算機視覺領域Caffe應用尤其多,可以用來做人臉識別、圖片分類、位置檢測、目標追蹤等。擁有大量的訓練好的經典模型(AlexNet、VGG、Inception)乃至其他state-of-the-art(ResNet等)的模型,都收藏在Model?Zoo(一個可以下載Caffe模型以及網絡權重的網站)中,還可以幫助你快速地準備樣本。但是,需要注意的是,在Caffe框架中,要調整超參數比其他框架更為繁瑣,部分原因是需要為每組超參數單獨定義不同的求解器和模型文件。Caffe?有非常好的特性,但也有一些小缺點。經實驗測試記錄,CaffeNet?架構的訓練時間在?Caffe?中比在?Keras?中(使用了?Theano?后端)少?5?倍。Caffe?的缺點是它不夠靈活。如果你想給它來一點新改變,那你就需要使用?C++?和?CUDA?編程,不過你也可以使用?Python?或?Matlab?接口進行一些小改變。?Caffe?的文檔非常貧乏。你需要花大量時間檢查代碼才能理解它(Xavier?初始化有什么用?Glorot?是什么?)?。Caffe?的最大缺點之一是它的安裝需要解決大量的依賴包……。當然,在投入了生產的計算機視覺系統的工具上,Caffe?是無可爭議的領導者,它非常穩健非常快速。有作者建議是:用?Keras?進行實驗和測試,然后遷移到?Caffe?中進行生產。
繼續了解Caffe。?Caffe的核心概念是Layer,每一個神經網絡的模塊都是一個Layer。Layer接收輸入數據,同時經過內部計算產生輸出數據。設計網絡結構時,只需要把各個Layer拼接在一起構成完整的網絡(通過寫protobuf配置文件定義)。比如卷積的Layer,它的輸入就是圖片的全部像素點,內部進行的操作是各種像素值與Layer參數的convolution操作,最后輸出的是所有卷積核filter的結果。每一個Layer需要定義兩種運算,一種是正向(forward)的運算,即從輸入數據計算輸出結果,也就是模型的預測過程;另一種是反向(backward)的運算,從輸出端的gradient求解相對于輸入的gradient,即反向傳播算法,這部分也就是模型的訓練過程。實現新Layer時,需要將正向和反向兩種計算過程的函數都實現,這部分計算需要用戶自己寫C++或者CUDA(當需要運行在GPU時)代碼,對普通用戶來說還是非常難上手的。正如它的名字Convolutional?Architecture?for?Fast?Feature?Embedding所描述的,Caffe最開始設計時的目標只針對于圖像,沒有考慮文本、語音或者時間序列的數據,因此Caffe對卷積神經網絡的支持非常好,但對時間序列RNN、LSTM等支持得不是特別充分。同時,基于Layer的模式也對RNN不是非常友好,定義RNN結構時比較麻煩。在模型結構非常復雜時,可能需要寫非常冗長的配置文件才能設計好網絡,而且閱讀時也比較費力。
Caffe的一大優勢是擁有大量的訓練好的經典模型(AlexNet、VGG、Inception)乃至其他state-of-the-art(ResNet等)的模型,收藏在它的Model?Zoo(github.com/BVLC/?caffe/wiki/Model-Zoo)。因為知名度較高,Caffe被廣泛地應用于前沿的工業界和學術界,許多提供源碼的深度學習的論文都是使用Caffe來實現其模型的。在計算機視覺領域Caffe應用尤其多,可以用來做人臉識別、圖片分類、位置檢測、目標追蹤等。雖然Caffe主要是面向學術圈和研究者的,但它的程序運行非常穩定,代碼質量比較高,所以也很適合對穩定性要求嚴格的生產環境,可以算是第一個主流的工業級深度學習框架。因為Caffe的底層是基于C++的,因此可以在各種硬件環境編譯并具有良好的移植性,支持Linux、Mac和Windows系統,也可以編譯部署到移動設備系統如Android和iOS上。和其他主流深度學習庫類似,Caffe也提供了Python語言接口pycaffe,在接觸新任務,設計新網絡時可以使用其Python接口簡化操作。不過,通常用戶還是使用Protobuf配置文件定義神經網絡結構,再使用command?line進行訓練或者預測。Caffe的配置文件是一個JSON類型的.prototxt文件,其中使用許多順序連接的Layer來描述神經網絡結構。Caffe的二進制可執行程序會提取這些.prototxt文件并按其定義來訓練神經網絡。理論上,Caffe的用戶可以完全不寫代碼,只是定義網絡結構就可以完成模型訓練了。Caffe完成訓練之后,用戶可以把模型文件打包制作成簡單易用的接口,比如可以封裝成Python或MATLAB的API。不過在.prototxt文件內部設計網絡節構可能會比較受限,沒有像TensorFlow或者Keras那樣在Python中設計網絡結構方便、自由。更重要的是,Caffe的配置文件不能用編程的方式調整超參數,也沒有提供像Scikit-learn那樣好用的estimator可以方便地進行交叉驗證、超參數的Grid?Search等操作。Caffe在GPU上訓練的性能很好(使用單塊GTX?1080訓練AlexNet時一天可以訓練上百萬張圖片),但是目前僅支持單機多GPU的訓練,沒有原生支持分布式的訓練。慶幸的是,現在有很多第三方的支持,比如雅虎開源的CaffeOnSpark,可以借助Spark的分布式框架實現Caffe的大規模分布式訓練。
?
二、TensorFlow?(Google的深度學習框架)
2.1?TensorFlow簡述。
一個由谷歌開發的的深度學習框架,TensorBoard可視化很方便,數據和模型并行化好、速度快,提供了調整網絡和監控性能的工具,就像Tensorboard一樣,它還有一個可用作網絡應用程序的教育工具。TensorFlow?支持?Python?和?C++,也允許在?CPU?和?GPU?上的計算分布,甚至支持使用?gRPC?進行水平擴展。隨著TensorFlow的持續改進以及Google光環的照耀,現在TensorFlow正在變得越來越流行。截至2016年5月,在github上關于TensorFlow的相關討論的數量已經超過Caffe躍居第一位。
?
2.2?TensorFlow介紹。
在?TensorFlow?的官網上,它被定義為“一個用于機器智能的開源軟件庫”,但有作者認為說“TensorFlow?是一個使用數據流圖(data?flow?graphs)進行數值計算的開源軟件庫。在這里,他們沒有將?TensorFlow?包含在「深度學習框架」范圍內,而是和?Theano?一起被包含在「圖編譯器(graph?compilers)」類別中。?在結束了?Udacity?的?Deep?Learning?課程(https://www.udacity.com/course/deep-learning–ud730)之后,我的感覺是?TensorFlow?是一個非常好的框架,但是卻非常低層。使用?TensorFlow?需要編寫大量的代碼,你必須一遍又一遍地重新發明輪子。”
TensorFlow是一個相對高階的機器學習庫,用戶可以方便地用它設計神經網絡結構,而不必為了追求高效率的實現親自寫C++或CUDA代碼。它和Theano一樣都支持自動求導,用戶不需要再通過反向傳播求解梯度。其核心代碼和Caffe一樣是用C++編寫的,使用C++簡化了線上部署的復雜度,并讓手機這種內存和CPU資源都緊張的設備可以運行復雜模型(Python則會比較消耗資源,并且執行效率不高)。除了核心代碼的C++接口,TensorFlow還有官方的Python、Go和Java接口,是通過SWIG(Simplified?Wrapper?and?Interface?Generator)實現的,這樣用戶就可以在一個硬件配置較好的機器中用Python進行實驗,并在資源比較緊張的嵌入式環境或需要低延遲的環境中用C++部署模型。SWIG支持給C/C++代碼提供各種語言的接口,因此其他腳本語言的接口未來也可以通過SWIG方便地添加。不過使用Python時有一個影響效率的問題是,每一個mini-batch要從Python中feed到網絡中,這個過程在mini-batch的數據量很小或者運算時間很短時,可能會帶來影響比較大的延遲。現在TensorFlow還有非官方的Julia、Node.js、R的接口支持,地址如下:
Julia在?github.com/malmaud/TensorFlow.jl?;
Node.js在github.com/node-tensorflow/node-tensorflow?;
R在?github.com/rstudio/tensorflow
TensorFlow也有內置的TF.Learn和TF.Slim等上層組件可以幫助快速地設計新網絡,并且兼容Scikit-learn?estimator接口,可以方便地實現evaluate、grid?search、cross?validation等功能。同時TensorFlow不只局限于神經網絡,其數據流式圖支持非常自由的算法表達,當然也可以輕松實現深度學習以外的機器學習算法。事實上,只要可以將計算表示成計算圖的形式,就可以使用TensorFlow。用戶可以寫內層循環代碼控制計算圖分支的計算,TensorFlow會自動將相關的分支轉為子圖并執行迭代運算。TensorFlow也可以將計算圖中的各個節點分配到不同的設備執行,充分利用硬件資源。定義新的節點只需要寫一個Python函數,如果沒有對應的底層運算核,那么可能需要寫C++或者CUDA代碼實現運算操作。
在數據并行模式上,TensorFlow和Parameter?Server很像,但TensorFlow有獨立的Variable?node,不像其他框架有一個全局統一的參數服務器,因此參數同步更自由。TensorFlow和Spark的核心都是一個數據計算的流式圖,Spark面向的是大規模的數據,支持SQL等操作,而TensorFlow主要面向內存足以裝載模型參數的環境,這樣可以最大化計算效率。
TensorFlow的另外一個重要特點是它靈活的移植性,可以將同一份代碼幾乎不經過修改就輕松地部署到有任意數量CPU或GPU的PC、服務器或者移動設備上。相比于Theano,TensorFlow還有一個優勢就是它極快的編譯速度,在定義新網絡結構時,Theano通常需要長時間的編譯,因此嘗試新模型需要比較大的代價,而TensorFlow完全沒有這個問題。TensorFlow還有功能強大的可視化組件TensorBoard,能可視化網絡結構和訓練過程,對于觀察復雜的網絡結構和監控長時間、大規模的訓練很有幫助。TensorFlow針對生產環境高度優化,它產品級的高質量代碼和設計都可以保證在生產環境中穩定運行,同時一旦TensorFlow廣泛地被工業界使用,將產生良性循環,成為深度學習領域的事實標準。
除了支持常見的網絡結構(卷積神經網絡(Convolutional?Neural?Network,CNN)、循環神經網絡(Recurent?Neural?Network,RNN))外,TensorFlow還支持深度強化學習乃至其他計算密集的科學計算(如偏微分方程求解等)。TensorFlow此前不支持symbolic?loop,需要使用Python循環而無法進行圖編譯優化,但最近新加入的XLA已經開始支持JIT和AOT,另外它使用bucketing?trick也可以比較高效地實現循環神經網絡。TensorFlow的一個薄弱地方可能在于計算圖必須構建為靜態圖,這讓很多計算變得難以實現,尤其是序列預測中經常使用的beam?search。
TensorFlow的用戶能夠將訓練好的模型方便地部署到多種硬件、操作系統平臺上,支持Intel和AMD的CPU,通過CUDA支持NVIDIA的GPU(最近也開始通過OpenCL支持AMD的GPU,但沒有CUDA成熟),支持Linux和Mac,最近在0.12版本中也開始嘗試支持Windows。在工業生產環境中,硬件設備有些是最新款的,有些是用了幾年的老機型,來源可能比較復雜,TensorFlow的異構性讓它能夠全面地支持各種硬件和操作系統。同時,其在CPU上的矩陣運算庫使用了Eigen而不是BLAS庫,能夠基于ARM架構編譯和優化,因此在移動設備(Android和iOS)上表現得很好。
TensorFlow在最開始發布時只支持單機,而且只支持CUDA?6.5和cuDNN?v2,并且沒有官方和其他深度學習框架的對比結果。在2015年年底,許多其他框架做了各種性能對比評測,每次TensorFlow都會作為較差的對照組出現。那個時期的TensorFlow真的不快,性能上僅和普遍認為很慢的Theano比肩,在各個框架中可以算是墊底。但是憑借Google強大的開發實力,很快支持了新版的cuDNN(目前支持cuDNN?v5.1),在單GPU上的性能追上了其他框架。
? 目前在單GPU的條件下,絕大多數深度學習框架都依賴于cuDNN,因此只要硬件計算能力或者內存分配差異不大,最終訓練速度不會相差太大。但是對于大規模深度學習來說,巨大的數據量使得單機很難在有限的時間完成訓練。這時需要分布式計算使GPU集群乃至TPU集群并行計算,共同訓練出一個模型,所以框架的分布式性能是至關重要的。TensorFlow在2016年4月開源了分布式版本,使用16塊GPU可達單GPU的15倍提速,在50塊GPU時可達到40倍提速,分布式的效率很高。目前原生支持的分布式深度學習框架不多,只有TensorFlow、CNTK、DeepLearning4J、MXNet等。不過目前TensorFlow的設計對不同設備間的通信優化得不是很好,其單機的reduction只能用CPU處理,分布式的通信使用基于socket的RPC,而不是速度更快的RDMA,所以其分布式性能可能還沒有達到最優。
Google?在2016年2月開源了TensorFlow?Serving,這個組件可以將TensorFlow訓練好的模型導出,并部署成可以對外提供預測服務的RESTful接口。有了這個組件,TensorFlow就可以實現應用機器學習的全流程:從訓練模型、調試參數,到打包模型,最后部署服務,名副其實是一個從研究到生產整條流水線都齊備的框架。這里引用TensorFlow內部開發人員的描述:“TensorFlow?Serving是一個為生產環境而設計的高性能的機器學習服務系統。它可以同時運行多個大規模深度學習模型,支持模型生命周期管理、算法實驗,并可以高效地利用GPU資源,讓TensorFlow訓練好的模型更快捷方便地投入到實際生產環境”。除了TensorFlow以外的其他框架都缺少為生產環境部署的考慮,而Google作為廣泛在實際產品中應用深度學習的巨頭可能也意識到了這個機會,因此開發了這個部署服務的平臺。TensorFlow?Serving可以說是一副王牌,將會幫TensorFlow成為行業標準做出巨大貢獻。
TensorBoard是TensorFlow的一組Web應用,用來監控TensorFlow運行過程,或可視化Computation?Graph。TensorBoard目前支持5種可視化:標量(scalars)、圖片(images)、音頻(audio)、直方圖(histograms)和計算圖(Computation?Graph)。TensorBoard的Events?Dashboard可以用來持續地監控運行時的關鍵指標,比如loss、學習速率(learning?rate)或是驗證集上的準確率(accuracy);Image?Dashboard則可以展示訓練過程中用戶設定保存的圖片,比如某個訓練中間結果用Matplotlib等繪制(plot)出來的圖片;Graph?Explorer則可以完全展示一個TensorFlow的計算圖,并且支持縮放拖曳和查看節點屬性。
TensorFlow擁有產品級的高質量代碼,有Google強大的開發、維護能力的加持,整體架構設計也非常優秀。相比于同樣基于Python的老牌對手Theano,TensorFlow更成熟、更完善,同時Theano的很多主要開發者都去了Google開發TensorFlow(例如書籍Deep?Learning的作者Ian?Goodfellow,他后來去了OpenAI)。Google作為巨頭公司有比高校或者個人開發者多得多的資源投入到TensorFlow的研發,可以預見,TensorFlow未來的發展將會是飛速的,可能會把大學或者個人維護的深度學習框架遠遠甩在身后。
?
三、Torch?(Facebook用的卷積神經網絡工具包)
3.1?Torch簡述。
?Torch?是Facebook用的卷積神經網絡框架,其編程語言是?Lua,通過時域卷積的本地接口,使用非常直觀,定義新網絡層簡單。因巨頭?Facebook?的人工智能研究所用的框架是?Torch,并且在被谷歌收購之前?DeepMind?也是用的?Torch(收購之后?DeepMind?轉向了?TensorFlow)。在目前深度學習編程語言絕大部分以?Python?實現為主的大趨勢下,一個以?Lua?為編程語言的框架的最大劣勢莫過于此。毫無疑問,如果想使用?Torch?這個工具,需要先學習?Lua?語言然后才能使用?Torch,這固然是一個合理的過程。個人更偏向于用?Python、Matlab?或者?C++的實現。
?Torch支持大量的機器學習算法,同時以GPU上的計算優先。
3.2?Torch介紹。
首先,官方網址:http://torch.ch/?以及GitHub:github.com/torch/torch7
Torch的目標是讓設計科學計算算法變得便捷,它包含了大量的機器學習、計算機視覺、信號處理、并行運算、圖像、視頻、音頻、網絡處理的庫,同時和Caffe類似,Torch擁有大量的訓練好的深度學習模型。它可以支持設計非常復雜的神經網絡的拓撲圖結構,再并行化到CPU和GPU上,在Torch上設計新的Layer是相對簡單的。它和TensorFlow一樣使用了底層C++加上層腳本語言調用的方式,只不過Torch使用的是Lua。Lua的性能是非常優秀的(該語言經常被用來開發游戲),常見的代碼可以通過透明的JIT優化達到C的性能的80%;在便利性上,Lua的語法也非常簡單易讀,擁有漂亮和統一的結構,易于掌握,比寫C/C++簡潔很多;同時,Lua擁有一個非常直接的調用C程序的接口,可以簡便地使用大量基于C的庫,因為底層核心是C寫的,因此也可以方便地移植到各種環境。Lua支持Linux、Mac,還支持各種嵌入式系統(iOS、Android、FPGA等),只不過運行時還是必須有LuaJIT的環境,所以工業生產環境的使用相對較少,沒有Caffe和TensorFlow那么多。為什么不簡單地使用Python而是使用LuaJIT呢?官方給出了以下幾點理由:LuaJIT的通用計算性能遠勝于Python,而且可以直接在LuaJIT中操作C的pointers;Torch的框架,包含Lua是自洽的,而完全基于Python的程序對不同平臺、系統移植性較差,依賴的外部庫較多;LuaJIT的FFI拓展接口非常易學,可以方便地鏈接其他庫到Torch中。
Torch中還專門設計了N-Dimension?array?type的對象Tensor,Torch中的Tensor是一塊內存的視圖,同時一塊內存可能有許多視圖(Tensor)指向它,這樣的設計同時兼顧了性能(直接面向內存)和便利性。同時,Torch還提供了不少相關的庫,包括線性代數、卷積、傅里葉變換、Torch的nn庫支持神經網絡、自編碼器、線性回歸、卷積網絡、循環神經網絡等,同時支持定制的損失函數及梯度計算。Torch因為使用了LuaJIT,因此用戶在Lua中做數據預處理等操作可以隨意使用循環等操作,而不必像在Python中那樣擔心性能問題,也不需要學習Python中各種加速運算的庫。不過,Lua相比Python還不是那么主流,對大多數用戶有學習成本。Torch在CPU上的計算會使用OpenMP、SSE進行優化,GPU上使用CUDA、cutorch、cunn、cuDNN進行優化,同時還有cuda-convnet的wrapper。Torch有很多第三方的擴展可以支持RNN,使得Torch基本支持所有主流的網絡。和Caffe類似的是,Torch也是主要基于Layer的連接來定義網絡的。Torch中新的Layer依然需要用戶自己實現,不過定義新Layer和定義網絡的方式很相似,非常簡便,不像Caffe那么麻煩,用戶需要使用C++或者CUDA定義新Layer。同時,Torch屬于命令式編程模式,不像Theano、TensorFlow屬于聲明性編程(計算圖是預定義的靜態的結構),所以用它實現某些復雜操作(比如beam?search)比Theano和TensorFlow方便很多。
PyTorch是Torch計算引擎的python前端,不僅能夠提供Torch的高性能,還能夠對GPU的提供更好支持。該框架的開發者表示,PyTorch與Torch的區別在于它不僅僅是封裝,而是進行了深度集成的框架,這使得PyTorc在網絡構建方面具有更高的靈活性。(如下圖)。
?
?
四、Theano?
4.1?Theano簡述。
Theano于2008年在蒙特利爾理工學院誕生,它派生出了大量深度學習Python軟件包,最著名的包括Blocks和Keras。這個由希臘神話中伊卡里亞島國王妻子名字命名的框架,是由本吉奧領導的蒙特利爾大學機器學習研究小組(MILA,開發時叫LISA)開發的。
Theano是使用符號邏輯創建網絡的框架,是以Python編寫的,但利用了numpy的高效代碼庫,從而提高了性能,超過了標準的Python。Theano在構建網絡方面有很大的優勢,但是在創造完整的解決方案中則具有比較大的挑戰。Theano將機器學習中使用的梯度計算作為網絡創建的“免費”副產品,對于那些希望更多地關注網絡架構而不是梯度計算的人來說,這可能是有用的。此外,它的文本文件質量也相當不錯。
但需要提醒大家的一點是,Theano目前已停止更新。
4.2?Theano介紹。
首先,官方網址:官方網址:http://www.deeplearning.net/software/theano/??及其GitHub:github.com/Theano/Theano。
Theano作為一個誕生比Caffe早的框架,在早期Theano是深度學習領域最流行的軟件包。嚴格來說,Theano不是專門面向深度學習的,而是一個基于多維數組用于計算和優化數學表達式的數值軟件包,因為神經網絡的本質其實就是數學表達式,所以用Theano可以非常靈活地從無到有地實現神經網絡的各種功能。Theano基于Python,最大的優點是靈活,性能非常出色,缺點是基于函數式的編程方式,還有拗口的API,異常困難的調試等,造就了陡峭的學習曲線。另外,其異常慢的編譯速度也常常遭人詬病。
直接在Theano中開發雖然靈活度最高,但開發工作量和難度也不小,所以在Theano基礎上有很多封裝過后框架,比如MILA官方的Pylearn2,還有第三方開發的Lasagne和Keras等。Pylearn2由于把Theano的缺點又進一步發揮到了極致,在火了一小陣后就被漸漸冷落,如今已經停止了實際意義上的開發。后兩個框架正在蓬勃發展中,尤其是Keras,漸漸開始成為一個脫離底層實現的大框架,目前除了Theano也支持了Google的Tensorflow。
因其出現時間早,可以算是這類庫的始祖之一,也一度被認為是深度學習研究和應用的重要標準之一。Theano的核心是一個數學表達式的編譯器,專門為處理大規模神經網絡訓練的計算而設計。它可以將用戶定義的各種計算編譯為高效的底層代碼,并鏈接各種可以加速的庫,比如BLAS、CUDA等。Theano允許用戶定義、優化和評估包含多維數組的數學表達式,它支持將計算裝載到GPU(Theano在GPU上性能不錯,但是CPU上較差)。與Scikit-learn一樣,Theano也很好地整合了NumPy,對GPU的透明讓Theano可以較為方便地進行神經網絡設計,而不必直接寫CUDA代碼。Theano的主要優勢如下:集成NumPy,可以直接使用NumPy的ndarray,API接口學習成本低;?計算穩定性好,比如可以精準地計算輸出值很小的函數(像log(1+x));?動態地生成C或者CUDA代碼,用以編譯成高效的機器代碼。
因為Theano非常流行,有許多人為它編寫了高質量的文檔和教程,用戶可以方便地查找Theano的各種FAQ,比如如何保存模型、如何運行模型等。不過Theano更多地被當作一個研究工具,而不是當作產品來使用。雖然Theano支持Linux、Mac和Windows,但是沒有底層C++的接口,因此模型的部署非常不方便,依賴于各種Python庫,并且不支持各種移動設備,所以幾乎沒有在工業生產環境的應用。Theano在調試時輸出的錯誤信息非常難以看懂,因此DEBUG時非常痛苦。同時,Theano在生產環境使用訓練好的模型進行預測時性能比較差,因為預測通常使用服務器CPU(生產環境服務器一般沒有GPU,而且GPU預測單條樣本延遲高反而不如CPU),但是Theano在CPU上的執行性能比較差。
Theano在單GPU上執行效率不錯,性能和其他框架類似。但是運算時需要將用戶的Python代碼轉換成CUDA代碼,再編譯為二進制可執行文件,編譯復雜模型的時間非常久。此外,Theano在導入時也比較慢,而且一旦設定了選擇某塊GPU,就無法切換到其他設備。目前,Theano在CUDA和cuDNN上不支持多GPU,只在OpenCL和Theano自己的gpuarray庫上支持多GPU訓練,速度暫時還比不上CUDA的版本,并且Theano目前還沒有分布式的實現。不過,Theano在訓練簡單網絡(比如很淺的MLP)時性能可能比TensorFlow好,因為全部代碼都是運行時編譯,不需要像TensorFlow那樣每次feed?mini-batch數據時都得通過低效的Python循環來實現。
Theano是一個完全基于Python(C++/CUDA代碼也是打包為Python字符串)的符號計算庫。用戶定義的各種運算,Theano可以自動求導,省去了完全手工寫神經網絡反向傳播算法的麻煩,也不需要像Caffe一樣為Layer寫C++或CUDA代碼。Theano對卷積神經網絡的支持很好,同時它的符號計算API支持循環控制(內部名scan),讓RNN的實現非常簡單并且高性能,其全面的功能也讓Theano可以支持大部分state-of-the-art的網絡。Theano派生出了大量基于它的深度學習庫,包括一系列的上層封裝,其中有大名鼎鼎的Keras,Keras對神經網絡抽象得非常合適,以至于可以隨意切換執行計算的后端(目前同時支持Theano和TensorFlow)。Keras比較適合在探索階段快速地嘗試各種網絡結構,組件都是可插拔的模塊,只需要將一個個組件(比如卷積層、激活函數等)連接起來,但是設計新模塊或者新的Layer就不太方便了。除Keras外,還有學術界非常喜愛的Lasagne,同樣也是Theano的上層封裝,它對神經內網絡的每一層的定義都非常嚴謹。另外,還有scikit-neuralnetwork、nolearn這兩個基于Lasagne的上層封裝,它們將神經網絡抽象為兼容Scikit-learn接口的classifier和regressor,這樣就可以方便地使用Scikit-learn中經典的fit、transform、score等操作。除此之外,Theano的上層封裝庫還有blocks、deepy、pylearn2和Scikit-theano,可謂是一個龐大的家族。如果沒有Theano,可能根本不會出現這么多好用的Python深度學習庫。同樣,如果沒有Python科學計算的基石NumPy,就不會有SciPy、Scikit-learn和?Scikit-image,可以說Theano就是深度學習界的NumPy,是其他各類Python深度學習庫的基石。雖然Theano非常重要,但是直接使用Theano設計大型的神經網絡還是太煩瑣了,用?Theano實現Google?Inception就像用NumPy實現一個支持向量機(SVM)。且不說很多用戶做不到用Theano實現一個Inception網絡,即使能做到但是否有必要花這個時間呢?畢竟不是所有人都是基礎科學工作者,大部分使用場景還是在工業應用中。所以簡單易用是一個很重要的特性,這也就是其他上層封裝庫的價值所在:不需要總是從最基礎的tensor粒度開始設計網絡,而是從更上層的Layer粒度設計網絡。
?
五、Keras?
5.1?Keras?簡述。
Keras它的句法是相當明晰的,文檔也非常好(盡管相對較新),而且它支持Python語言。它的使用非常簡單輕松;我們也能很直觀地了解它的指令、函數和每個模塊之間的鏈接方式。?Keras是一個非常高層的庫,可以工作在?Theano?和?TensorFlow(可以配置)之上。另外,Keras強調極簡主義——你只需幾行代碼就能構建一個神經網絡。在這里你可以比較一下?Keras和TensorFlow?實現相同功能時所需的代碼。
?
5.2?Keras?介紹。
官方網址:keras.io??及其GitHub:github.com/fchollet/keras
Keras是用Python編寫的框架,可以作為Theano或Tensorflow的后端。這使得Keras在構建完整的解決方案中更容易,而且因為每一行代碼都創建了一個網絡層,所以它也更易于閱讀。此外,Keras還擁有最先進算法(優化器(optimizers)、歸一化例程(normalization?routines)、激活函數(activation?functions))的最佳選擇。
需說明:雖然Keras支持Theano和Tensorflow后端,但輸入數據的維度假設是不同的,因此需仔細的設計才能使代碼支持兩個后端工作。該項目有完備的文本文件,并提供了一系列針對各種問題的實例以及訓練好了的、用于傳輸學習實現常用體系的結構模型。在編寫的時候,有消息宣稱Tensorflow將采用Keras作為首選的高級包。其實,這并不奇怪,因為Keras的開發者Francois?Chollet本身就是谷歌的軟件工程師。
Keras是一個崇尚極簡、高度模塊化的神經網絡庫,使用Python實現,并可以同時運行在TensorFlow和Theano上。它旨在讓用戶進行最快速的原型實驗,讓想法變為結果的這個過程最短。Theano和TensorFlow的計算圖支持更通用的計算,而Keras則專精于深度學習。Theano和TensorFlow更像是深度學習領域的NumPy,而Keras則是這個領域的Scikit-learn。它提供了目前為止最方便的API,用戶只需要將高級的模塊拼在一起,就可以設計神經網絡,它大大降低了編程開銷(code?overhead)和閱讀別人代碼時的理解開銷(cognitive?overhead)。它同時支持卷積網絡和循環網絡,支持級聯的模型或任意的圖結構的模型(可以讓某些數據跳過某些Layer和后面的Layer對接,使得創建Inception等復雜網絡變得容易),從CPU上計算切換到GPU加速無須任何代碼的改動。因為底層使用Theano或TensorFlow,用Keras訓練模型相比于前兩者基本沒有什么性能損耗(還可以享受前兩者持續開發帶來的性能提升),只是簡化了編程的復雜度,節約了嘗試新網絡結構的時間。可以說模型越復雜,使用Keras的收益就越大,尤其是在高度依賴權值共享、多模型組合、多任務學習等模型上,Keras表現得非常突出。Keras所有的模塊都是簡潔、易懂、完全可配置、可隨意插拔的,并且基本上沒有任何使用限制,神經網絡、損失函數、優化器、初始化方法、激活函數和正則化等模塊都是可以自由組合的。Keras也包括絕大部分state-of-the-art的Trick,包括Adam、RMSProp、Batch?Normalization、PReLU、ELU、LeakyReLU等。同時,新的模塊也很容易添加,這讓Keras非常適合最前沿的研究。Keras中的模型也都是在Python中定義的,不像Caffe、CNTK等需要額外的文件來定義模型,這樣就可以通過編程的方式調試模型結構和各種超參數。在Keras中,只需要幾行代碼就能實現一個MLP,或者十幾行代碼實現一個AlexNet,這在其他深度學習框架中基本是不可能完成的任務。Keras最大的問題可能是目前無法直接使用多GPU,所以對大規模的數據處理速度沒有其他支持多GPU和分布式的框架快。Keras的編程模型設計和Torch很像,但是相比Torch,Keras構建在Python上,有一套完整的科學計算工具鏈,而Torch的編程語言Lua并沒有這樣一條科學計算工具鏈。無論從社區人數,還是活躍度來看,Keras目前的增長速度都已經遠遠超過了Torch。
?
六、MXNet
6.1?MXNet簡述。
MXnet出自CXXNet、Minerva、Purine等項目的開發者之手,主要用C++編寫。MXNet強調提高內存使用的效率,甚至能在智能手機上運行諸如圖像識別等任務。它支持大多數編程語言的框架之一,包括?Python,R,C++,Julia?等。使用?R?語言的開發者會特別偏愛?mxnet,因為至今為止還是?Python?以不可置疑的態勢稱霸深度學習語言的。
MXNet前身是DMLC的CXXNet和Minerva,這兩個項目一個通過配置和定義來訓練網絡,而另一個則提供了類似numpy一樣的多維數組的用法。MXNet無縫地銜接了這兩種用法,獲得了非常好的靈活性,這是另一個特點。MXNet支持語言非常多,尤其是對R的支持,贏得了一批統計領域的用戶,并且擴展性也不錯,可以說是一個非常有潛力的框架。此外,MXNet還有一個很大的特點是文檔非常“爛”。2016年末,Amazon宣布MXNet為其官方深度學習平臺,并會提供進一步支持,這個問題似乎有望被解決。后續MXNet是否能進一步崛起,并和TensorFlow還有Caffe一較高下,我們拭目以待。
?
6.2?MXNet介紹。
官網網址:mxnet.io?以及GitHub:github.com/dmlc/mxnet
MXNet是DMLC(Distributed?Machine?Learning?Community)開發的一款開源的、輕量級、可移植的、靈活的深度學習庫,它讓用戶可以混合使用符號編程模式和指令式編程模式來最大化效率和靈活性,目前已經是AWS官方推薦的深度學習框架。MXNet的很多作者都是中國人,其最大的貢獻組織為百度,同時很多作者來自cxxnet、minerva和purine2等深度學習項目,可謂博采眾家之長。它是各個框架中率先支持多GPU和分布式的,同時其分布式性能也非常高。MXNet的核心是一個動態的依賴調度器,支持自動將計算任務并行化到多個GPU或分布式集群(支持AWS、Azure、Yarn等)。它上層的計算圖優化算法可以讓符號計算執行得非常快,而且節約內存,開啟mirror模式會更加省內存,甚至可以在某些小內存GPU上訓練其他框架因顯存不夠而訓練不了的深度學習模型,也可以在移動設備(Android、iOS)上運行基于深度學習的圖像識別等任務。此外,MXNet的一個很大的優點是支持非常多的語言封裝,比如C++、Python、R、Julia、Scala、Go、MATLAB和JavaScript等,可謂非常全面,基本主流的腳本語言全部都支持了。在MXNet中構建一個網絡需要的時間可能比Keras、Torch這類高度封裝的框架要長,但是比直接用Theano等要快。MXNet的各級系統架構(下面為硬件及操作系統底層,逐層向上為越來越抽象的接口)如圖2-6所示。
MXNet是DMLC(Distributed?Machine?Learning?Community)開發的一款開源的、輕量級、可移植的、靈活的深度學習庫,它讓用戶可以混合使用符號編程模式和指令式編程模式來最大化效率和靈活性,目前已經是AWS官方推薦的深度學習框架。MXNet的很多作者都是中國人,其最大的貢獻組織為百度,同時很多作者來自cxxnet、minerva和purine2等深度學習項目,可謂博采眾家之長。它是各個框架中率先支持多GPU和分布式的,同時其分布式性能也非常高。MXNet的核心是一個動態的依賴調度器,支持自動將計算任務并行化到多個GPU或分布式集群(支持AWS、Azure、Yarn等)。它上層的計算圖優化算法可以讓符號計算執行得非常快,而且節約內存,開啟mirror模式會更加省內存,甚至可以在某些小內存GPU上訓練其他框架因顯存不夠而訓練不了的深度學習模型,也可以在移動設備(Android、iOS)上運行基于深度學習的圖像識別等任務。此外,MXNet的一個很大的優點是支持非常多的語言封裝,比如C++、Python、R、Julia、Scala、Go、MATLAB和JavaScript等,可謂非常全面,基本主流的腳本語言全部都支持了。在MXNet中構建一個網絡需要的時間可能比Keras、Torch這類高度封裝的框架要長,但是比直接用Theano等要快。MXNet的各級系統架構(下面為硬件及操作系統底層,逐層向上為越來越抽象的接口)如圖所示。
?
七、其他深度學習框架
下面依次介紹其他深度學習框架:Cuda-convnet2、Neon、?Deeplearning4j、CNTK、Brainstorm、Chainer、Marvin、ConvNetJS、DIGITS、DL4J、DIGITS、Leaf等。
7.1?Cuda-convnet2:由2012年讓深度學習在視覺領域聲名大噪的AlexNet作者,辛頓的學生阿歷克斯·克里澤夫斯基(Alex?Krizhevsky)開發。作為一名學術工程雙馨的天才,其開發的cuda-convnet2性能曾經非常強悍,不過不知什么原因,最近也停止更新了。
7.2?Neon:由一家結合了深度學習人才和硬件人才的創業公司Nervana?Systems于2015年開源發布。這是一個比較獨特的框架,因為其公司軟硬結合的血統,在硬件優化上的造詣讓這個框架在發布時在不少基準測試上達到了世界最佳的成績。2016年中,Nervana?System被Intel收購,此前Intel還收購了FPGA供應商Altera,也許Intel很快就會憋出個大招?拭目以待。在某些基準測試中,由Python和Sass開發的Neon的測試成績甚至要優于Caffeine、Torch和谷歌的TensorFlow。
7.3?Deeplearning4j:顧名思義,Deeplearning4j是”for?Java”的深度學習框架,也是首個商用級別的深度學習開源庫。Deeplearning4j由創業公司Skymind于2014年6月發布,使用?Deeplearning4j的不乏埃森哲、雪弗蘭、博斯咨詢和IBM等明星企業。支持Java的機器學習庫,由Skymind發布于2014年發布,商業標準的開源框架,在一些歐美咨詢公司中受到歡迎。DeepLearning4j是一個面向生產環境和商業應用的高成熟度深度學習開源庫,可與Hadoop和Spark集成,即插即用,方便開發者在APP中快速集成深度學習功能,可應用于以下深度學習領域:人臉/圖像識別、語音搜索、語音轉文字(Speech?to?text)、垃圾信息過濾(異常偵測)、電商欺詐偵測等等。
7.4?CNTK:全稱為Computational?Network?Toolkit,是微軟出品的深度學習框架,于2016年初開源,所以目前使用者寥寥。該框架同時支持CPU和GPU,據說性能極其強悍,在微軟官方博客上的測試中,超過了其他所有常見框架。CNTK是由微軟開發的框架,并被描述為機器學習的“Visual?Studio”。對于那些使用Visual?Studio進行編程的人,這可能是一種更溫和、更有效的進入深度學習的CNTK(Computational?Network?Toolkit)是微軟研究院(MSR)開源的深度學習框架。它最早由start?the?deep?learning?craze的演講人創建,目前已經發展成一個通用的、跨平臺的深度學習系統,在語音識別領域的使用尤其廣泛。CNTK通過一個有向圖將神經網絡描述為一系列的運算操作,這個有向圖中子節點代表輸入或網絡參數,其他節點代表各種矩陣運算。CNTK支持各種前饋網絡,包括MLP、CNN、RNN、LSTM、Sequence-to-Sequence模型等,也支持自動求解梯度。CNTK有豐富的細粒度的神經網絡組件,使得用戶不需要寫底層的C++或CUDA,就能通過組合這些組件設計新的復雜的Layer。CNTK擁有產品級的代碼質量,支持多機、多GPU的分布式訓練。CNTK設計是性能導向的,在CPU、單GPU、多GPU,以及GPU集群上都有非常優異的表現。同時微軟最近推出的1-bit?compression技術大大降低了通信代價,讓大規模并行訓練擁有了很高的效率。CNTK同時宣稱擁有很高的靈活度,它和Caffe一樣通過配置文件定義網絡結構,再通過命令行程序執行訓練,支持構建任意的計算圖,支持AdaGrad、RmsProp等優化方法。它的另一個重要特性就是拓展性,CNTK除了內置的大量運算核,還允許用戶定義他們自己的計算節點,支持高度的定制化。CNTK在2016年9月發布了對強化學習的支持,同時,除了通過寫配置文件的方式定義網絡結構,CNTK還將支持其他語言的綁定,包括Python、C++和C#,這樣用戶就可以用編程的方式設計網絡結構。CNTK與Caffe一樣也基于C++并且跨平臺,大部分情況下,它的部署非常簡單。PC上支持Linux、Mac和Windows,但是它目前不支持ARM架構,限制了其在移動設備上的發揮。圖2-7所示為CNTK目前的總體架構圖。CNTK原生支持多GPU和分布式,從官網公布的對比評測來看,性能非常不錯。在多GPU方面,CNTK相對于其他的深度學習庫表現得更突出,它實現了1-bit?SGD和自適應的mini-batching。圖2-8所示為CNTK官網公布的在2015年12月的各個框架的性能對比。在當時,CNTK是唯一支持單機8塊GPU的框架,并且在分布式系統中可以超越8塊GPU的性能。
Cognitive?Toolkit:認知工具包(Cognitive?Toolkit)之前被大家所知的縮略是?CNTK,但是最近又重命名回歸到?Cognitive?Toolkit,很可能是想沾最近微軟認知服務(Microsoft?Cognitive?services)的光。在公開的基準測試上的表現來看,這個工具似乎很強勁,支持縱向和橫向的推移。?目前為止,Cognitive?Toolkit?似乎不是很流行。我并沒有讀到很多關于使用這個庫的博客、在線實驗案例或者在?Kaggle?里的相關評論。但是對我來說,一個背靠微軟研究的框架特別強調自己的推移能力讓我覺得有些奇怪,畢竟微軟研究團隊可是在語音識別上打破世界紀錄并逼近人類水準。?我在查看他們項目百科的一個范例的時候了解到?Cognitive?Toolkit?在?Python?上的語法和?Keras?是非常相類似的(Cognitive?Toolkit?也支持?C++),這不禁讓我在想(并不是確認)Keras?才是正確的方式。
7.5?Brainstorm:來自瑞士人工智能實驗室IDSIA的一個非常發展前景很不錯的深度學習軟件包,Brainstorm能夠處理上百層的超級深度神經網絡——所謂的公路網絡Highway?Networks。
7.6?Chainer:Chainer是由日本公司Preferred?Networks于2015年6月發布的深度學習框架。Chainer的設計基于define?by?run原則,也就是說,該網絡在運行中動態定義,而不是在啟動時定義,這里有Chainer的詳細文檔。?Chainer與其他框架有點不同,它將網絡構建視為其計算的一部分。它的開發者介紹說,在這一框架中,大多數工具都是“定義然后運行”,這意味著你要定義架構,然后才能運行它。Chainer嘗試構建并優化其架構,使其成為學習過程的一部分,或者稱之為“通過運行定義”。
Chainer對自己的特性描述如下:Powerful,支持CUDA計算,只需要幾行代碼就可以使用GPU加速,同時只需少許改動就可以運行在多GPU上。Flexible,支持多種前饋神經網絡,包括卷積網絡、循環網絡、遞歸網絡,支持運行中動態定義的網絡(Define-by-Run)。Intuitive,前饋計算可以引入Python的各種控制流,同時反向傳播時不受干擾,簡化了調試錯誤的難度。絕大多數的深度學習框架是基于“Define-and-Run”的,也就是說,需要首先定義一個網絡,再向網絡中feed數據(mini-batch)。因為網絡是預先靜態定義的,所有的控制邏輯都需要以data的形式插入網絡中,包括像Caffe那樣定義好網絡結構文件,或者像Theano、Torch、TensorFlow等使用編程語言定義網絡。而Chainer則相反,網絡是在實際運行中定義的,Chainer存儲歷史運行的計算結果,而不是網絡的結構邏輯,這樣就可以方便地使用Python中的控制流,所以無須其他工作就可以直接在網絡中使用條件控制和循環。
7.7?Marvin:是普林斯頓大學視覺工作組新推出的C++框架。該團隊還提供了一個文件用于將Caffe模型轉化成語Marvin兼容的模式。
7.8?ConvNetJS:這是斯坦福大學博士生Andrej?Karpathy開發瀏覽器插件,基于萬能的JavaScript可以在你的游覽器中訓練神經網絡。Karpathy還寫了一個ConvNetJS的入門教程,以及一個簡潔的瀏覽器演示項目。
7.9?DIGITS:?是由英偉達開發的,一款基于網絡的深層開發工具。在很多方面,它像Caffe一樣,能夠使用文本文件而不是編程語言來描述網絡和參數。它具有網絡可視化工具,因此文本文件中的錯誤更容易被識別出來。此外,它還具有用于可視化學習過程的工具,并支持多個GPU。
7.10?DL4J:Deeplearning4J(簡稱DL4J)是一個基于Java和Scala的開源的分布式深度學習庫,由Skymind于2014年6月發布,其核心目標是創建一個即插即用的解決方案原型。埃森哲、雪弗蘭、博斯咨詢和IBM等都是DL4J的客戶。DL4J擁有一個多用途的n-dimensional?array的類,可以方便地對數據進行各種操作;擁有多種后端計算核心,用以支持CPU及GPU加速,在圖像識別等訓練任務上的性能與Caffe相當;可以與Hadoop及Spark自動整合,同時可以方便地在現有集群(包括但不限于AWS,Azure等)上進行擴展,同時DL4J的并行化是根據集群的節點和連接自動優化,不像其他深度學習庫那樣可能需要用戶手動調整。DL4J選擇Java作為其主要語言的原因是,目前基于Java的分布式計算、云計算、大數據的生態非常龐大。用戶可能擁有大量的基于Hadoop和Spark的集群,因此在這類集群上搭建深度學習平臺的需求便很容易被DL4J滿足。同時JVM的生態圈內還有數不勝數的Library的支持,而DL4J也創建了ND4J,可以說是JVM中的NumPy,支持大規模的矩陣運算。此外,DL4J還有商業版的支持,付費用戶在出現問題時可以通過電話咨詢尋求支持。
借用某網友的話“我接觸這一庫,是因為它的?documentation。當時我正在尋找受限玻爾茲曼機、自編碼器,在?DL4J?中找到了這兩個?documentation。里面的文件很清楚,有理論,有代碼案例。我必須得說?DL4J?的?documentation?簡直是藝術品,其他庫在記錄代碼的時候需要向它學習。DL4J?背后的公司?Skymind?意識到,雖然在深度學習圈內?Python?是老大,但大部分程序員起自?Java,所以需要找到一個解決方案。DL4J?兼容?JVM,也適用?Java、Clojure?和?Scala,隨著?Scala?的起起落落,它也被很多有潛力的創業公司使用,所以我還會繼續緊追這個庫。?此外,Skymind?的?twitter?賬戶非常活躍,不斷公開最新的科學論文、案例和教程,及其推薦大家關注。”
7.11?DIGITS:?Deep?Learning?GPU?Training?System,不是一個標準的深度學習庫,它可以算是一個Caffe的高級封裝(或者Caffe的Web版培訓系統)。因為封裝得非常重,以至于你不需要(也不能)在DIGITS中寫代碼,即可實現一個深度學習的圖片識別模型。在Caffe中,定義模型結構、預處理數據、進行訓練并監控訓練過程是相對比較煩瑣的,DIGITS把所有這些操作都簡化為在瀏覽器中執行。它可以算作Caffe在圖片分類上的一個漂亮的用戶可視化界面(GUI),計算機視覺的研究者或者工程師可以非常方便地設計深度學習模型、測試準確率,以及調試各種超參數。同時使用它也可以生成數據和訓練結果的可視化統計報表,甚至是網絡的可視化結構圖。訓練好的Caffe模型可以被DIGITS直接使用,上傳圖片到服務器或者輸入url即可對圖片進行分類。
7.12?Leaf:?是一個基于Rust語言的直觀的跨平臺的深度學習乃至機器智能框架,它擁有一個清晰的架構,除了同屬Autumn?AI的底層計算庫Collenchyma,Leaf沒有其他依賴庫。它易于維護和使用,并且擁有非常高的性能。Leaf自身宣傳的特點是為Hackers定制的,這里的Hackers是指希望用最短的時間和最少的精力實現機器學習算法的技術極客。它的可移植性非常好,可以運行在CPU、GPU和FPGA等設備上,可以支持有任何操作系統的PC、服務器,甚至是沒有操作系統的嵌入式設備,并且同時支持OpenCL和CUDA。Leaf是Autumn?AI計劃的一個重要組件,后者的目標是讓人工智能算法的效率提高100倍。憑借其優秀的設計,Leaf可以用來創建各種獨立的模塊,比如深度強化學習、可視化監控、網絡部署、自動化預處理和大規模產品部署等。
Leaf擁有最簡單的API,希望可以最簡化用戶需要掌握的技術棧。雖然才剛誕生不久,Leaf就已經躋身最快的深度學習框架之一了。圖2-9所示為Leaf官網公布的各個框架在單GPU上訓練VGG網絡的計算時間(越小越好)的對比(這是和早期的TensorFlow對比,最新版的TensorFlow性能已經非常好了)。
7.13?DSSTNE:(Deep?Scalable?Sparse?Tensor?Network?Engine)是亞馬遜開源的稀疏神經網絡框架,在訓練非常稀疏的數據時具有很大的優勢。DSSTNE目前只支持全連接的神經網絡,不支持卷積網絡等。和Caffe類似,它也是通過寫一個JSON類型的文件定義模型結構,但是支持非常大的Layer(輸入和輸出節點都非常多);在激活函數、初始化方式及優化器方面基本都支持了state-of-the-art的方法,比較全面;支持大規模分布式的GPU訓練,不像其他框架一樣主要依賴數據并行,DSSTNE支持自動的模型并行(使用數據并行需要在訓練速度和模型準確度上做一定的trade-off,模型并行沒有這個問題)。
在處理特征非常多(上億維)的稀疏訓練數據時(經常在推薦、廣告、自然語言處理任務中出現),即使一個簡單的3個隱層的MLP(Multi-Layer?Perceptron)也會變成一個有非常多參數的模型(可能高達上萬億)。以傳統的稠密矩陣的方式訓練方法很難處理這么多的模型參數,更不必提超大規模的數據量,而DSSTNE有整套的針對稀疏數據的優化,率先實現了對超大稀疏數據訓練的支持,同時在性能上做了非常大的改進。
在DSSTNE官方公布的測試中,DSSTNE在MovieLens的稀疏數據上,在單M40?GPU上取得了比TensorFlow快14.8倍的性能提升(注意是和老版的TensorFlow比較),如圖2-10所示。一方面是因為DSSTNE對稀疏數據的優化;另一方面是TensorFlow在數據傳輸到GPU上時花費了大量時間,而DSSTNE則優化了數據在GPU內的保留;同時DSSTNE還擁有自動模型并行功能,而TensorFlow中則需要手動優化,沒有自動支持。
八、其他知識拓展認識
8.1計算機語言
深度學習的框架:編寫框架所使用的計算機語言會影響到它的有效性。盡管許多框架具有綁定機制,允許使用者使用與編寫框架不同的語言訪問框架,但是編寫框架所使用的語言也不可避免地在某種程度上影響后期開發的語言的靈活性。
因此,在應用深度學習模型時,最好能夠使用你所熟悉的計算機語言的框架。例如,Caffe(C++)和Torch(Lua)為其代碼庫提供了Python綁定,但如果你想更好地使用這些技術,就必須能夠熟練使用C++或者Lua。相比之下,TensorFlow和MXNet則可以支持多語言,即使使用者不能熟練使用C++,也可以很好地利用該技術。
8.2?教程(Tutorials)和訓練樣本
框架的文本質量、覆蓋范圍以及示例對于有效使用框架至關重要。高質量的文本文件以及待處理的問題的示例將有助于有效解決開發者的問題。完備的文件也表明該工具已經成熟并且在短期內不會改變。
而不同的深度學習框架在教程和訓練樣本的質量和數量的需求方面存在很大的區別。舉例來說:Theano、TensorFlow、Torch和MXNet由于具有很好的文本化教程(documented?tutorials),所以非常易于理解和實現。另外,我們還發現,不同的框架在GitHub社區的參與度和活躍度高低不僅可以作為其未來發展的重要指標,同時也可以用來衡量通過搜索StackOverflow或Git報告事件來檢測和修復bug的速度。值得注意的是,在教程數量、訓練樣本以及開發人員和用戶社區方面,TensorFlow的需求量非常非常大(像是一個800磅重的大猩猩一樣的龐然大物)。
8.3?CNN建模能力
卷積神經網絡(CNN)是由一組不同的層組成,將初始數據量轉換成預定義類分數的輸出分數。CNN是一種前饋神經網絡,它的人工神經元可以響應一部分覆蓋范圍內的周圍單元,對于大型圖像處理有出色表現,可用于圖像識別、推薦引擎和自然語言處理。此外,CNN還可以用于回歸分析,如自動駕駛車輛轉向角輸出模型等等。CNN建模能力包括幾個功能:定義模型的概率空間、預構建層的可用性以及可用于連接這些層的工具和功能。我們看到,Theano、Caffe和MXNet都具有很好的CNN建模功能,這意味著,TensorFlow能夠很容易地在其InceptionV3模型上進行能力構建,Torch中包括易于使用的時間卷積集在內的優秀的CNN資源,都使得這兩種技術在CNN建模功能上能夠很好地區分開來。
8.4?RNN建模能力
有別于CNN,遞歸神經網絡(RNN)可以用于語音識別、時間序列預測、圖像字幕和其他需要處理順序信息的任務。由于預先構建的RNN模型不像CNN那樣多,因此,如果你有一個RNN深度學習項目,那么就必須考慮為特定技術預先實施和開源何種RNN模型,這是非常重要的。例如,Caffe擁有極少的RNN資源,而微軟的CNTK和Torch則擁有豐富的RNN教程和預置模型。雖然TensorFlow也具有一些RNN資源,但TFLearn和Keras中所包含的RNN示例要比使用TensorFlow多得多。
8.5?架構
為了在特定的框架中創建和訓練新的模型,至關重要的一點是要有一個易于使用而且是模塊化的前端架構。檢測結果表明,TensorFlow、Torch和MXNet都具有直觀的模塊化架構,這使得開發變得簡單并且直觀。相比之下,像Caffe這樣的框架則需要花大量的工作來創建一個新的層。另外,我們還發現由于TensorBoard?Web?GUI應用程序已經被包含在內,TensorFlow在訓練期間和訓練之后會特別容易調試和監控。
8.6?速度
在開放源代碼卷積神經網絡(CNN)方面Torch和Nervana擁有基準測試的最佳性能記錄,TensorFlow性能在大多數測試中也“有的一拼”,而Caffe和Theano在這方面則表現得并不突出;在遞歸神經網絡(RNN)方面,微軟則聲稱CNTK的訓練時長最短,速度最快。當然,也有另一項直接針對RNN建模能力速度進行比較的研究表明,在Theano、Torch和TensorFlow中,Theano的表現最好。
?
8.7?多GPU支持
大多數深度學習應用程序需要大量的浮點運算(FLOP)。例如,百度的DeepSpeech識別模型需要10秒鐘的ExaFLOPs(百萬兆浮點運算)進行訓練。那可是大于10的18次方的計算量!而作為領先的圖形處理單元(GPU)——如英偉達的Pascal?TitanX,每秒可以執行11萬億次浮點運算,在一個足夠大的數據集上訓練一個新的模型需要一周的時間。為了減少構建模型所需的時間,需要多臺機器上的多個GPU。幸運的是,上面列出的大多數技術都提供了這種支持,比如,MXNet就具有一個高度優化的多GPU引擎。
8.8?Keras兼容性
Keras是一個用于進行快速深度學習原型設計的高級庫,是一個讓數據科學家能夠自如地應用深度學習的工具。Keras目前支持兩個后端——TensorFlow和Theano,并且還將在TensorFlow中獲得正式的支持。
Matthew?Rubashkin建議,當你要開始一個深度學習項目時,首先要評估好自己團隊的技能和項目需求。舉例來說,對于以Python為中心的團隊的圖像識別應用程序,他建議使用TensorFlow,因為其文本文件豐富、性能適宜并且還擁有優秀的原型設計工具。而如果是為了將RNN擴展到具有Lua能力的客戶團隊產品上,他則推薦使用Torch,這是因為它具有卓越的速度和RNN建模能力。
總而言之,對于大多數人而言,“從零開始”編寫深度學習算法成本非常高,而利用深度學習框架中可用的巨大資源是更有效率的。如何選擇更合適的框架將取決于使用者的技能和背景,以及具體項目的需求。因此,當你要開始一個深度學習項目時,的確值得花一些時間來評估可用的框架,以確保技術價值的最大化。
?
轉載于:https://www.cnblogs.com/carle-09/p/8984938.html
總結
- 上一篇: 2016012026 管凌波 散列函数的
- 下一篇: JVM从入门到放弃——JVM内存模型