Yann LeCun:深度学习硬件前瞻
Yann LeCun被大家譽為“卷積神經網絡之父”,該技術助推了人工智能在Google、Facebook等公司的發展,在此之外,LeCun也已經不再局限于扎根算法領域。正如那些開發全新計算方法的人一樣,他在硬件領域也有深厚背景,尤其是芯片設計,并且在硬件專業化,復雜問題下的數據遷移,以及核性能提升方面也很拿手。
LeCun是從貝爾實驗室的研究真正開始開拓深度學習的,他的研究項目結合了先進的軟硬件聯合設計技術(co-design)。即使在今天,他在服務器端的機器學習和神經網絡循環仍廣為人知。他本周在Hot Chips會議上做了這方面介紹。在關于神經網絡進化(硬件和軟件)的演講中,LeCun除了介紹自己在貝爾實驗室、Facebook研究院和紐約大學(眾多研究機構之一)的經歷之外,還擠出時間和The Platform交流了關于卷積神經網絡在聯合設計方面今后的發展。
最后,他基于現階段深度學習的能力,以及下一階段更智能、更大規模的神經網絡,描繪了未來架構的前景。LeCun觀點的引人關注之處并不令人驚訝:當前架構在性能上不足以承受下一代機器學習算法,因為新的算法已經超越了現有加速工具和程序性能的局限之處。
正如五月份的采訪所描述,我們和LeCun談到的GPU計算在深度學習中的地位,我們了解到GPU加速方法不僅在訓練大規模神經網絡時有用,還亟需被改進來處理另一部分問題,也就是運行真正的post-training算法。本周,LeCun再次提及此,他解釋說大多數模型訓練在4個或8個GPU的服務器端上完成,Google和Facebook正嘗試在多個節點上用這套裝置并行化運行訓練算法。他還提到說盡管普遍猜測Google擁有GPU的數量在8000個左右,但事實上遠遠不止,而且隨著圖片、視頻數據集的不斷增長,GPU的規模還在擴大。
但也許更有趣的想法是把FPGA作為可配置器件用于神經網絡處理更大的網絡(同時GPU仍舊保持高性能訓練機制)。LeCun向ThePlatform透露,傳言Google正在定制硬件設備來運算神經網絡,而這一硬件正是基于FPGA。在The Platform其它版塊也報道過,Microsoft正在嘗試使用FPGA加速神經網絡計算,并一直在尋找擁有更強大計算能力的可編程邏輯器件。
如果Google正在做某件事,Microsoft也是齊頭并進,毫無疑問Facebook也一定在做,其它一些神經網絡前沿開發的公司都跑不了。盡管我們很難理解Intel出資$167億美元收購Altera,但是這些消息的確釋放出了某些信號。LeCun說,像Google和Facebook這個規模的公司在使用有專利的硬件時會十分慎重。“實際上他們都是用自己的硬件設備或者是一些可編程的”,他說道,這使得FPGA的機會大門又敞開了一寸。
那么就下一代神經網絡處理所使用的這種特殊硬件方法而言,又將會意味著什么呢?上述內容可以用LeCun本周演講的一張幻燈片來概括,它展示了卷積神經網絡在人臉識別的應用究竟有多深。在LeCun的職業生涯早期,都是一些簡單對圖片分類(例如,區分飛機和汽車)的任務,現如今已經相當復雜,Facebook作為(公開的)大規模使用神經網絡做圖片識別的用戶,能夠在5秒之內搜索8億個人并找到一張人臉。
這個問題的軟件一端已經用其它方式解決了,采用了如Torch、Caffe等開源的計算框架。但回到訓練神經網絡和用于高效大規模運行的下一代硬件這個話題,如何來尋找一個平衡點,尤其是考慮到相對“基礎”的計算需求(大規模數據集的快速訓練,以及高并行化的加/乘運算操作)。
這些問題早就擺在了LeCun面前。早在1980年代和1990年代初期,LeCun和他的同事在貝爾實驗室就探索了開發卷積神經網絡定制硬件的早期道路。ANNA的芯片是這一領域的產品之一,盡管它從未被用于貝爾實驗室(其它地方)的商業化應用,但確實顯示了專業化硬件,即簡單的邏輯乘法器,微調神經網絡的能力比現有通用處理器強多了。事實上,當時ANNA芯片有著備受矚目的性能,包括每秒處理40億次運算——在1991年是了不起的成就,對解決當時新涌現的一類問題很有幫助。
如果你仔細了解ANNA芯片,會發現其最終目標到現在仍未改變。比如,這款芯片對ANNA電路設計的益處在于它能夠限制和外部存儲的數據傳輸量,這也就意味著芯片的速度不再受限制于處理器能夠承受多少運算量——而是受牽制于芯片和外部進行通信的帶寬。那個設計概念在多核運算的世界經過一番周折,但是它在復雜環境下性能不足。按照那個設計思路,當然是這樣。畢竟,有一堆多余的額外能力有什么用?這里“可配置性”這個概念又被拋了出來。
LeCun透露已經有用相當一部分卷積神經網絡在FPGA上運算。比如,他提到了2000年代早期的一項場景分析和標簽實驗,當時團隊用Virtex-6 FPGA以50毫秒每幀的速度取得了不錯的準確率。盡管這是一套完美的框架,不需要對數據做后期處理,然而當年網絡的內在因素限制了整個系統的性能。(同樣的,關于Virtex FPGA的這個想法,下一步在NetFlow架構上實現時也遇到了其它限制因素,因為種種問題最終沒有轉化為產品——這都是后話)。
幾乎在第一批Virtex-6投入使用的同時,GPU計算也進入大家視野,它被證明對LeCun的后續工作很有用。LeCun指出了這點,以及其它推動圖像識別技術前進的技術,包括開放來自ImageNet數據集的分屬于1000個類別的120萬張訓練圖片,這屬于革命性的新能力。訓練和分類圖像的機會呈指數級增加,Nvidia GPU的性能也開創了一片全新領域,當時它的處理能力已經達到每秒萬億次運算。
如果搭建一套完美的深度神經網絡硬件平臺的需求是超級快的加/乘運算能力,能夠在現實場景計算神經網絡算法,人們有理由相信在“可編程”器件(大概是一塊FPGA)的基礎之上,強大的GPU能夠橫掃所有訓練過程。在某種程度上,這種模式已經存在了一段時間,NVIDIA公司新的深度學習使用案例和大公司的豐富例子都在使用GPU進行模型訓練,盡管不如真正處理網絡本身那么多。
LeCun的一張幻燈片總結了深度學習的一些硬件選擇。GPU目前占據了大規模訓練這一端,同時也有其它許多新興技術正在走向黃金時期,生態系統正在逐步完善。
原文鏈接:A Glimpse into the Future of Deep Learning Hardware
總結
以上是生活随笔為你收集整理的Yann LeCun:深度学习硬件前瞻的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 随机森林入门攻略
- 下一篇: c++如何计算程序运行的时间