MLPerf结果证实至强® 可有效助力深度学习训练
MLPerf結果證實至強? 可有效助力深度學習訓練
· 核心與視覺計算事業部副總裁Wei Li通過博客回顧了英特爾這幾年為提升深度學習性能所做的努力。
· 目前根據英特爾? 至強? 可擴展處理器的MLPerf結果顯示,英特爾? 至強?可擴展處理器已超出性能閾值,對于希望在基礎設施上運行多個工作負載的數據科學家,因為他們無需投資購買專用硬件,這款處理器是一個有效選擇。
· 20 多年來,我一直致力于在超級計算機、數據庫服務器和移動設備等平臺上對計算機性能進行優化與基準測試。突出你構建的產品的性能結果,然后與業內其他產品進行比較,這個過程總是充滿樂趣。許多人對 SPEC*、LINPACK* 和 TPC* 等名稱已經耳熟能詳?,F在,MLPerf* 填補了機器學習基準測試的空白。
· 看到團隊提交的英特爾? 至強? 可擴展處理器 MLPerf 結果,我感到很興奮,因為深度學習的用戶端和計算機系統開發端正是我們的工作范圍。這些結果顯示,英特爾? 至強? 可擴展處理器已超出性能閾值,對于希望在基礎設施上運行多個工作負載的數據科學家,這款處理器是一個有效選擇,因為他們無需投資購買專用硬件1 2 3。
· 回到2015 年,我的團隊負責研究移動設備。我們不得不聘請測試員親自玩手機游戲。對于測試員來說,這項工作一開始挺有意思,但逐漸變得無聊且成本高昂。曾有一名測試員在聘用當天就辭職了。我們的團隊創建了一個機器人來測試手機游戲,并采用深度學習技術。游戲測試機器人可以自動玩游戲,發現的漏洞數量比人類測試員更多。我們想要在實驗室機器上訓練神經網絡,但這些機器的速度不夠快。我必須為團隊分配購置 GPU 的預算,這個 GPU 的版本早于 MLPerf 參考 GPU4。
· 如今,CPU 能夠支持深度學習訓練和推理。針對各種 MLPerf 深度學習訓練工作負載,我們的 MLPerf 英特爾? 至強? 可擴展處理器結果毫不遜色于 MLPerf 參考 GPU41 2 3。例如,英特爾提交的單系統雙路英特爾? 至強? 可擴展處理器結果在 MLPerf 圖像分類基準測試 (Resnet-50) 中取得 0.85 分1;在推薦基準測試(神經協同過濾,NCF)中取得 1.6 分2;在強化學習基準測試 (mini GO) 中取得 6.3 分3。在所有這些分數中,參考 GPU 上的參考實施分數是 1.0 分4。對于上述所有結果,我們使用的是當今市場中常用的數值精度 FP32。從上述 MLPerf 結果可以看出,游戲測試機器人現在可以在英特爾? 至強? 可擴展處理器上輕松進行訓練。
· 深度學習和機器學習領域繼續從使用卷積神經網絡 (CNN) 的圖像處理和使用循環神經網絡 (RNN) 的自然語言處理轉向使用 MLP 層和通用矩陣乘法的推薦系統、強化學習(混合 CNN 和仿真)以及包含深度學習和傳統機器學習的混合模型。通用 CPU 不僅能夠運行現有非深度學習工作負載,也可以很好地適應不斷變化的環境。
· 企業已采用 CPU 進行深度學習訓練。例如,Datatonic* 今天發表的博客中寫道,某排名前五的英國零售商使用由英特爾? 至強? 可擴展處理器支持的Google Cloud* 虛擬機,當運行用于生產環境的神經網絡推薦系統時,可實現高達 11 倍的成本節省和 57% 的性能改進5。CPU 也可以適應許多領域要求的大內存模型。制藥公司諾華使用英特爾? 至強? 可擴展處理器來加快多尺度卷積神經網絡 (M-CNN) 的訓練,處理 10,000 張高內涵細胞顯微圖像(此類圖像比常見 ImageNet* 圖像大得多),將訓練時間從 11 小時縮短到 31 分鐘6。
· 正如在 2018 年超級計算大會上所展示的,HPC 客戶使用英特爾? 至強? 處理器進行分布式訓練。舉例來說,GENCI/CINES/INRIA 使用 128 個基于雙路英特爾? 至強? 處理器的系統,在包含1200 萬張圖像的 1.5TB 數據集上訓練 30 萬個物種的植物分類模型7。DELL* EMC* 和SURFSara 使用英特爾? 至強? 處理器將 DenseNet-121 模型的訓練時間縮短到 11 分鐘8。CERN* 使用 TACCStampede 2 集群(英特爾? 至強? 鉑金 8160 處理器,英特爾? OPA)的128 個節點與 3D 生成式對抗網絡 (3D GAN) 展示分布式訓練,實現 94% 的擴展效率9。
· 在過去幾年里,用于深度學習的 CPU 硬件和軟件性能已提高幾個數量級。曾要花費數天甚至數周時間的訓練,現在只需數小時甚至數分鐘即可完成。這種程度的性能提升是通過硬件和軟件組合實現的。例如,當代英特爾? 至強? 可擴展處理器增添了AVX-512 指令集(更長的矢量擴展),允許大量操作并行完成,還增加了大量內核,機器搖身一變,成為一臺迷你超級計算機。下一代英特爾? 至強? 可擴展處理器新增英特爾? 深度學習加速:更高吞吐量、更低數值精度指令可加速深度學習推理。對于軟件,在相同的英特爾? 至強? 可擴展處理器上,基線開源深度學習軟件和英特爾? 優化軟件之間的性能差異可高達 275 倍10(昨天我在英特爾? 架構日論壇上的演示說明了這一點)。
· 在過去幾年里,英特爾一直與深度學習框架開發人員合作,希望針對英特爾? 處理器優化眾多熱門開源框架,如 TensorFlow*、Caffe*、MXNet*、PyTorch*/Caffe2*、PaddlePaddle* 和 Chainer*。英特爾還設計了一個框架,適用于 SPARK* 的 BigDL,和用于推理的英特爾? 深度學習部署工具包。由于內核計算是線性代數,因此我們基于英特爾? 數學核心函數庫 (MKL) 多年的高性能計算經驗,為深度學習專門創建了一個新的數學庫:面向深度神經網絡的英特爾? 數學核心函數庫(英特爾? MKL-DNN)。通過將英特爾? MKL-DNN 集成到框架中,再加上為了完全利用基礎硬件功能而對框架進行的額外優化,軟件性能實現大幅提升。
· 常有人問我,CPU 比加速器快還是慢。當然,加速器有一定的優勢。對于特定領域,如果加速器的速度連
CPU 都比不上,那么根本就不能稱為加速器。即便如此,考慮到深度學習工作負載越來越多樣化,有時候,CPU 的速度可能持平或者更快,同時保留對 CPU 價值主張至關重要的靈活性。因此,對于那些不想投資加速器的客戶來說,更為貼切的問題是 CPU 運行深度學習的性能是否足夠好,可以將 CPU 作為有效選擇。這些初步 MLPerf 結果1 2 3 以及客戶的示例證明,CPU 的確可以有效地用于訓練。英特爾的戰略是提供通用 CPU 和加速器,以便滿足廣泛客戶的機器學習需求。
·
展望未來,我們將繼續為未來的 CPU 提供新的人工智能和深度學習功能,如英特爾? 深度學習加速和用于訓練的 bfloat16,并進行其他軟件優化。
總結
以上是生活随笔為你收集整理的MLPerf结果证实至强® 可有效助力深度学习训练的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 英特尔内存革新助平安云 Redis 云服
- 下一篇: 基于至强® 平台的内存数据库解决方案