【NLP】谷歌、伯克利联合研究:为5种大型NLP模型,彻底算算这笔账
近年來,隨著機器學習模型規模的不斷增大,相應的計算需求也在迅速增長,由此引起了多種成本的增加。其中,估算能源成本有助于衡量其對環境的影響和探尋更環保的策略,但其局限性在于沒有詳細的信息,這無疑給研究帶來了很大的挑戰。
一項由谷歌和伯克利共同完成的論文,則針對幾個大型模型(T5、Meena、GShard、Switch Transformer 和 GPT-3)的能源使用和碳足跡進行了計算,并對發現 Evolved Transformer 的神經網絡架構搜索算法的早期估計進行了優化。
論文作者團隊陣容強大
該研究突出強調了以下可以提高能源效率和二氧化碳當量(Carbon Dioxide Equivalent,???,是碳足跡的標準測量單位)的幾個重要信息:
盡管使用了同樣甚至更多的參數,在不損失精度的情況下,大型且稀疏激活的 DNNs 消耗的能量小于 1/10 的大型且密集 DNNs 的能量。
地理位置對于 ML 工作量調度很重要,即使是在同一個國家和同一個組織內,無碳能源(carbon-free energy)和產生的??的比例也可能相差約 5-10 倍。現在的重點在于從地點和時間兩方面來優化大型模型的訓練。
特定的數據中心基礎設施同樣關鍵,因為云數據中心(Cloud datacenters)的能源效率比典型數據中心高出 1.4-2 倍,而且其內部面向 ML 的加速器比現成系統的效率要高出 2-5 倍。
尤其值得注意的是,DNN、數據中心和處理器的選擇可以有效減少碳足跡(carbon footprint),其數值高達 100-1000 倍。
上述這些影響大的因素也使得能源成本的追溯估計變得更加困難。為了避免計算錯誤,這支研究團隊認為需要大量展現計算資源的 ML 論文,并且倡議在實際中明確能源消耗和??等指標。與此同時,團隊正在努力地在未來的研究中提高能源使用和??排放的透明度。
為了幫助 ML 減少碳足跡,團隊認為能源使用和??應該作為評估模型的關鍵指標,并且團隊正在與 MLPerf 開發人員合作,致力于將訓練期間的能源使用和推理(inference)納入到行業標準基準之中。
NLP 模型的能源消耗與碳足跡
運行 ML 模型所需的電力是算法、實現該模型的程序、運行該程序的處理器數量、處理器的速度和功率、數據中心在供電和冷卻處理器方面的效率,以及能源供應結構(可再生能源、天然氣、煤炭等)的函數。考慮這些因素的 ML 模型的碳足跡簡化公式表示如下:
大多數的公司都將精力傾注在服務 DNN 模型(執行推理)上,而非在訓練上。
例如,NVIDIA 估計 80-90% 的 ML 工作量在推理處理任務上。類似地,亞馬遜網絡服務聲稱,云計算中 90% 的 ML 需求是用于推理的。鑒于其在 ML 模型生命周期中的重要作用,阿里巴巴、亞馬遜、谷歌和 NVIDIA 專門設計了 ML 加速器用于推理。如果 ML 的總能源被分成 10% 的訓練和 90% 的服務,那么即使一個給定的 ML 模型需要雙倍的訓練能源成本,如果該模型同時減少 20% 的服務能源,也可以從整體上降低碳排放。
考慮到以下事實,相對于推理期間的能源使用來說,模型訓練的能源使用更孤立,更容易調查,因此團隊在本文中重點關注后者,不過,請記住,推理的碳足跡也很重要。
ML 從業者通常是在改進現有模型的質量,而非從零開始。
在本文中,團隊以一個運行實例來展示??的變化,具體操作如下:從在平均數據中心使用現成的硬件來訓練 Transformer 模型,到在谷歌的定制硬件上為谷歌的能源優化數據中心的 DNNs 訓練 Evolved Transformer 模型,觀察對產生??的影響。在本例中,每個因素的巨大影響都是對 “為什么建議模型的訓練人員參與其成本計算” 的例證。
其中,上圖表 1 展示了??的細化情況。表 2 顯示了??的單位,以及將這些單位置于透視圖中的運行示例。圖 1 則顯示了每一步的增益;??的整體改善為 57 倍。這一巨大的增益說明了為什么 DNN 模型、處理器、數據中心和地理位置的選擇對于改善??是至關重要的。
接下來,研究更詳細地討論四個影響訓練碳足跡的因素。
l 算法和程序的改進:谷歌大腦的最新研究提出,通過神經網絡架構搜素尋找更好的 Transformer,以實現 Transformer 的進化!該搜索發現了一種名為 Evolved Transformer 的新架構,其在四個成熟語言任務上的表現均優于原版的 Transformer,用時少且精度高。
這種途徑不僅縮減了 ML 研究人員的訓練時間,也節省了組織資金,還有效降低了??。
l 處理器的改進:谷歌的定制 TPU v2 處理器運行 Transformer (Big) 的速度比 P100 GPUs 快 4.3 倍,比 Evolved Transformer (Medium) 快 5.2 倍。此外,TPU v2 的功耗也更低:Transformer 的功耗降低 1.3 倍,Evolved Transformer 的功耗降低 1.2 倍。“性能 / 瓦特” 的凈增益分別為 5.6 倍和 6.2 倍。
在過去十年中,深度學習的范圍和規模不斷擴大為量身定制硬件創造了機會,主要面向訓練和服務 DNN 模型所涉及的計算類型。谷歌沒有像許多其他組織一樣使用 GPUs,在過去 7 年里,谷歌為 DNNs 設計、構建和部署了四代定制 TPU,以加速模型訓練和服務。為了獲得更好的投資回報,云公司的目標實際上旨在提高成本效益,而不僅僅是性能。
l 數據中心的改進:數據中心效率的有用定量度量是在直接驅動數據中心內的計算設備之上的能源開銷。如果開銷是 50%,那么功率使用效率(PUE, Power Usage Effectiveness)將是 1.50。
2018 年美國國家數據中心的平均值為 1.58;在 2020 年,這個數字是 1.59。谷歌每季度都會在線發布其數據中心的 PUE。團隊成員運行 Evolved Transformer 時,愛荷華州數據中心(Iowa datacenter)的 PUE 提示為 1.11,提高了 1.4 倍。由于服務器利用率等其他因素,云數據中心的能源效率大約是典型企業數據中心的 2 倍,但團隊將本文的量化改進限制在易于度量的 PUE 上。更廣泛地,由于云數據中心的能源效率要高得多,長期以來人們所擔心的數據中心能源使用的爆炸式增長并未實現。
最近在《科學》雜志中的一篇論文發現,與 2010 年相比,全球數據中心的能源消耗僅增長了 6%,盡管同期計算能力增長了 550%。
云計算公司努力建立節能的數據中心,因為這樣既省錢又降低排放。也許未來的研究應該在富蘭克林(Ben franklin)的 “時間就是金錢” 的建議之外再加上 “精力就是金錢”?
l 能源結構的改進:根據美國的 average mix 計算,能源的總碳強度為 0.429 kg????/KWh。在達到谷歌的 24/7 無碳能源框架的清潔能源購買后,團隊運行 “Evolved Transformer” 的愛荷華數據中心的凈二氧化碳排放量跌至 0.080,比原來要好 5.4 倍。
與在光纖上以光子的形式發送信息相比,遠距離傳輸電力更昂貴且效率低。云計算允許像谷歌這樣的公司擁有全球性的數據中心組合,其中許多都位于網格更清潔(如芬蘭)或者公司可以直接購買清潔能源(如愛荷華州)的地方。
到 2020 年,谷歌在其能源戰略中宣布了一個新目標:到 2030 年,其目標是讓所有谷歌數據中心和辦公室全天候使用無碳能源。
減少??不僅是一項道德義務,最終也將變為一項合理的業務。為了減少訓練的占用,ML 研究人員應該仔細選擇 DNN 模型、處理器和數據中心。削減能源可以節省成本并減少??,改善能源結構可以降低??。
本文中將訓練公式重構為能源消耗和碳足跡(其中??表示公噸??),表示如下:
團隊認為,對于 ML 從業者來說,在已知訓練的時間和處理器的數量的情況下,計算能耗是很簡單的。
谷歌和 Facebook 發布了他們數據中心的 PUE,所以很容易找到這些云。如果云提供商不共享 PUE,可以使用美國的平均 PUE。團隊成員在訓練期間測量了處理器的功率,效果很理想,但使用幾個類似模型的訓練的平均值可能就足夠了,而且相對更容易一些。
上表 3 便顯示了團隊在本文中測量的處理器和 DNN 的平均功率和標準差。
5 種大型 NLP 模型的能源使用和??
隨之而來的一個自然問題是,如何訓練更大的 NLP 模型的???呢?下表 4 和附錄 A 顯示了其中 5 個模型的??計算:來自谷歌的 T5、Meena、GShard、Switch Transformer 和來自 Open AI 的運行在微軟 Azure Cloud 上的 GPT-3,具體如下所示。
l T5?是一種預訓練的語言模型,它能夠將所有的 NLP 問題轉換為統一的文本到文本格式,從而實現遷移學習,進而降低訓練成本。其最大情況下包含 11B 參數,訓練使用了 86 MWh,產生了 47 ??。
l Meena?是一個多回合開放域聊天機器人。包含 2.6B 參數的 DNN 參與訓練,以最小化下一個令牌的困惑度(perplexity)。Meena 的訓練使用了 232 MWh,排放量為 96 ??。
l GShard?由一組輕量級注釋 API 組成,這些 API 提供了一種優雅的方式來表達各種復雜的并行計算模式,同時對現有模型代碼的僅做了很小的改動。它使用自動分片的稀疏門控混合專家(MoE, mixture-of-experts)實現了多語言神經機器翻譯 Transformer 模型的擴展。其中,GShard-600B 模型具有特殊用途,用于訓練具有 600B 總參數的多語言翻譯模型。與密集模型相比,稀疏模型可以有很多模型參數而且計算量更少。GShard-600B 的訓練使用了 24 MWh,產生了 4.3 凈??。
l?由 Google Brain 設計的名叫?Switch Transformer?的簡化稀疏架構,可以將語言模型的參數量擴展至 1.6 萬億。該架構簡化了 MoE 路由算法,設計了直觀的改進模型,減少了通信和計算開銷。作者展示了包含 1500b 參數的大型稀疏模型,但每個 token 僅激活 0.1%。在相同的計算資源下,可以在預訓練速度上提高 7 倍。團隊估計它使用了 179 MWh,產生了 59 凈??。
l GPT-3?是一個具有 175B 參數的自回歸語言模型,比當時的其它非稀疏語言模型要多 10 倍。它在許多 NLP 數據集上都取得了良好的性能,目前有廣泛的商業用途。像 GPT-3 這樣的大型語言模型的潛在優勢是,可以借助其泛化性能而避免像較小的模型那樣為每個新任務重新訓練,有效地降低了能耗。其訓練后的碳排放估計為 552 ??,能源消耗為 1287 MWh。
上圖 2 和圖 3 以圖的形式形象的展示了相同的數據。其中,圖 2 使用雙對數曲線圖繪制了與 Transformer(Big)相關的 X 軸上的參數的數量和 Y 軸上的總 FLOPS 數。稀疏激活模型使用更多參數,總 FLOPS 更低。因為在 FLOPS 中性能不一定是線性的。
圖 3 清晰的展示了處理器的能耗和碳足跡。與密集的 GPT-3 相比,稀疏激活的 Gshard 需要更少的約 45 倍的 processor years,使用更少的約 55 倍的能源,減少總共約 115 倍的??和 130 倍的凈??。
文章也進一步討論了由于訓練 NLP 模型而導致的與碳排放相關的其他因素,主要涉及以下 9 個方面:
(1)神經結構搜索的成本估算;
(2)用于訓練的資源比唯一的最后一次訓練要多;
(3)測量比推理更有趣;
(4)標準的 ML 算法技術可以提高能源效率;
(5)即使是在同一個組織中,選擇使用哪個數據中心也很重要;
(6)很多人可以訪問能源優化的數據中心;
(7)降低訓練成本;
(8)與其他活動相比,大型 NLP 模型的訓練究竟如何?
(9)NLP 模型的優勢之處是在于能源成本嗎?
總而言之,全球氣候變化對經濟、人類健康和環境都是潛在的威脅,ML 社區需要盡自己的一份力量來限制碳排放。
提高算法、數據中心、硬件和軟件的能源效率將成為云計算公司的長期優先關注事項。
如果與提高排放指標和準確性的公開激勵相結合,還可能迎來一個良性的循環,通過加速算法、系統、硬件、數據中心和無碳能源的效率和成本創新,一定會減緩 ML 的碳足跡增長。
Reference:
https://arxiv.org/ftp/arxiv/papers/2104/2104.10350.pdf
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯溫州大學《機器學習課程》視頻 本站qq群851320808,加入微信群請掃碼:總結
以上是生活随笔為你收集整理的【NLP】谷歌、伯克利联合研究:为5种大型NLP模型,彻底算算这笔账的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【深度学习】引用次数在15000次以上的
- 下一篇: 360浏览器怎么收藏网页 360安全浏览