GPGPU Achitectures阅读笔记 1
Abstract
圖形處理器單元 (GPU) 最初是為支持視頻游戲而開發的,現在越來越多地用于從機器學習到加密貨幣挖掘的通用(非圖形)應用程序。 與中央處理單元 (CPU) 相比,GPU 可以通過將大部分硬件資源專用于計算來實現更高的性能和效率。 此外,與特定領域的加速器相比,它們的通用可編程性使當代 GPU 對軟件開發人員具有吸引力。 本書為那些對研究支持通用計算的 GPU 架構感興趣的人提供了介紹。 它收集了目前只能在廣泛的不同來源中找到的信息。 作者領導了 GPGPU-Sim 模擬器的開發,該模擬器廣泛用于 GPU 架構的學術研究。
本書的第一章描述了 GPU 的基本硬件結構,并簡要概述了它們的歷史。 第 2 章總結了與本書其余部分相關的 GPU 編程模型。 第 3 章探討了 GPU 計算核心的架構。第 4 章探討了 GPU 內存系統的架構。 在描述了現有系統的架構之后,第 3 章和第 4 章提供了相關研究的概述。 第 5 章總結了影響計算核心和內存系統的跨領域研究。對于那些希望了解用于加速通用應用程序的圖形處理器單元 (GPU) 體系結構的人,以及那些希望了解快速增長的研究主體,探索如何改進 這些 GPU 的架構。
Introduction
本書探討了圖形處理器單元 (GPU) 的硬件設計。 最初引入 GPU 是為了實現專注于視頻游戲的實時渲染。 今天,GPU 無處不在,從智能手機、筆記本電腦、數據中心,一直到超級計算機。
事實上,對 Apple A8 應用處理器的分析表明,與中央處理器單元 (CPU) 內核相比,它為集成 GPU 提供了更多的芯片面積 [A8H]。 對更加逼真的圖形渲染的需求是 GPU 創新的最初驅動力 [Montrym and Moreton, 2005]。 雖然圖形加速仍然是其主要目的,但 GPU 越來越多地支持非圖形計算。 今天受到關注的一個突出例子是越來越多地使用 GPU 來開發和部署機器學習系統 [NVIDIA Corp., 2017]。 因此,本書的重點是與提高非圖形應用程序的性能和能源效率相關的功能。
本介紹性章節簡要概述了 GPU。 我們從 1.1 節開始,考慮更廣泛的計算加速器類別的動機,以了解 GPU 與其他選項的比較。 然后,在第 1.2 節中,我們快速概述了當代 GPU 硬件。 最后,第 1.4 節提供了本書其余部分的路線圖。
1.1 THE LANDSCAPE OF COMPUTATION
ACCELERATORS
幾十年來,計算系統的后幾代表現出每美元的性能呈指數級增長。 根本原因是晶體管尺寸的減小、硬件架構的改進、編譯器技術和算法的改進。
據估計,這些性能提升的一半是由于晶體管尺寸的減小導致設備運行速度更快 [Hennessy and Patterson, 2011]。 然而,自 2005 年左右以來,晶體管的縮放未能遵循現在稱為 Dennard Scaling 的經典規則 [Dennard et al., 1974]。 一個關鍵的結果是,隨著設備變得更小,時鐘頻率現在的提高速度要慢得多。 為了提高性能,需要找到更高效的硬件架構。
通過利用硬件專業化,可以將能源效率提高多達 500 [Hameed et al., 2010]。 正如 Hameed 等人所表明的那樣,實現這種效率增益有幾個關鍵方面。 轉向矢量硬件,例如 GPU 中的硬件,通過消除指令處理的開銷,效率提高了大約 10 倍。 硬件專業化的大部分剩余收益是最小化數據移動的結果,這可以通過引入執行多個算術運算的復雜操作來實現,同時避免訪問大型存儲器陣列,例如寄存器文件。
當今計算機架構師面臨的一個關鍵挑戰是找到更好的方法來平衡可以通過使用專用硬件獲得的效率收益與支持各種程序所需的靈活性。 在沒有架構的情況下,只有可用于大量應用程序的算法才能高效運行。 一個新興的例子是專門用于支持深度神經網絡的硬件,例如谷歌的張量處理單元 [Jouppi et al., 2017]。 雖然機器學習似乎可能占據計算硬件資源的很大一部分,并且這些資源可能會遷移到專用硬件,但我們認為仍然需要有效支持以傳統編程語言編寫的軟件表示的計算。
除了使用 GPU 進行機器學習之外,人們對 GPU 計算產生濃厚興趣的一個原因是現代 GPU 支持圖靈完備編程模型。 通過圖靈完備,我們的意思是只要有足夠的時間和內存,任何計算都可以運行。
相對于專用加速器,現代 GPU 是靈活的。 對于可以充分利用 GPU 硬件的軟件,GPU 的效率可以比 CPU 高一個數量級 [Lee et al., 2010]。 這種靈活性和效率的結合是非常理想的。 因此,許多頂級超級計算機,無論是在峰值性能還是能源效率方面,現在都采用 GPU。 在隨后的幾代產品中,GPU 制造商改進了 GPU 架構和編程模型,以提高靈活性,同時提高能效。
1.2 GPU HARDWARE BASICS
通常那些第一次接觸 GPU 的人會問他們是否最終會完全取代 CPU。這似乎不太可能。在當前系統中,GPU 不是獨立的計算設備。相反,它們與 CPU 結合在單個芯片上或通過將僅包含 GPU 的附加卡插入包含 CPU 的系統中。 CPU 負責在 GPU 上啟動計算并將數據傳入和傳出 GPU。 CPU 和 GPU 之間進行這種分工的一個原因是計算的開始和結束通常需要訪問輸入/輸出 (I/O) 設備。雖然一直在努力開發直接在 GPU 上提供 I/O 服務的應用程序編程接口 (API),但到目前為止,這些都假設附近存在 CPU [Kim 等人,2014 年;Silberstein 等人,2013 年]。這些 API 通過提供方便的接口來發揮作用,這些接口隱藏了管理 CPU 和 GPU 之間通信的復雜性,而不是完全消除對 CPU 的需求。為什么不淘汰CPU?用于訪問 I/O 設備和以其他方式提供操作系統服務的軟件似乎缺乏適合在 GPU 上運行的特性,例如大規模并行性。因此,我們首先考慮 CPU 和 GPU 的交互。
圖 1.1 顯示了一個包含 CPU 和 GPU 的典型系統的抽象圖。左側是典型的離散 GPU 設置,包括連接 CPU 和 GPU(例如 PCIe)的總線,用于 NVIDIA 的 Volta GPU 等架構,右側是典型的集成 CPU 和 GPU(例如 AMD 的 Bristol Ridge)的邏輯圖APU 或移動 GPU。請注意,包括離散 GPU 的系統具有用于 CPU(通常稱為系統內存)和 GPU(通常稱為設備內存)的獨立 DRAM 內存空間。用于這些存儲器的 DRAM 技術通常不同(CPU 為 DDR,GPU 為 GDDR)。 CPU DRAM 通常針對低延遲訪問進行了優化,而 GPU DRAM 則針對高吞吐量進行了優化。相比之下,具有集成 GPU 的系統具有單個 DRAM 內存空間,因此必須使用相同的內存技術。由于集成 CPU 和 GPU 經常出現在低功耗移動設備上,因此共享 DRAM 內存通常針對低功耗(例如 LPDDR)進行了優化。
GPU 計算應用程序開始在 CPU 上運行。通常,應用程序的 CPU 部分將分配和初始化一些數據結構。在來自 NVIDIA 和 AMD 的較舊的獨立 GPU 上,GPU 計算應用程序的 CPU 部分通常為 CPU 和 GPU 內存中的數據結構分配空間。對于這些 GPU,應用程序的 CPU 部分必須協調數據從 CPU 內存到 GPU 內存的移動。較新的獨立 GPU(例如 NVIDIA 的 Pascal 架構)具有軟件和硬件支持,可以自動將數據從 CPU 內存傳輸到 GPU 內存。這可以通過利用 CPU 和 GPU 上的虛擬內存支持來實現 [Gelado et al., 2010]。 NVIDIA 稱之為“統一內存”。在 CPU 和 GPU 集成到同一芯片上并共享同一內存的系統上,無需程序員控制從 CPU 內存復制到 GPU 內存。但是,由于 CPU 和 GPU 使用緩存,并且其中一些緩存可能是私有的,因此可能存在緩存一致性問題,硬件開發人員需要解決該問題 [Power et al., 2013b]。
在某些時候,CPU 必須在 GPU 上啟動計算。 在當前系統中,這是在 CPU 上運行的驅動程序的幫助下完成的。 在 GPU 上啟動計算之前,GPU 計算應用程序指定應在 GPU 上運行哪些代碼。 這段代碼通常被稱為內核(更多細節在第 2 章)。 同時,GPU 計算應用程序的 CPU 部分還指定應該運行多少線程以及這些線程應該在哪里查找輸入數據。 要運行的內核、線程數和數據位置通過在 CPU 上運行的驅動程序傳送到 GPU 硬件。 驅動程序將翻譯信息并將其放置在 GPU 可訪問的內存中,在該位置,GPU 被配置為查找它。 然后,驅動程序向 GPU 發出信號,表明它應該運行新的計算。
現代 GPU 由許多內核組成,如圖 1.2 所示。 NVIDIA 將這些內核稱為流式多處理器,而 AMD 將它們稱為計算單元。 每個 GPU 內核執行一個單指令多線程 (SIMT) 程序,該程序對應于已啟動在 GPU 上運行的內核。 GPU 上的每個核心通??梢赃\行一千個線程。 在單核上執行的線程可以通過暫存器內存進行通信,并使用快速屏障操作進行同步。 每個內核通常還包含一級指令和數據緩存。 這些充當帶寬過濾器,以減少發送到內存系統較低級別的流量。 當在一級緩存中找不到數據時,內核上運行的大量線程用于隱藏訪問內存的延遲。
注:一個core內為SIMT(相當于1000個thread);Core內的thread可以利用內存交流,也可以用 barrier同步;利用多個線程并行計算來掩蓋內存訪問的延遲
為了維持高計算吞吐量,必須在高計算吞吐量和高內存帶寬之間取得平衡。 這反過來需要存儲器系統中的并行性。 在 GPU 中,這種并行性是通過包含多個內存通道來提供的。 通常,每個內存通道都與內存分區中的最后一級緩存的一部分相關聯。 GPU 內核和內存分區通過片上互連網絡(例如交叉開關)連接。 替代組織是可能的。 例如,在超級計算市場上直接與GPU競爭的英特爾至強融核,將末級緩存與核心進行分配。
在高度并行的工作負載上,與超標量亂序 CPU 相比,GPU 可以通過以下方式獲得更高的單位面積性能: 將其芯片面積的較大部分專用于算術邏輯單元,而相應地將較少的面積專用于控制邏輯。為了直觀地了解 CPU 和 GPU 架構之間的權衡,Guz 等人。 [2009] 開發了一個富有洞察力的分析模型,展示了性能如何隨線程數量而變化。為了保持模型簡單,他們假設了一個簡單的緩存模型,其中線程不共享數據和無限的片外存儲器帶寬。圖 1.3 再現了他們論文中的一個圖,說明了他們在模型中發現的一個有趣的權衡。當少量線程共享大緩存時(如多核 CPU 中的情況),性能會隨著線程數量的增加而提高。但是,如果線程數增加到緩存無法容納整個工作集的程度,則性能會下降。隨著線程數量的進一步增加,性能隨著多線程隱藏長片外延遲的能力而提高。 GPU 架構由該圖的右側表示。 GPU 旨在通過采用多線程來容忍頻繁的緩存未命中。
注:GPU相比于CPU的特點:將較大的面積用來做計算邏輯,較少的面積用來做控制邏輯
隨著 Dennard Scaling [Horowitz et al., 2005] 的結束,提高能源效率已成為計算機架構研究創新的主要驅動力。 一個關鍵的觀察結果是,訪問大內存結構會消耗與計算一樣多或更多的能量。 例如,表 1.1 提供了 45 nm 工藝技術中各種操作的能量數據 [Han et al., 2016]。 在提出新穎的 GPU 架構設計時,重要的是要考慮能耗。 為了解決這個問題,最近的 GPGPU 架構模擬器,如 GPGPU-Sim [Bakhoda 等人,2009] 結合了能量模型 [Leng 等人,2013]。
1.3 A BRIEF HISTORY OF GPUS
本節簡要介紹圖形處理單元的歷史。計算機圖形在 1960 年代出現,其中包括 Ivan Sutherland 的 Sketchpad [Sutherland, 1963] 等項目。從最早期開始,計算機圖形就已成為電影動畫離線渲染的組成部分,同時也與視頻游戲中使用的實時渲染的發展密切相關。早期的視頻卡始于 1981 年的 IBM 單色顯示適配器 (MDA),它僅支持文本。后來,顯卡引入了 2D 和 3D 加速。除了視頻游戲,3D 加速器還針對計算機輔助設計。早期的 3D 圖形處理器,如 NVIDIA GeForce 256,功能相對固定。 NVIDIA 在 2001 年推出的 GeForce 3 中以頂點著色器 [Lindholm et al., 2001] 和像素著色器的形式向 GPU 引入了可編程性。研究人員通過將矩陣數據映射到紋理中,很快學會了如何使用這些早期的 GPU 實現線性代數并應用著色器 [Krüger 和 Westermann,2003] 以及將通用計算映射到 GPU 的學術工作,這樣程序員很快就不需要了解圖形 [Buck 等人,2004]。這些努力激勵 GPU 制造商直接支持除圖形之外的通用計算。第一個這樣做的商業產品是 NVIDIA GeForce 8 系列。 GeForce 8 系列引入了多項創新,包括從著色器和暫存器內存寫入任意內存地址的能力,以限制早期 GPU 所缺乏的片外帶寬。下一個創新是使用 NVIDIA 的 Fermi 架構實現讀寫數據的緩存。隨后的改進包括 AMD 的 Fusion 架構,該架構將 CPU 和 GPU 集成在同一個芯片上,以及能夠從 GPU 本身啟動線程的動態并行性。最近,NVIDIA 的 Volta 推出了專門針對機器學習加速的 Tensor Cores 等功能。
總結
以上是生活随笔為你收集整理的GPGPU Achitectures阅读笔记 1的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 中国各省常住人口和GDP数据( 2001
- 下一篇: MPQ hash