當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

NVIDIA Turing Architecture架构设计（下）

發(fā)布時間：2023/11/28 生活经验 50 豆豆

生活随笔收集整理的這篇文章主要介紹了 NVIDIA Turing Architecture架构设计（下）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

NVIDIA Turing Architecture架構(gòu)設(shè)計（下）

GDDR6 內(nèi)存子系統(tǒng)

隨著顯示分辨率不斷提高，著色器功能和渲染技術(shù)變得更加復(fù)雜，內(nèi)存帶寬和大小在 GPU 性能中扮演著更大的角色。為了保持最高的幀速率和計算速度， GPU 不僅需要更多的內(nèi)存帶寬，還需要一個大的內(nèi)存池來提供持續(xù)的性能。

NVIDIA 與 DRAM 行業(yè)密切合作，開發(fā)了世界上第一款使用 HBM2 和 GDDR5X 內(nèi)存的
GPUs 。現(xiàn)在圖靈是第一個使用 GDDR6 內(nèi)存的 GPU 架構(gòu)。

GDDR6 是高帶寬 GDDRAM 內(nèi)存設(shè)計的下一個重大進步。隨著許多高速 SerDes 和 RF 技術(shù)的增強，圖靈 GPUs 中的 GDDR6 內(nèi)存接口電路已經(jīng)完全重新設(shè)計，以實現(xiàn)速度、功率效率和降噪。這種新的接口設(shè)計帶來了許多新的電路和信號訓練改進，最大限度地減少了噪聲和工藝、溫度和電源電壓的變化。廣泛的時鐘門控被用來最小化低利用率期間的功耗，從而顯著提高整體功率效率。與 Pascal GPUs 中使用的 GDDR5X 內(nèi)存相比， Turing 的 GDDR6 內(nèi)存子系統(tǒng)提供了 14 Gbps 的信令速率和 20% 的能效改進。

實現(xiàn)這種速度提升需要端到端的優(yōu)化。利用廣泛的信號和電源完整性仿真， NVIDIA 精心設(shè)計了圖靈的封裝和電路板設(shè)計，以滿足更高的速度要求。例如，信號串擾降低 40% ，這是大型存儲系統(tǒng)中最嚴重的損傷之一。

為了實現(xiàn) 14 Gbps 的速度，內(nèi)存子系統(tǒng)的各個方面都經(jīng)過精心設(shè)計，以滿足如此高頻率操作所需的高要求標準。設(shè)計中的每個信號都經(jīng)過了仔細的優(yōu)化，以提供盡可能干凈的內(nèi)存接口信號（參見圖 9 ）。

圖 9. 圖靈 GDDR6

二級緩存和 ROPs

圖靈 GPU 除了新的 GDDR6 內(nèi)存子系統(tǒng)之外，還增加了更大更快的二級緩存。 TU102 GPU 附帶 6mb 的二級緩存，是上一代 GP102 GPU 在 Xp 中使用的3mb 二級緩存的兩倍。 TU102 還提供比 GP102 更高的二級緩存帶寬。

和上一代 NVIDIA GPU 一樣，圖靈圖靈中的每個 ROP 分區(qū)包含 8 個 ROP 單元，每個單元可以處理一個單一的顏色樣本。一個完整的 TU102 芯片包含 12 個 ROP分區(qū)，總共 96 個 ROP 。

圖靈存儲器壓縮

NVIDIA GPUs 利用幾種無損內(nèi)存壓縮技術(shù)，在數(shù)據(jù)被寫入幀緩沖存儲器時減少對內(nèi)存帶寬的需求。 GPU 的壓縮引擎有各種不同的算法，這些算法根據(jù)數(shù)據(jù)的特性來確定最有效的壓縮方法。這減少了寫入內(nèi)存和從內(nèi)存?zhèn)鬏數(shù)蕉壘彺娴臄?shù)據(jù)量，并減少了客戶端（如紋理單元）和幀緩沖區(qū)之間傳輸?shù)臄?shù)據(jù)量。圖靈對 Pascal 最先進的內(nèi)存壓縮算法進行了進一步的改進，在 GDDR6 的原始數(shù)據(jù)傳輸速率提高之外，提供了更大的有效帶寬。如圖 10 ，所示，原始帶寬的增加和通信量的減少意味著圖靈上的有效帶寬比Pascal 增加了 50% ，這對于保持架構(gòu)平衡和支持新圖靈SM 架構(gòu)提供的性能至關(guān)重要。

圖 10 .有效帶寬提高 50%

基于圖靈 TU102 的存儲子系統(tǒng)和壓縮（流量減少）改進

RTX 2080 Ti 比基于Pascal GP102 的 1080 Ti 提供大約 50%
的有效帶寬改進。

視頻顯示引擎

消費者對高分辨率顯示器的需求逐年增加。例如， 8K 分辨率（ 7680 x 4320 ）需要的像素是 4K （ 3820 x 2160 ）的四倍。游戲玩家和硬件發(fā)燒友也希望顯示器除了更高的分辨率外，還有更高的刷新率，以體驗盡可能平滑的圖像。

圖靈 GPUs 包括一個全新的顯示引擎，為新一輪的顯示設(shè)計，支持更高的分辨率，更快的刷新率，以及 HDR 。圖靈支持 DisplayPort1 . 4a ，在 60Hz 下支持 8K 分辨率，并包括
VESA 的顯示流壓縮（ DSC ） 1 . 2 技術(shù)，提供更高的壓縮，視覺無損。
表 2 顯示了圖靈 GPUs 中對 DisplayPort 的支持。

Table 2. DisplayPort Support in Turing
GPUs

圖靈 GPUs 可以驅(qū)動兩個 60hz的 8K 顯示器，每個顯示器有一根電纜。 8K 分辨率也可以通過 USB-C 發(fā)送（有關(guān)更多詳細信息，請參見下面的 USB-C 和 VirtualLink 部分）。

圖靈的新顯示引擎支持顯示管道中的 HDR 本地處理。色調(diào)映射也被添加到了 HDR 管道中。色調(diào)映射是一種用于在標準動態(tài)范圍顯示器上近似顯示高動態(tài)范圍圖像的技術(shù)。圖靈支持 ITU-R 建議 BT . 2100 標準定義的色調(diào)映射公式，以避免不同 HDR 顯示器上的顏色偏移。

圖靈 GPUs 還附帶了一個增強的NVENC 編碼器單元，它增加了對 H . 265 （HEVC ） 8K 編碼的支持，每秒 30 幀。新的 NVENC 編碼器為 HEVC 提供了高達 25% 的比特率節(jié)省，為 H . 264 提供了高達 15% 的比特率節(jié)省。

圖靈的新 NVDEC 解碼器也已更新，以支持在 30 幀/秒、 H . 264 8K 和 VP9 10 / 12b HDR 解碼 HEVC YUV444 10 / 12b HDR 。

與上一代 Pascal GPU 和軟件編碼器相比，圖靈改進了編碼質(zhì)量。圖 11 顯示，在常見的 Twitch 和
YouTube 流媒體設(shè)置中， Turing 的視頻編碼器超過了使用快速的編碼設(shè)置的基于 x264 軟件的編碼器的質(zhì)量，同時 CPU 利用率顯著降低。在典型的 CPU 設(shè)置上， 4K 流對于編碼來說是一個太重的工作負載，但是圖靈的編碼器使 4K 流成為可能。

圖 11 . 新的視頻特性和視頻質(zhì)量比較圖靈和帕斯卡與一個快速的 x264 軟件編碼器

USB-C 和 VIRTUALLINK

在今天的 PC 機上支持 VR 耳機需要在耳機和系統(tǒng)之間連接多條電纜；一條顯示電纜將圖像數(shù)據(jù)從 GPU 發(fā)送到耳機中的兩個顯示器，一條電纜用于為耳機供電，以及一個 USB 連接，用于傳輸攝像機流并從耳機讀取后頭姿勢信息（以更新由 GPU 渲染的幀）。電纜的數(shù)量可能會讓最終用戶感到不舒服，并限制了他們在使用耳機時四處走動的能力。耳機制造商需要適應(yīng)電纜，使其設(shè)計復(fù)雜化，并使其體積更大。

為了解決這個問題， Turing GPUs 設(shè)計了支持 USB Type-C 的硬件? 和VirtualLink ?. VirtualLink 是一種新的開放式行業(yè)標準，包括領(lǐng)先的硅、軟件和耳機制造商，由 NVIDIA 、 Oculus 、Valve 、 Microsoft 和 AMD 領(lǐng)銜。

VirtualLink 是為了滿足當前和下一代 VR 耳機的連接需求而開發(fā)的。 VirtualLink 采用了一種新的 USB-C 替代模式，旨在通過一個 USB-C 接口提供為 VR 耳機供電所需的電源、顯示器和數(shù)據(jù)。

VirtualLink 同時支持四個通道的高比特率 3 （ HBR3 ）顯示端口，以及連接到耳機的超高速 USB 3 鏈路，用于運動跟蹤。相比之下， USB-C 只支持四個通道的 HBR3 顯示端口或者兩個通道的 HBR3 顯示端口+兩個通道的超高速 USB 3 。

除了減輕目前 VR 耳機的安裝麻煩之外， VirtualLink 還將把 VR 應(yīng)用到更多的設(shè)備中。單連接器解決方案將虛擬現(xiàn)實技術(shù)帶到可以容納單個、小尺寸 USB-C 連接器（如輕薄筆記本）的小型設(shè)備上，而不是現(xiàn)在的虛擬現(xiàn)實基礎(chǔ)設(shè)施，后者需要一臺能夠容納多個連接器的 PC 機。

NVLINK 改善了 SLI

在 Pascal GPU 架構(gòu)之前，
NVIDIA GPUs 使用單個多輸入/輸出（ MIO ）接口作為 SLI 橋接技術(shù)，允許第二個（或第三個或第四個） GPU 將其最終渲染幀輸出傳輸?shù)轿锢磉B接到顯示器的主 GPU 。帕斯卡通過使用更快的雙 MIO 接口增強了 SLI 橋，提高了 GPUs 之間的帶寬，允許更高分辨率的輸出，以及 NVIDIA 環(huán)繞的多個高分辨率監(jiān)視器。

圖靈 TU102 和 TU104 GPUs 使用 NVLink 代替 MIO 和 PCIe 接口進行 SLI GPU – GPU 數(shù)據(jù)傳輸。圖靈 TU102 GPU 包括兩個 x8 第二代 NVLink 鏈路， Turing TU104 包括一個 x8 第二代 NVLink 鏈路。每條鏈路在兩個 GPUs 之間的每個方向提供 25 GB / s 的峰值帶寬（ 50 GB / s 雙向帶寬）。雙向鏈路為 100 GB /秒，或每秒鐘提供兩個 GB /秒的雙向鏈路。具有 NVLink 的圖靈 GPUs 支持雙向 SLI ，但不支持3 路和 4 路 SLI 配置。

與以前的 SLI 網(wǎng)橋相比，新的NVLink 網(wǎng)橋的帶寬增加了以前不可能實現(xiàn)的高級顯示拓撲（參見圖 12 ）。

圖 12 . NVLink 支持新的 SLI 顯示拓撲

啟動和 8POST 驅(qū)動支持將啟用。

圖靈射線追蹤技術(shù)

光線跟蹤是一種計算密集的渲染技術(shù)，可以真實地模擬場景及其對象的照明。基于圖靈 GPU 的光線跟蹤技術(shù)可以實時渲染物理上正確的反射、折射、陰影和間接照明。有關(guān)光線跟蹤如何工作的詳細信息可以在完整的圖靈白皮書中找到。

在過去， GPU 體系結(jié)構(gòu)無法使用單個GPU 為游戲或圖形應(yīng)用程序執(zhí)行實時光線跟蹤。盡管 NVIDIA 的 GPU 加速 NVIDIA Iray ?插件和 OptiX 光線跟蹤引擎多年來一直為設(shè)計師、藝術(shù)家和技術(shù)總監(jiān)提供逼真的光線跟蹤渲染，但高質(zhì)量的光線跟蹤效果無法實時執(zhí)行。類似地，當前的 NVIDIA Volta GPUs 可以渲染逼真的電影級光線跟蹤場景，但不能在單個
GPU 上實時渲染。由于其處理密集的性質(zhì)，光線跟蹤在游戲中尚未用于任何重要的渲染任務(wù)。相反，需要 30 到 90 幀/秒動畫的游戲多年來一直依賴快速 GPU 加速光柵化渲染技術(shù)，而犧牲了完全逼真的場景。

在 GPUs 上實現(xiàn)實時光線跟蹤是一個巨大的技術(shù)挑戰(zhàn)，需要 NVIDIA 的研究、 GPU 的硬件設(shè)計和軟件工程團隊進行近 10 年的合作。通過在圖靈 TU102 、 TU104 和 TU106 GPUs 中加入稱為 RT Cores 的多個新的基于硬件的光線跟蹤加速引擎，結(jié)合 NVIDIA RTX 軟件技術(shù) . ，使得游戲和其他應(yīng)用中的實時光線跟蹤成為可能

在圖靈 TU102 GPU 上實時運行的采用 RTX NVIDIA 技術(shù)的 NVIDIA SOL ray Tracking demo
的 SOL MAN 如圖 13 （參見演示）。

如前所述，光柵化技術(shù)多年來一直是實時渲染的規(guī)范，尤其是在計算機游戲中，雖然許多光柵化場景看起來非常好，但基于光柵化的渲染有很大的局限性。例如，僅使用光柵化渲染反射和陰影需要簡化可能導(dǎo)致許多不同類型瑕疵的假設(shè)。類似地，靜態(tài)光照貼圖可能看起來是正確的，直到有東西移動，光柵化陰影通常會出現(xiàn)鋸齒和光泄漏，屏幕空間反射只能反射屏幕上可見的對象。這些人工制品有損于游戲體驗的真實感，對于開發(fā)者和藝術(shù)家來說，試圖用額外的效果來修復(fù)是非常昂貴的。

圖 13. 來自 NVIDIA 的 SOL MAN 太陽射線追蹤演示

雖然光線跟蹤可以產(chǎn)生比柵格化更真實的圖像，但它也需要大量的計算。我們發(fā)現(xiàn)最好的方法是混合渲染，光線跟蹤和光柵化的結(jié)合。使用這種方法，光柵化用于最有效的地方，而光線跟蹤用于與光柵化相比提供最大視覺好處的地方，例如渲染反射、折射和陰影。
圖 14 顯示混合渲染管道。

混合渲染結(jié)合了渲染管道中的光線跟蹤和光柵化技術(shù)，以充分利用每種技術(shù)在渲染場景時的最佳效果。 SEED 為他們的 PICA-PICA 實時光線跟蹤實驗使用了一個混合的渲染模型，該實驗在程序化組裝的世界中具有自學習代理。 PICA-PICA 使用 SEED 的研發(fā)引擎 Halcyon 構(gòu)建，使用 microsoftdxr 和 NVIDIA GPUs 實現(xiàn)實時光線跟蹤。

圖 14 .混合渲染管道。圖片由 EA 的SEED 部門提供（ SEED // Pica Pica Hardware Raytracing and
Turing ）

光柵化和 z 緩沖在確定對象可見性方面要快得多，并且可以替代光線跟蹤過程中的主要光線投射階段。然后，可以使用光線跟蹤來拍攝次光線，以生成高質(zhì)量的物理校正反射、折射和陰影。

開發(fā)人員還可以使用材質(zhì)屬性閾值來確定要在場景中執(zhí)行光線跟蹤的區(qū)域。一種技術(shù)是規(guī)定只有具有一定反射率水平（比如 70% ）的表面才會觸發(fā)是否應(yīng)在該表面上使用光線跟蹤來生成二次光線。

我們期望許多開發(fā)人員使用混合光柵化/光線跟蹤技術(shù)來獲得高幀速率和出色的圖像質(zhì)量。或者，對于圖像保真度是最高優(yōu)先級的專業(yè)應(yīng)用程序，我們希望看到在整個渲染工作負載中使用光線跟蹤，投射主光線和次光線以創(chuàng)建令人驚嘆的逼真渲染。

圖靈 GPUs 不僅包括專用的光線跟蹤加速硬件，還使用了下一節(jié)描述的高級加速結(jié)構(gòu)。本質(zhì)上，一個全新的渲染管道可以使用單個圖靈 GPU 在游戲和其他圖形應(yīng)用程序中實現(xiàn)實時光線跟蹤（參見圖 15 ）。

圖 15 .射線追蹤和光柵化管道階段的詳細信息

在圖靈 GPUs 中使用的混合繪制模型中，光線跟蹤和光柵化流水線同時工作并協(xié)同工作。

雖然圖靈 GPUs 支持實時光線跟蹤，但每個像素或曲面位置投射的主光線或次光線數(shù)量會根據(jù)許多因素而變化，包括場景復(fù)雜性、分辨率、場景中渲染的其他圖形效果，當然還有 GPU 馬力。不要期望每像素實時投射數(shù)百條光線。事實上，當使用圖靈 -RT 核心加速與先進的去噪濾波技術(shù)相結(jié)合時，每像素所需的光線要少得多。

NVIDIA 實時光線跟蹤去噪模塊可以顯著減少每個像素所需的光線數(shù)，并且仍然可以產(chǎn)生出色的效果。

對選定對象的實時光線跟蹤可以使游戲和應(yīng)用程序中的許多場景看起來與高端電影特效一樣逼真，或與使用基于專業(yè)軟件的非實時渲染應(yīng)用程序創(chuàng)建的光線跟蹤圖像一樣逼真。
圖 16 顯示了 Epic Games 與 ILMxLAB 和 NVIDIA 合作創(chuàng)建的反射演示示例。

光線跟蹤反射、光線跟蹤區(qū)域光陰影和光線跟蹤環(huán)境光遮擋可以在單個四邊形 RTX 6000
或 GeForce RTX 2080 Ti GPU 上運行，提供幾乎無法與電影區(qū)分的渲染質(zhì)量，如這個不真實的引擎演示所示。

圖 16. 虛幻引擎反射光線跟蹤演示

圖靈光線跟蹤硬件與 NVIDIA 的RTX 光線跟蹤技術(shù)、 NVIDIA 實時光線跟蹤庫、NVIDIA OptiX 、 Microsoft DXR API 和即將推出的 Vulkan 光線跟蹤 API 一起工作。用戶將在游戲中以可播放的幀速率體驗實時、電影級的光線跟蹤對象和角色，或者在專業(yè)圖形應(yīng)用程序中體驗到視覺真實感，而這在以前的 GPU 架構(gòu)中是不可能實現(xiàn)的。

圖靈 GPUs 可以加速光線跟蹤技術(shù)，用于以下許多渲染和非渲染操作：

反射和折射

陰影和環(huán)境光遮擋

全局照明

即時離線光照圖烘焙

美女照片和高質(zhì)量預(yù)覽

用于中心凹虛擬現(xiàn)實繪制的主光線

遮擋剔除

物理學，碰撞檢測，粒子模擬

音頻模擬（例如， NVIDIA VRWorks 音頻構(gòu)建在 OptiX API 之上）

AI 可見性查詢

引擎內(nèi)路徑跟蹤（非實時）生成參考屏幕截圖，用于調(diào)整實時渲染技術(shù)和去噪器、材質(zhì)合成和場景照明。

在下面的章節(jié)中，將詳細介紹使用圖靈光線跟蹤加速渲染光線跟蹤陰影、環(huán)境光遮擋和反射。 NVIDIA 開發(fā)者網(wǎng)站有更詳細的描述可以用圖靈光線跟蹤加速的渲染操作。

圖靈 RT 核

圖靈基于硬件的光線跟蹤加速的核心是每個 SM 中包含的新 RT 核心。 RT 核心加速邊界層（BVH ）遍歷和光線/三角形相交測試（光線投射）功能。 RT 核心代表在 SM 中運行的線程執(zhí)行可見性測試。

RT 核與先進的去噪濾波、由NVIDIA 研究所開發(fā)的高效 BVH 加速結(jié)構(gòu)以及與 RTX兼容的 api 一起工作，以在單個圖靈 GPU 上實現(xiàn)實時光線跟蹤。 RT 核心自動遍歷 BVH ，通過加速遍歷和光線/三角形相交測試，他們卸載了 SM ，允許它處理其他頂點、像素和計算著色工作。諸如 BVH 構(gòu)建和重新安裝等功能由驅(qū)動程序處理，光線生成和著色由應(yīng)用程序通過新型著色器進行管理。

為了更好地理解 RT 核心的功能，以及它們究竟加速了什么，我們首先應(yīng)該解釋在沒有專用硬件光線跟蹤引擎的情況下如何在 GPUs 或 CPU 上執(zhí)行光線跟蹤。本質(zhì)上， BVH 遍歷的過程需要通過著色操作來執(zhí)行，并且每光線投射需要數(shù)千個指令槽來測試 BVH中的包圍盒相交，直到最后碰到一個三角形，并且相交點的顏色對最終像素顏色有貢獻（或者如果沒有碰到三角形，則背景顏色可用于著色像素）。

沒有硬件加速的光線跟蹤需要每個光線數(shù)千個軟件指令槽來連續(xù)測試 BVH 結(jié)構(gòu)中較小的邊界框，直到可能碰到三角形為止。這是一個計算密集的過程，如果沒有基于硬件的光線跟蹤加速，就不可能在 GPUs 上進行實時操作（請參見圖 17 ）。

圖 17 .光線追蹤預(yù)圖靈

圖靈中的 RT 核可以處理所有的BVH 遍歷和射線三角形相交測試，從而節(jié)省了 SM 在每條光線上花費數(shù)千個指令槽的開銷，這可能是整個場景的大量指令。 RT 核心包括兩個專門單元。第一個單元執(zhí)行邊界框測試，第二個單元執(zhí)行光線三角形相交測試。 SM 只需啟動一個光線探測器， RT 核心進行 BVH 遍歷和光線三角形測試，并返回一個命中或未命中 SM 。 SM 在很大程度上被騰出去做其他的圖形或計算工作。參見圖 18 或使用 RT 核心的圖靈射線追蹤圖。

圖 18 . RT 核圖靈射線追蹤

在 Pascal GPUs 中， RT
核的圖靈射線跟蹤性能明顯快于光線跟蹤。在不同的工作負載下，圖靈可以比 Pascal 提供更多的千兆射線/秒，如圖 19 。所示，Pascal 在軟件中花費大約 1 . 1 千兆射線/秒，或 10 TFLOPS / gigaray 來進行光線跟蹤，而圖靈可以使用 RT 核來實現(xiàn) 10 + Giga 射線/秒，并且運行光線跟蹤的速度是 Pascal 的 10 倍。

圖 19 .圖靈射線跟蹤性能

深度學習超級抽樣（ DLSS ）

在現(xiàn)代游戲中，渲染幀不是直接顯示的，而是經(jīng)過一個后處理圖像增強步驟，該步驟將來自多個渲染幀的輸入合并在一起，試圖在保留細節(jié)的同時去除諸如鋸齒之類的視覺偽影。例如，時間反走樣（ TAA ）是一種基于著色器的算法，它使用運動矢量將兩個幀組合在一起，以確定在何處對前一幀進行采樣，這是當今最常用的圖像增強算法之一。然而，這種圖像增強過程從根本上說是很難實現(xiàn)的。

NVIDIA 的研究人員認識到，這類問題——一個沒有清晰算法解決方案的圖像分析和優(yōu)化問題——將是人工智能的完美應(yīng)用。正如本文前面所討論的，圖像處理案例（例如 ImageNet ）是深度學習最成功的應(yīng)用之一。深度學習現(xiàn)在已經(jīng)取得了超人的能力，可以通過觀察圖像中的原始像素來識別狗、貓、鳥等。在這種情況下，目標將是結(jié)合渲染圖像，基于觀察原始像素，以產(chǎn)生高質(zhì)量的結(jié)果 – 一個不同的目標，但使用相似的能力。

為解決這一難題而開發(fā)的深度神經(jīng)網(wǎng)絡(luò)（ DNN ）被稱為深度學習超級采樣（ DLSS ）。 DLSS 從一組給定的輸入樣本中產(chǎn)生比 TAA 更高質(zhì)量的輸出，我們利用這種能力來提高整體性能。

雖然 TAA 在最終目標分辨率下渲染，然后合并幀，減去細節(jié)， DLSS 允許以較低的輸入采樣數(shù)進行更快的渲染，然后推斷出在目標分辨率下質(zhì)量與 TAA
結(jié)果相似的結(jié)果，但著色工作只有一半。

下面的圖 20 ，顯示了 UE4 滲透器演示的結(jié)果示例。 DLSS 提供了與 TAA 類似的圖像質(zhì)量，并大大提高了性能。 RTX 2080 Ti 更快的原始渲染馬力，加上 DLSS 和張量核心的性能提升，使 RTX 2080 Ti 的性能達到 GTX 1080 Ti 的兩倍。

圖 20 .使用 4K dls 的圖靈性能是使用 4ktaa 的 Pascal 的兩倍

這一結(jié)果的關(guān)鍵是 DLSS 的培訓過程，在培訓過程中， DLSS 有機會學習如何根據(jù)大量超高質(zhì)量的示例生成所需的輸出。為了訓練網(wǎng)絡(luò)，我們收集了數(shù)以千計的“真實”參考圖像，這些參考圖像采用了完美圖像質(zhì)量的黃金標準方法 64x 超采樣（ 64xSS ）。
64x 超采樣意味著我們不必對每個像素進行一次著色處理，而是在像素內(nèi)以 64 個不同的偏移量進行著色處理，然后結(jié)合輸出，生成具有理想細節(jié)和抗鋸齒質(zhì)量的結(jié)果圖像。我們還捕捉匹配的原始輸入圖像正常渲染。接下來，我們開始訓練 DLSS 網(wǎng)絡(luò)以匹配 64xSS 輸出幀，方法是遍歷每個輸入，要求 DLSS 生成一個輸出，測量其輸出與 64xSS 目標之間的差異，并根據(jù)差異通過稱為反向傳播的過程調(diào)整網(wǎng)絡(luò)中的權(quán)重。

經(jīng)過多次迭代后， DLSS 會自行學習生成接近 64xs 質(zhì)量的結(jié)果，同時也會學習避免影響 TAA 等經(jīng)典方法的模糊、混淆和透明性問題。

除了上述 DLSS 功能（標準DLSS 模式）之外，我們還提供了第二種模式，稱為 DLSS 2X 。在這種情況下， DLSS 輸入將以最終目標分辨率呈現(xiàn)，然后由更大的 DLSS 網(wǎng)絡(luò)組合，生成接近 64x 超級采樣渲染級別的輸出圖像–這一結(jié)果將用任何傳統(tǒng)方法都不可能實時實現(xiàn)。圖 21 顯示了 DLSS 2X 模式的運行，提供的圖像質(zhì)量非常接近參考 64x 超級采樣圖像。

圖21 . DLSS 2X 與 64xSS 圖像幾乎無法區(qū)分

最后，圖 22 說明了多幀圖像增強的一個具有挑戰(zhàn)性的案例。在這種情況下，一個半透明的屏幕漂浮在移動不同的背景前面。 TAA 傾向于盲目跟蹤運動對象的運動矢量，模糊了屏幕上的細節(jié)。 DLSS 能夠識別出場景中的變化更為復(fù)雜，并以更智能的方式組合輸入，從而避免模糊問題。

圖 22 . dlss2x 比 TAA 具有更好的時間穩(wěn)定性和圖像清晰度

總結(jié)

圖形剛剛被革新。新的 NVIDIA Turing GPU 架構(gòu)是有史以來最先進、最高效的 GPU 架構(gòu)。圖靈實現(xiàn)了一種新的混合渲染模型，它結(jié)合了實時光線跟蹤、柵格化、人工智能和模擬。圖靈與下一代圖形 API 相結(jié)合，為 PC 游戲和專業(yè)應(yīng)用程序帶來了巨大的性能提升和難以置信的逼真圖形。

未來的博客文章將包括更多關(guān)于圖靈高級著色器技術(shù)的細節(jié)。如果您想深入研究圖靈架構(gòu)，請下載完整的 NVIDIA 圖靈體系結(jié)構(gòu)白皮書。您也可以在
RTX 開發(fā)者頁面上找到有關(guān) RTX 技術(shù)的更多信息，或者閱讀如何 RTX 和 directx12 射線跟蹤工作 here。

總結(jié)

以上是生活随笔為你收集整理的NVIDIA Turing Architecture架构设计（下）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： NVIDIA Turing Archit
下一篇： Relay张量集成

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

生活经验

NVIDIA Turing Architecture架构设计（下）

總結(jié)