tensorrt轻松部署高性能dnn推理_NVIDIA TensorRT高性能深度学习推理
NVIDIA TensorRT高性能深度學(xué)習(xí)推理
NVIDIA TensorRT? 是用于高性能深度學(xué)習(xí)推理的 SDK。此 SDK 包含深度學(xué)習(xí)推理優(yōu)化器和運行時環(huán)境,可為深度學(xué)習(xí)推理應(yīng)用提供低延遲和高吞吐量。
在推理過程中,基于 TensorRT 的應(yīng)用程序的執(zhí)行速度可比 CPU 平臺的速度快 40 倍。借助 TensorRT,您可以優(yōu)化在所有主要框架中訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型,精確校正低精度,并最終將模型部署到超大規(guī)模數(shù)據(jù)中心、嵌入式或汽車產(chǎn)品平臺中。
TensorRT 以 NVIDIA 的并行編程模型 CUDA 為基礎(chǔ)構(gòu)建而成,可幫助您利用 CUDA-X 中的庫、開發(fā)工具和技術(shù),針對人工智能、自主機器、高性能計算和圖形優(yōu)化所有深度學(xué)習(xí)框架中的推理。
TensorRT 針對多種深度學(xué)習(xí)推理應(yīng)用的生產(chǎn)部署提供 INT8 和 FP16 優(yōu)化,例如視頻流式傳輸、語音識別、推薦和自然語言處理。推理精度降低后可顯著減少應(yīng)用延遲,這恰巧滿足了許多實時服務(wù)、自動和嵌入式應(yīng)用的要求。
可以從每個深度學(xué)習(xí)框架中將已訓(xùn)練模型導(dǎo)入到 TensorRT。應(yīng)用優(yōu)化后,TensorRT 選擇平臺特定的內(nèi)核,在數(shù)據(jù)中心、Jetson 嵌入式平臺以及 NVIDIA DRIVE 自動駕駛平臺上更大限度提升 Tesla GPU 的性能。
借助 TensorRT,開發(fā)者可專注于創(chuàng)建新穎的 AI 支持應(yīng)用,無需費力調(diào)節(jié)性能來部署推理工作。
TensorRT 優(yōu)化與性能
與所有主要框架集成
NVIDIA 與深度學(xué)習(xí)框架開發(fā)者緊密合作,使用 TensorRT 在 AI 平臺上實現(xiàn)優(yōu)化的推理性能。如果您的訓(xùn)練模型采用 ONNX 格式或其他熱門框架(例如 TensorFlow 和 MATLAB),您可以通過一些簡單的方法將模型導(dǎo)入到 TensorRT 以進行推理。下面介紹了一些集成,其中包含了新手入門信息。
TensorRT 和 TensorFlow 已緊密集成,因此您可以同時盡享 TensorFlow 的靈活性和 TensorRT 的超強優(yōu)化性能。
MATLAB 已通過 GPU 編碼器實現(xiàn)與 TensorRT 的集成,這能協(xié)助工程師和科學(xué)家在使用 MATLAB 時為 Jetson、DRIVE 和 Tesla 平臺自動生成高性能推理引擎。
TensorRT 提供了一個 ONNX 解析器,因此您可以輕松地從框架(例如 Caffe 2、Chainer、Microsoft Cognitive Toolkit、MxNet 和 PyTorch)中將 ONNX 模型導(dǎo)入到 TensorRT。
TensorRT 還與 ONNX Runtime 集成,助您以 ONNX 格式輕松實現(xiàn)機器學(xué)習(xí)模型的高性能推理。
如果您在專有或自定義框架中執(zhí)行深度學(xué)習(xí)訓(xùn)練,請使用 TensorRT C++ API 來導(dǎo)入和加速模型。
“通過在 V100 上使用 Tensor 核心、新近優(yōu)化的 CUDA 庫以及 TF-TRT 后端,我們能將原本就很快的深度學(xué)習(xí) (DL) 網(wǎng)絡(luò)速度再提升 4 倍”
公布 TensorRT 7.1:新功能
TensorRT 7.1 針對 NVIDIA A100 GPU 進行了優(yōu)化并加入了新優(yōu)化,現(xiàn)可使用 INT8 精度加速 BERT 推理,實現(xiàn)高達 V100 GPU 六倍的性能。NVIDIA 開發(fā)者計劃成員可于 2020 年夏季下載 TensorRT 7.1。
TensorRT 7.0(當(dāng)前版本)包含:
- 新編譯器,可對語音和異常檢測中的常用時間遞歸神經(jīng)網(wǎng)絡(luò)進行加速
- 對 20 多種新 ONNX 操作的支持,這些操作可對 BERT、TacoTron 2 和 WaveRNN 等關(guān)鍵的語音模型進行加速
- 對動態(tài)形狀的擴展支持,可實現(xiàn)關(guān)鍵的會話式 AI 模型
- 新版插件、解析器
- BERT、Mask-RCNN、Faster-RCNN、NCF 和 OpenNMT 的新示例
其他資源
概覽
- NGC 中的 TensorRT 容器、模型和腳本
- 運行 TensorRT 的“Hello World”(示例代碼)
- 將 ONNX 用作輸入,運行 TensorRT 的“Hello World”(示例代碼)
- 使用自定義校準以 INT8 精度執(zhí)行推理(示例代碼)
- TensorRT 簡介(網(wǎng)絡(luò)研討會)
- 使用 TensorRT 執(zhí)行 8 位推理(網(wǎng)絡(luò)研討會)
會話式 AI
- 使用 TensorRT 通過 BERT 實現(xiàn)實時自然語言理解(博客)
- 使用 TensorRT 進行自動語音識別 (Notebook)
- 使用 TensorRT 對實時文字轉(zhuǎn)語音進行加速(博客)
- 使用 BERT 實現(xiàn) NLU (Notebook) (Notebook)
- 實時文字轉(zhuǎn)語音(示例)
- 基于序列到序列 (seq2seq) 模型的神經(jīng)網(wǎng)絡(luò)機器翻譯 (NMT)(示例代碼)
- 逐層構(gòu)建 RNN 網(wǎng)絡(luò)(示例代碼)
開始實操訓(xùn)練
NVIDIA 深度學(xué)習(xí)學(xué)院 (DLI) 為 AI 和加速計算領(lǐng)域的開發(fā)者、數(shù)據(jù)科學(xué)家和研究人員提供實操訓(xùn)練。立即參加關(guān)于使用 TensorRT 優(yōu)化和部署 TensorFlow 模型以及“使用 TensorRT 部署智能視頻分析”的自定進度選修課程,獲取 TensorRT 實操經(jīng)驗。
適用范圍
NVIDIA 開發(fā)者計劃會員可訪問 TensorRT 產(chǎn)品頁面,免費使用 TensorRT 進行用于開發(fā)和部署。最新版本的插件、解析器和示例也以開源形式提供,可從 TensorRT GitHub 資源庫獲取。
開發(fā)者還可以通過 NGC 容器注冊表中的 TensorRT 容器獲得 TensorRT。
TensorRT 已納入:
- 用于在計算機視覺和智能視頻分析 (IVA) 應(yīng)用中進行實時流分析的 NVIDIA Deepstream SDK
- 適用于 NVIDIA DRIVE PX2 自動駕駛平臺的 NVIDIA DriveInstall
- 適用于 Jetson TX1、TX2 嵌入式平臺的 NVIDIA Jetpack
總結(jié)
以上是生活随笔為你收集整理的tensorrt轻松部署高性能dnn推理_NVIDIA TensorRT高性能深度学习推理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: slow log php,善用php-f
- 下一篇: php改密后joomla无法登陆,php