HPC System Design
設計一個3000W功率以內的集群,對構建的集群機型優缺點分析,集群要基于Inspur NF5280M5 server
| Item | Name | Configuration | Power Estimation |
| Server | Inspur NF5280M5 | CPU : Intel Xeon Platinum 8176M × 2 (2.1GHz ~3.8GHz, 28 Cores) TDP : 165 W × 2 GPU : NVIDIA TESLA V100 × 4 TDP : 250 W × 4 Memory: 64GB , DDR4 , 2400MHz × 12 TDP : 6 W × 12 Hard Disk: Intel SSD Pro 7600p × 24(512GB, M.2, PCIe 3.0x4) TDP : 50 mW × 24 | One Node : 1403.2W (2 Node in System) |
| HCA Card | FDR | InfiniBand Mellanox ConnectX-3 HCA card, Single port, QSFP, FDR IB | One Node : 9 W (2 Node in System) |
| Switch | FDR-IB Switch | SwitchXTM FDR InfiniBand switch, 36 QSFP port | 130 W |
| Cable | InfiniBand cable | InfiniBand FDR optical fiber cable, QSFP port, cooperating with the InfiniBand switch for use | NaN |
一個單節點中盡可能多地容納更多計算資源,提高整個HPC平臺的性能/功率比。同時,由于網絡傳輸導致的巨大I / O開銷可以最小化,以在3000瓦功率限制下實現最大化性能。此外,基于CUDA的GPGPU具有比具有相同功耗的CPU更大的并行計算能力。基于此,我們的設計標準是盡可能充分利用單個節點的資源。在整個系統中,使用了兩臺NF5280M5服務器,基于表所示的配置。整個平臺的理論功耗為2954.4 KW。在僅計算基于mU的GPGPU計算性能時,理論上的單精度浮點性能可達到56 Tflops。在每個節點中,我們充分利用Intel Xeon Platinum 8176M處理器支持的最大內存容量,并使用單個64GB DDR4-ECC內存盡可能增加內存容量,以便使用高速訪問性能內存減少系統I / O瓶頸。我們使用4個通道。在功耗相同的前提下,NVIDIA TESLA V100 GPU在深度學習等場景中提升了系統性能。與此同時,我們使用24個基于NVME的SSD組成RAID陣列,以提供超過10 GB / s的磁盤I / O.吞吐量。
在系統中兩個節點的連接部分中,我們通過16根InfiniBand線鏈接,以在兩個計算節點之間實現高達8GB/s的數據交換速度。同時,通過普通以太網連接訪問主節點進行環境配置。
總體配置圖
?
GPU的浮點計算理論峰值能力測試跟CPU的計算方式基本一樣,
理論峰值 = GPU芯片數量*GPU Boost主頻*核心數量*單個時鐘周期內能處理的浮點計算次數,
只不過在GPU里單精度和雙精度的浮點計算能力需要分開計算,以最新的Tesla P100為例:
雙精度理論峰值 = FP64 Cores * GPU Boost Clock * 2 = 1792 *1.48GHz*2 = 5.3 TFlops
單精度理論峰值 = FP32 cores * GPU Boost Clock * 2 = 3584 * 1.58GHz * 2 = ?10.6 TFlops
https://blog.csdn.net/haima1998/article/details/78250143/
總結
以上是生活随笔為你收集整理的HPC System Design的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: POJ1787多重背包中在最优方案下输出
- 下一篇: C语言内核深度理解