linux中bond网卡是什么意思,linux 网卡bond
SCC(超級計(jì)算集群)簡介 SCC概述 超級計(jì)算集群(Super Computing Cluster,SCC)使用高速RDMA網(wǎng)絡(luò)互聯(lián)的CPU以及GPU等異構(gòu)加速設(shè)備,面向高性能計(jì)算、人工智能/機(jī)器學(xué)習(xí)、科學(xué)/工程計(jì)算、數(shù)據(jù)分析、音視頻處理等應(yīng)用,提供極致計(jì)算性能和并行效率的計(jì)算集群服務(wù)。
SCC實(shí)例類型 類型 CPU Memory 網(wǎng)絡(luò) 存儲 適用場景 ecs.scch5.16xlarge 64核 Skylake Xeon Gold 6149 3.1GHz 192GB 50 Gbps RDMA 高效云盤(容量可選) + SSD云盤(容量可選) CPU主頻高,單核計(jì)算能力強(qiáng),適用于多數(shù)計(jì)算密集型應(yīng)用場景 ecs.sccg5.24xlarge 96核 Skylake Xeon Platinum 8163 2.5GHz 384GB 50 Gbps RDMA 高效云盤(容量可選) + SSD云盤(容量可選) CPU核數(shù)多,內(nèi)存容量大,適用于內(nèi)存需求較高、擴(kuò)展性好的科學(xué)計(jì)算場景以及高并發(fā)的批處理場景 使用SCC實(shí)例創(chuàng)建E-HPC集群 創(chuàng)建過程 目前配備有SCC實(shí)例的可用區(qū)主要有:華東1可用區(qū)H、華東2可用區(qū)B、華北1可用區(qū)C、華北3可用區(qū)A。考慮到庫存的變化,用戶在創(chuàng)建集群之前可以通過ECS管理控制臺查看SCC實(shí)例在不同可用區(qū)的分布情況。 從E-HPC管理控制臺進(jìn)入集群創(chuàng)建頁面,在計(jì)算節(jié)點(diǎn)下劃欄中勾選SCC實(shí)例。 勾選SCC注意:上圖中SCC實(shí)例的CPU核數(shù)是按照vCPU數(shù)目來顯示的,而實(shí)際交付的SCC實(shí)例為超線程關(guān)閉(HT off)狀態(tài),即scch5.16xlarge和sccg5.24xlarge的CPU核數(shù)分別為32物理核和48物理核。
后續(xù)創(chuàng)建過程請參考E-HPC集群創(chuàng)建與配置 硬件信息 相比于普通ECS實(shí)例,SCC實(shí)例的核心硬件升級之一在于配備了50Gbps的RoCE(RDMA over Converged Ethernet)網(wǎng)絡(luò),故網(wǎng)絡(luò)信息與普通ECS實(shí)例相比有明顯差異。
網(wǎng)絡(luò)硬件信息 相比于普通ECS實(shí)例,SCC實(shí)例同時(shí)擁有10Gbps VPC網(wǎng)絡(luò)和50Gbps RoCE網(wǎng)絡(luò)的網(wǎng)口,因此在會ECS管理控制臺上會同時(shí)顯示兩個(gè)IP地址。 SCC IP
正常的SCC實(shí)例會顯示如下網(wǎng)口信息,其中bond0為RoCE網(wǎng)口,eth0為VPC網(wǎng)口。 SCC網(wǎng)口信息
網(wǎng)絡(luò)連通性驗(yàn)證 同一個(gè)E-HPC集群下的SCC實(shí)例間的VPC網(wǎng)絡(luò)IP和RoCE網(wǎng)絡(luò)IP均可以相互ping通 同一個(gè)E-HPC集群下的SCC實(shí)例間可以通過VPC網(wǎng)絡(luò)IP和RoCE網(wǎng)絡(luò)IP進(jìn)行ssh登陸 RoCE網(wǎng)絡(luò)性能測試 測試RoCE網(wǎng)絡(luò)的峰值帶寬與延遲 帶寬測試樣例 ##讀帶寬測試 ib_read_bw -a -q 20 --report_gbits ##服務(wù)端compute0執(zhí)行 ib_read_bw -a -q 20 --report_gbits compute0 ##用戶端compute1執(zhí)行 ##寫帶寬測試 ib_write_bw -a -q 20 --report_gbits ##服務(wù)端compute0執(zhí)行 ib_write_bw -a -q 20 --report_gbits compute0 ##用戶端compute1執(zhí)行 延遲測試樣例 ##讀延遲測試 ib_read_lat -a ##服務(wù)端compute0執(zhí)行 ib_read_lat -F -a compute0 ##用戶端compute1執(zhí)行 ##寫延遲測試 ib_write_lat -a ##服務(wù)端compute0執(zhí)行 ib_write_lat -F -a compute0 ##用戶端compute1執(zhí)行 監(jiān)測RoCE網(wǎng)絡(luò)的實(shí)際帶寬利用情況 在SCC實(shí)例root用戶下執(zhí)行rdma_monitor -s實(shí)時(shí)獲取RoCE網(wǎng)絡(luò)信息 rdma_monitor
使用E-HPC性能監(jiān)控與分析引擎集諦來監(jiān)測各SCC實(shí)例RoCE網(wǎng)絡(luò)帶寬隨時(shí)間的變化情況。 集諦監(jiān)測RoCE
在SCC集群上編譯和運(yùn)行MPI程序 由于SCC實(shí)例同時(shí)支持50Gbps RoCE網(wǎng)絡(luò)和10Gbps VPC網(wǎng)絡(luò),用戶在執(zhí)行跨節(jié)點(diǎn)MPI程序時(shí)可能會遇到節(jié)點(diǎn)間數(shù)據(jù)流量默認(rèn)走VPC網(wǎng)口的情況,這里我們推薦用戶在SCC集群上使用IntelMPI來編譯和運(yùn)行跨節(jié)點(diǎn)MPI程序。
編譯跨節(jié)點(diǎn)MPI程序 安裝IntelMPI E-HPC集成了IntelMPI 2018版本,用戶只需在E-HPC控制臺集群創(chuàng)建或軟件管理功能界面中勾選IntelMPI 2018進(jìn)行安裝即可。
intelmpi
配置MPI環(huán)境變量 方法一:使用E-HPC集成的Module管理工具 $ module avail --------------------------------- /opt/ehpcmodulefiles -------------------------------- intel-mpi/2018 $ module load intel-mpi/2018 $ which mpicc /opt/intel/impi/2018.3.222/bin64/mpicc 方法二:執(zhí)行IntelMPI自帶的環(huán)境變量配置腳本 $ source /opt/intel/compilers_and_libraries/linux/bin/compilervars.sh intel64 $ which mpicc /opt/intel/impi/2018.3.222/bin64/mpicc 設(shè)置MPI編譯參數(shù) 完成MPI環(huán)境變量配置后,需要在軟件Makefile或預(yù)編譯腳本中指定MPI編譯器的相對/絕對路徑,然后執(zhí)行編譯過程。
-DCMAKE_C_COMPILER=mpicc -DCMAKE_CXX_COMPILER=mpicxx 運(yùn)行跨節(jié)點(diǎn)MPI程序 對于在E-HPC軟件環(huán)境中采用IntelMPI編譯的軟件,提交任務(wù)時(shí)無需額外指定網(wǎng)口參數(shù),便可以直接通過RoCE網(wǎng)絡(luò)進(jìn)行跨節(jié)點(diǎn)數(shù)據(jù)通信。 #!/bin/sh #PBS -j oe #PBS -l select=:ncpus=:mpiprocs= module load intel-mpi/2018 mpirun 對于在用戶本地環(huán)境編譯的軟件或預(yù)編譯的商用軟件,可以在提交MPI任務(wù)時(shí)指定RoCE網(wǎng)卡信息來避免可能出現(xiàn)的數(shù)據(jù)流量不走RoCE網(wǎng)絡(luò)或網(wǎng)卡設(shè)備not found等問題。 #!/bin/sh #PBS -j oe #PBS -l select=:ncpus=:mpiprocs= export I_MPI_FABRICS=shm:dapl module load intel-mpi/2018 mpirun -genv I_MPI_DAPL_PROVIDER ofa-v2-mlx5_bond_0 用戶可以使用集諦性能監(jiān)測功能對SCC實(shí)例的CPU利用率、訪存帶寬、RoCE網(wǎng)絡(luò)帶寬等性能數(shù)據(jù)進(jìn)行實(shí)時(shí)監(jiān)測。 SCC性能
總結(jié)
以上是生活随笔為你收集整理的linux中bond网卡是什么意思,linux 网卡bond的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 网工浓缩笔记以及考点(第四章 无线通信网
- 下一篇: 【卡尔曼滤波】我所理解的卡尔曼滤波