英特尔® 至强® 平台集成 AI 加速构建数据中心智慧网络
英特爾? 至強? 平臺集成 AI 加速構建數據中心智慧網絡
SNA 通過 AI 方法來實時感知網絡狀態,基于網絡數據分析來實現自動化部署和風險預測,從而讓企業網絡能更智能、更高效地為最終用戶業務提供支撐。通過引入第二代英特爾? 至強? 可擴展處理器以及面向英特爾?
架構優化的 TensorFlow,SNA的 AI 訓練能力獲得了大幅提升,讓企業網絡在應對復雜業務場景時更加游刃有余。
概述
軟件定義網絡 (Software Defined Network,SDN)得益于以自動化方式對網絡資源實施靈活調配的能力,已成為企業級用戶部署和配置網絡服務的重要選擇。然而隨著企業級網絡應用規模的不斷擴展,特別是在大規模云數據中心這種復雜度高、調整頻繁的場景中,即便擁有自動化輔助手段,用戶的運維和成本壓力也很難得到真正緩解。
如何幫助企業級用戶應對這一挑戰,將網絡的管理和編排從自動化進一步推向智能化?致力于企業級網絡解決方案創新的新華三集團 (以下簡稱“H3C”) ,就依托深厚的網絡設備研發、制造與部署經驗,推出了更具智能化屬性的先知網絡架構(Seer Network Architecture,以下簡稱 SNA)。該架構可通過“感知-分析-決策”的模式,將豐富的網絡運維數據通過人工智能 (Artificial Intelligence,AI) 的訓練和推理,轉化為更優的網絡策略,來幫助最終用戶有效提升網絡智能分析和業務編排能力,同時降低運維成本。
作為 H3C 重要合作伙伴的英特爾公司,不僅提供了第二代英特爾? 至強? 可擴展處理器為 SNA 輸出強大的算力支持,更結合 SNA 在不同應用場景中的需求,為其 AI 訓練和推理過程提供多種優化方案。來自驗證性測試的結果表明:基于英特爾? 至強? 平臺集成的 AI 加速能力優化后的 SNA,可大幅提升 AI 訓練能力,并在最終用戶的實際部署中贏得了良好的反饋。
H3C SNA 實現的解決方案優勢:
? SNA 可通過“感知-分析-決策”模式,將豐富的網絡運維數據通過 AI 方法轉化為自動化網絡策略,目前已能提供 20 余種智能網絡算法和 100 多個網絡狀態洞察方法;
? 英特爾? 至強? 平臺集成的 AI 加速能力,包括第二代英特爾? 至強? 可擴展處理器提供的更強算力,以及與其搭配的、面向英特爾?架構優化的 TensorFlow,可助力SNA 大幅提升 AI 訓練能力,例如可使 DNS 隧道檢測模型的訓練性能提升至基準值的 3.2 倍1;
? 英特爾? 至強? 平臺集成的AI加速能力,也通過 H3C 與英特爾的合作,開始惠及其他 ICT 設備的智能化管理,例如可將服務器利用率模型的推理性能提升至基準值的10.98 倍2。
信息化時代的網絡服務猶如水、電、煤一般,是生產生活中不可或缺的基本元素。為了向行業用戶提供更為便捷、高效的網絡服務,網絡的建設、部署、管理和運維理念也須不斷推陳出新。近年來,以 SDN 為代表的下一代網絡技術,通過控制面與數據面分離的方式,讓網絡具備了更高的敏捷性、可擴展和可編程能力,大幅提升了網絡自動化水平,并能有效降低用戶在網絡部署和運維方面的壓力。
不過,隨著用戶業務與網絡服務的綁定更為緊密,在許多復雜、多變和多樣化的應用場景中,單一的自動化部署、運維能力已不能滿足業務的需求。以企業園區為例,網絡服務不僅要滿足日常辦公應用,還需為生產制造、移動辦公、視頻會議等不同應用、不同質量要求的場景提供支撐。在大規模的云數據中心內,網絡也需要像服務器和存儲設備一樣,隨時根據承載的業務、應用和數據的變化來切換自身的狀態和配置。因此,網絡亟需從自動化進一步向智能化演進,以更為靈活機動地支持業務運營。
雖然各類網絡設備已經可為智能運維提供豐沛的數據,但企業級智能網絡的落地依然困難重重。究其原因,首先是缺乏完善的“數據分析-決策反饋”機制,其次是沒有統一的 AI 平臺來將數據訓練轉化為決策模型。為應對這一挑戰,H3C 與英特爾開展深度技術合作,利用英特爾先進產品與技術,構建了 SNA 這一智慧網絡架構,以 AI 方法將網絡數據轉化為更優的網絡策略,實現了降本增效,且助力最終用戶獲得更強勁的網絡服務能力。
H3C 全新 SNA 解析
在由交換機、路由器、無線 AP 等各類基礎設備構成的網絡中,時時刻刻都奔流著事務日志、易損件狀態、異常告警等過程信息,這些紛繁復雜的時序性信息在傳統網絡維護中,基本都會變成“冷數據”被存儲起來。但在 H3C 看來,這些數據與網絡運維密切相關,正是把握網絡脈絡與構建智能網絡架構的基礎。
為了有效利用這些數據,H3C 將網絡數據的利用歸納為感知、分析和決策三個階段。在感知階段,通過高性能的毫秒級采集技術將脫敏的數據從邊緣端收集起來;在分析階段,系統在云端利用數據進行 AI 建模和訓練,不斷優化各類網絡模型;而在決策階段,系統可在邊緣或云端根據網絡的當前狀況,通過模型推理來生成新的策略并下發執行。
基于這一模式,SNA 如圖一所示,由先知網絡中心 (SNA Center)、先知分析器 (SeerAnalyzer) 以及網絡控制器 (Seer Engine) 三大模塊組成。其中,部署在數據中心的先知網絡中心作為網絡智能管理、控制和編排的核心,不僅可根據用戶的業務需求實現智能編排、業務協同和資源調度,更能匯總各個網絡設備的數據,在其內部 AI 平臺中進行建模、評估、訓練和調優,并形成一系列智能網絡模型供調用。
圖一 SNA 總體架構
如果把先知網絡中心比作新架構的“頭腦”,那么先知分析器和網絡控制器則是架構的“手和眼”。通過 Telemetry 等毫秒級采集技術,先知分析器可從網絡基礎架構中感知和采集各類數據,并經清洗、抽取、轉換等處理,上傳到先知網絡中心。
經過先知網絡中心訓練和調優的模型,在云端或先知分析器中進行 AI 推理后,可形成有效的自動化網絡部署和調優策略。而網絡控制器則會根據這些策略,以可編程的方式對網絡基礎架構實施管理,從而實現業務的自動化部署,以及網絡資源的最優路徑調度與網絡故障的預測告警和快速排除。
依托上述流程和機制,SNA 就能將來自網絡的海量數據以智能分析方法轉化為各類 AI 模型,并結合用戶的實際應用場景,例如園區、數據中心等,產生最終的決策應用。目前,該架構已經能為用戶提供 20 余種智能網絡算法以及 100 多個網絡狀態洞察方法。
至強?? 平臺集成 AI 加速,助力SNA 優化 AI 性能
除了采用創新的方法,H3C 也希望通過引入更強勁的硬件基礎設施來為 SNA 加速,要求與新架構配套的計算平臺,不僅要滿足用戶從數據采集處理、網絡編排部署、資源調度優化到可視化界面的長流程需求,也要為高負載的 AI 模型訓練與推理過程提供可靠的支撐。
基于英特爾? 架構的硬件基礎設施無疑是滿足以上需求的優選,這些基礎設施組件包括:
? 第二代英特爾? 至強? 可擴展處理器。該處理器除了在數據分析、科學計算、音視頻處理等通用計算領域有著顯著的優勢,還可憑借自身集成的多種硬件級 AI 加速能力,如英特爾? 高級矢量擴展 512 (英特爾? AVX-512)、英特爾? 深度學習加速 (Deep Learning Boost) 為廣泛的 AI 應用,包括機器學習和深度學習提供加速能力;
? 英特爾? 傲騰? 持久內存。這種性能與 DRAM 內存相近,成本、容量上更優,且具備數據非易失性的新型內存可讓用戶將更多分析用或訓練用數據緩存在距處理器更近的內存子系統中,從而滿足這些數據密集型應用對于數據訪問 I/O 和時延的嚴苛要求;
? 英特爾為 AI 應用提供開發、部署和性能調優的一系列軟件工具,如面向英特爾? 架構優化的 AI 框架
(TensorFlow、Caffe、MXnet、BigDL 等)、面向深度神經網絡的英特爾? 數學核心函數庫 (英特爾?
MKL-DNN)、英特爾? 數據分析加速庫 (英特爾? DAAL) 和 OpenVINO? 開發套件等。
H3C 與英特爾這次技術合作的重心,就落在向 SNA 的多個模塊中導入第二代英特爾? 至強? 可擴展處理器和面向英特爾? 架構優化的 AI 框架上,這一舉措可為其多種 AI 模型的訓練和推理加裝強勁的算力引擎。
為了考察這一引擎的運轉狀態,H3C 進行了一系列面向實際應用場景的測試,DNS 隧道檢測模型的測試就是其中之一。作為網絡應用中重要的基礎協議之一,域名系統
(Domain Name System,DNS) 協議主要用于將 IP 地址轉化為域名供訪問。因此,惡意程序經常會利用 DNS 請求時形成的 DNS 隧道來對網絡實施攻擊,例如將數據封裝在 DNS 請求數據包中,從而繞開內外網隔離等防御措施,造成企業內網的關鍵信息被透傳。
由于這類惡意攻擊隱藏到了 DNS 隧道中,因此,如圖二所示,常規的網絡安全檢測方法,例如特征碼檢測、流量監測、威脅標志 (Indicators Of Compromise,IOC) 檢測等都難以對其發揮作用。為此,H3C 以海量 DNS 請求報文為基礎,在先知網絡中心中構建基于長短期記憶網絡 (Long Short-Term Memory,LSTM) 的 DNS 隧道檢測模型,來幫助用戶提升網絡安全等級。
作為遞歸神經網絡 (Recurrent Neural Networks,RNN) 的重要衍伸模型,LSTM 可以通過 3 個特別的“門”結構設計,來大幅提升模型的記憶時長,因此特別適于 DNS 請求這類典型的時序性數據。它可以圍繞一段時間內的黑白名單數據集中正常和惡意請求的不同特征,例如主機名、DNS 名稱、特定字符等,來預測新的請求中可能面臨的安全風險。
更長的時序特征提取、更復雜的門結構,意味著模型在訓練和推理中需要更大的計算量。H3C
引入第二代英特爾? 至強? 可擴展處理器,就是看中了這一平臺能夠依托優化的微架構、更多及更快的內核和內存通道帶來計算性能提升,為 AI 訓練和推理提供全面的加速能力。
同時,為使第二代英特爾? 至強?
可擴展處理器充分發揮潛能,H3C 還引入了面向英特爾? 架構優化的 TensorFlow,它的優化特性包括了對英特爾? MKL-DNN 的集成、計算圖的優化以及針對 Kernel 的優化等等,從而確保 SNA 的 AI 訓練和推理過程可以工作在英特爾? MKL-DNN 基元上,并最大程度地對處理器資源分配進行優化,從而在不改變神經網絡模型的情況下提升整體性能。
圖二 基于 LSTM 的 DNS隧道檢測模型
圖三 DNS 隧道檢測模型訓練性能歸一化對比
兩組測試的硬件配置相同,但左側基準組搭配了原生的 TensorFlow,右側的對比組則搭配了可以更大程度發揮第二代英特爾? 至強? 可擴展處理器潛力的面向英特爾?
架構優化的 TensorFlow
在基于上述軟硬件優化組合的平臺上,H3C 鑒于真實應用環境的需求和配置狀況,以 DNS 隧道檢測模型為例進行了一系列的驗證。驗證采用的黑白名單數據集包含了
20,000 條黑名單樣本和 30, 000 條白名單樣本,并以 10, 000 條數據作為測試集。測試結果如圖三所示,在基于同一硬件平臺,采用面向英特爾? 架構優化的 TensorFlow 之后,訓練性能可提升到基準值的 3.2 倍1。
以上的測試數據,是 SNA 應用收益的量化見證,但更具說服力的,則是來自最終客戶基于其應用實踐的直觀感受。以國內某知名高校為例,其基于 SNA 改建的校園網,不僅扭轉了過去校園網“不可知、不可控、不可用、不可修”的形象,顯著改善了師生的使用體驗,而且還成為了科研教學中的好幫手。AI 方法的加入,使學校的關鍵網絡服務質量得到了更好保障。以遠程視頻教學為例,通過新架構,視頻教學過程中的網絡抖動、時延、流量等數據通過不斷地被采集和分析,以確保能及時下發路徑調優、啟動業務 QoS 保障等策略,杜絕了視頻斷線、卡頓等問題。
助力更多企業 ICT 設備迎接智能化
通過與英特爾開展的合作,H3C SNA 順利達成了目標,并初步贏得了最終用戶的認可。接下來在繼續推廣 SNA 方案的同時,H3C 還將目光瞄向了更多企業級 ICT 設備,特別是部署在大規模云數據中心之內,在管理和運維上同樣需要 AI 助力提升效率和自動化程度的設備,因為它們也面臨著實現智能化變革的迫切需求。
以在數據中心中扮演計算力關鍵角色的服務器為例,早在多年前其運維就開始導入可感知其運行狀態 (包括使用率、耗電量、散熱情況以及故障反饋)的遙測技術,以及與之相匹配的
“監控-學習-行動-決定“
管理機制。而隨著 AI 應用優勢顯現,包括能利用數據訓練更好用和實用的管理和策略模型,并在無需或較少人工介入的情況下及時且并發響應不同事件,有的放矢地實施策略等能力日漸凸顯,將 AI 方法引入 ICT 設備的管理和運維也就成為大勢所趨。
基于這一認識,繼成功推出 SNA,H3C 又攜手英特爾啟動了服務器管理領域的智能化探索,著手繼續利用第二代英特爾? 至強?可擴展處理器與面向英特爾?架構優化的
TensorFlow 的組合,來實施服務器利用率模型的優化和測試驗證等工作。H3C 近期推進的相關測試就基于真實應用環境的配置,使用了某用戶過去 2 年間服務器處理器、內存和存儲器的每月利用率作為數據集 (其中 20% 作為測試集,80% 作為訓練集)。測試結果如圖四所示,在導入面向英特爾?架構優化的 TensorFlow 后,模型的推理性能可提升至基準值的 2.71倍2;而在進一步導入并行多實例優化后,模型的推理性能還能在不影響延時的情況下,進一步提升到基準值的 10.98 倍2。
圖四 服務器利用率模型的推理性能歸一化對比測試結果
通過以上緊密技術協作和貼近實用環境的測試,在不遠的將來,雙方必將合力打造出一系列面向企業多樣化 ICT 設備或平臺的 AI 智能化方案組合,進而將更多行業用戶的云平臺或 ICT 基礎設施帶入全方位智能化的時代。
標簽:案例研究,第二代英特爾? 至強? 可擴展處理器,面向英特爾? 架構優化的 TensorFlow,智能網絡,人工智能
總結
以上是生活随笔為你收集整理的英特尔® 至强® 平台集成 AI 加速构建数据中心智慧网络的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 增强型固态硬盘支持人工智能工作负载
- 下一篇: 部署通用基础设施, 满足顶级 SLA 要