从扁鹊医术看华为数据中心智能化运维之道
根據典記,魏文王曾求教于名醫扁鵲:“你們家兄弟三人,都精于醫術,誰醫術最好呢?”扁鵲:“大哥最好,二哥差些,我是三人中最差的一個。”文王又問:“那為什么就你最出名呢?”扁鵲回答:“長兄治病于病情發作之前,由于一般人不知道他事先能鏟除病因,所以他的名氣無法傳出去;仲兄治病于病情初起之時,一般人以為他只能治輕微的小病,所以他的名氣只遍及鄉里;而我是治病于病情危急之時,一般人都看到我在經脈上穿針放血等大手術,以為我的醫術更高明,因此名氣響遍全國。”
這段關于醫術與治病救人的話題,蘊含著值得深思的數據中心智能運維之道。
一
數據中心智能化新使命:新應用正帶來新挑戰
伴隨著5G、云計算、大數據、物聯網、智慧城市的飛速發展,作為基礎設施承載業務的數據中心規模隨之越來越大,機柜、服務器數量也進一步增多,數據中心動環系統、運營監控等系統也變得越發的復雜。如此多的信息系統,必定會增加日常運維的難度。因此在數據中心內實現智能化、簡單化的運維管理,是數據中心未來更加迫切的需求。
在華為以“智能DC,預建未來”為主題的第五屆智能數據中心基礎設施技術峰會上,華為數據中心能源總裁何波從數據中心管理的維度,結合華為多年來數據中心運維的管理經驗,為我們分享了數據中心的智能化運維實踐。傳統的數據中心在風險識別上,往往依賴于人力、經驗,效率低。華為DCIM+融合了IoT、云平臺、AI等算法,就像天氣預報提前預報可能到來的暴風雨一樣,可以提前獲知潛在風險,并且把傳統的被動式故障處理為主動式的風險預防。可以在數據中心故障告警數據上,智能篩查需要關鍵處理的告警信息,比起人工篩查減少80%時間,極大的節約的運維工程師的故障篩查時間。同時,將故障部件主動隔離,過保部件提前提醒采購,從而減少50%的告警,減少100%的重大事故風險。華為DCIM+,在智能化識別風險、提升數據中心運維效率方面,起到事半功倍的作用。
華為數據中心能源總裁?何波
二
DCIM+,開啟數據中心運維的智能時代
如果把扁鵲對兄弟三人醫術的評價,看成數據中心運維的事前預防、事中防微杜漸和事后控制和解決。那么智能化運維既需要扁鵲,更需要扁鵲的長兄與中兄,需要靈活運用三兄弟的能力來切實保證數據中心的智能化運維。
DCIM作為數據中心基礎設施管理工具近年來逐漸被認知并接納,對數據中心生命周期的管理、運維、節能會產生一定作用,但如果要實現智能化運維,傳統的DCIM則無法實現。
華為數據中心智能管理系統(DCIM+)為數據中心基礎設施提供高可靠運維與精細化運營方案,融合了3D、AI等先進技術,提供可視化管理、AI能效管理、數字化運維和智能化運營等,提升數據中心的管理效率,實現數據中心價值最大化。首先,確保數據中心流程遵從可靠性;其次,加強過程管理,輔助經營分析提升數據中心收益,極致優化能效而節約運營成本。最后,面對出現的問題,徹底解決問題。把握好事前、事中、事后三個節奏點,在不同的階段運用好不同的控制手段,把數據中心的風險控制在預定范圍內,確保數據中心安全運行。DCIM+,支持與安防、消防、BA、動環、電力、AI等多種系統的生態集成。統一信息,統一管理,有效避免了傳統的管理割據。
首先,智能巡檢運維提升效率與可靠性
傳統的巡檢任務需要運維人員每天到數據中心去做定期巡檢,日復一日、重復枯燥的數百次或上千次抄表工作,并且要隨時保持警覺性,從中發現隱患。數據中心運維工作中,人是最關鍵的因素,擺在我們面前的問題是運維人員如何在重復枯燥的抄表工作解脫出來。
華為希望通過DCIM+云計算、大數據、人工智能的方式,通過智能化的手段逐步減少人工巡檢等例行重復工作,在運營層面超越人,提高數據中心運維效率,成為數據中心運營、投資決策的重要支撐系統。
華為DCIM+,通過打造設備和管理系統一體化的智能解決方案,實現從基礎管理到智能運維的飛躍。在通過DCIM+的綜合服務平臺進行巡檢時,對檢查過程中發現的隱患,可通過平臺的故障處理工具進行修復;如需要現場處理的,通過服務平臺觸發問題升級,并發送短信或者郵件給現場維護人員處理。在接收到平臺觸發的告警信息,或者收到平臺觸發的問題升級信息后,相應維護人員可遠程登錄處理告警,診斷系統發生的錯誤等。以便在系統發生故障后,盡快恢復錯誤,減少損失。
其次,基于AI的iCooling能效優化技術,助力數據中心精益運營,為消除無用能耗提供可能
除IT設備外,制冷系統的電力消耗是數據中心運營成本的重要組成,管理粗放和為保證系統可靠性而導致的制冷需求被層層放大,造成了難以估量的能源浪費。華為DCIM+,采用了通過AI大平臺訓練出的精確預測PUE的“神器”——基于人工智能算法的iCooling@AI能效優化技術,為消除無用能耗提供了可能。針對數據中心制冷效率提升瓶頸,系統精確監控各關鍵節點的能效水平,通過機器深度學習,對歷史同期和同地區同類設備能效的比較,識別能效異常設備,幫助運維人員判斷異常原因并提供優化建議,確保數據中心整體系統運行在能效最優狀態,降低用戶運營成本。在保證制冷可靠性的前提下最大限度降低制冷需求,iCooling@AI能效優化技術提升8%。
在華為廊坊數據中心,采用iCooling能效優化技術后,全年PUE由1.42降為1.30以下,每年可節省電費近千萬元,實現了從“制冷”向“智冷”的轉變,切實提升了效益,為未來降低數據中心能耗奠定了新方向。未來也會在更多的數據中心和場景去復制,比如說間接蒸發冷卻疊加iCooling,面對中小的邊緣DC,不一定是大型的冷凍水系統,可能是風冷直風系統,也可以用AI的方式智冷,在這一塊必定大有可為。
搭載了iCooling@AI能效優化技術的華為DCIM+,不僅因為意味著更為智能的運維、更精細化的運營,更意味著AI技術的應用、云化的管理,釋放傳統DCIM更多的潛力。
最后,智能化識別風險類型,及時妥善處置關鍵風險
數據中心管理人員除了通過智能化巡檢提高運維效率、使用有限的電力和制冷系統將計算資源在有限的空間發揮到極致之外,還要不斷地與面臨的風險進行斗爭。這意味著需要識別和管理各種來源的風險。
傳統的數據中心在風險識別上,往往依賴于人力、經驗,效率低。華為DCIM+融合了IoT、云平臺、AI等算法,就像天氣預報提前預報可能到來的暴風雨一樣,可以提前獲知潛在風險,并且把傳統的被動式故障處理為主動式的風險預防。可以在數據中心故障告警數據上,智能篩查需要關鍵處理的告警信息,比起人工篩查減少80%時間,極大的節約的運維工程師的故障篩查時間。同時,將故障部件主動隔離,過保部件提前提醒采購,從而減少50%的告警,減少100%的重大事故風險。華為DCIM+,在智能化識別風險、提升數據中心運維效率方面,起到事半功倍的作用。
三
面向看得見的未來:繼續披荊斬棘,勇往直前
數字化、網絡化、智能化讓數據中心市場的進化和迭代"迫在眉睫",而華為網絡能源通過技術創新,做到了真正為數據中心市場未來的持續發展貢獻更高的價值。
數據顯示,近幾年華為的數據中心能源業績穩健增長,取得了華為模塊化UPS連續4年取得中國市場份額第一、微模塊連續4年中國市場份額第一的成績。
華為數據中心能源領域總裁何波表示:“華為網絡能源能夠不斷突破、不斷成長的關鍵既有外部產業環境帶來的機會,也與華為的定位和創新是分不開的。華為每年將銷售收入的10%-15%投入研發,持續創新。但是華為的創新不是盲目的,網絡能源3000多名研發人員,圍繞客戶價值創新,幫助客戶解決問題。”
回首過往,華為一路披荊斬棘!展望未來,華為將在智能化的道路上邁出更加堅實的步伐,繼續奮勇向前,借鑒扁鵲兄弟在患者的不同階段,及時處理、防微杜漸,盡力把故障消滅在萌芽階段,確保數據中心以最快的故障處理速度,最少的故障率,最低的營維成本,最先進的營維技術與生態伙伴、客戶、院校、研究機構和其它社會力量一起,共同助力智能化營維的發展,迎接未來數字化的時代洪流。
總結
以上是生活随笔為你收集整理的从扁鹊医术看华为数据中心智能化运维之道的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据中心或许会成为未来5G最强大的技术支
- 下一篇: 9300万美元投资涌入 新加坡成亚太最大