云计算基础设施智能运维的下一段征程,你们准备好了吗?
隨著云計算的不斷發(fā)展和普及,在背后支撐它的基礎設施技術也在飛速演進。2019年杭州云棲大會,在《大規(guī)模云計算基礎設施智能運維》分論壇上,來自阿里巴巴的資深技術專家們、以及英特爾的資深架構(gòu)師和數(shù)萬開發(fā)者們分享了如何在數(shù)據(jù),計算力,網(wǎng)絡互聯(lián)能力規(guī)?;鲩L的情況下,利用新的理念和技術手段來滿足云計算運維對于穩(wěn)定性,成本和效率的核心訴求。
論壇深入淺出,集數(shù)據(jù)中心,服務器,網(wǎng)絡變更等硬件基礎設施運維,和云監(jiān)控,云上應用運維為一體, 多元化地呈現(xiàn)給聽眾大規(guī)模云計算基礎設施運維領域的全方位發(fā)展及未來機遇。
整個專場由阿里巴巴云智能基礎設施事業(yè)部研究員趙曉雪作為出品人及主持人。在開場為大家解讀了基礎設施運維領域面臨的機遇與挑戰(zhàn),并且?guī)ьI聽眾從始至終了解了運維在不同基礎設施領域和層面遇到的問題,及最新的解決方案。
阿里巴巴基礎設施事業(yè)部研究員? 趙曉雪
阿里巴巴云智能基礎設施事業(yè)部的高級算法專家何誠詳細解讀了阿里云如何借助數(shù)據(jù)智能技術來進行基礎設施服務器集群的運維。其中提到的集群自動修復系統(tǒng),其核心是通過對服務器海量日志文本進行自然語言處理分析和分類,結(jié)合基于傳統(tǒng)的專家和工程師的歷史經(jīng)驗規(guī)則進行故障狀態(tài)的智能檢測和問題發(fā)現(xiàn),最終形成修復操作的智能化決策,并及時通知云上業(yè)務進行快速授權(quán)修復。目前的自動修復成功率達到了~90%。
《阿里巴巴智能運維創(chuàng)新探索和實踐》
何誠 阿里巴巴高級算法專家
大型計算機集群之間的數(shù)據(jù)通信離不開網(wǎng)絡的互聯(lián)。網(wǎng)絡運維也不容忽視。阿里巴巴云智能基礎設施事業(yè)部的高級技術專家翟恩南介紹了《阿里巴巴網(wǎng)絡的智能變更驗證》領域的最新研究進展,詳細分析了把復雜的網(wǎng)絡變更難題的智能化解決方案。保證網(wǎng)絡變更的穩(wěn)定性,如何做到趨于零的變更故障率?翟恩南認為,可以從變更方案的形式化驗證,變更仿真灰度測試,執(zhí)行中的實時驗證,自動回滾等一系列的全套解決方案來攻破這個難題。
《阿里巴巴網(wǎng)絡的智能變更驗證》
翟恩南 阿里巴巴高級技術專家
云基礎設施物理層的設備需要運維,跑在云上的應用本身也需要運維。阿里巴巴云智能研發(fā)效能事業(yè)部的高級技術專家劉撫狄介紹了阿里巴巴應用運維大腦 —— 監(jiān)管控一體化中樞。以10年的時間展開,他介紹了阿里集團研發(fā)體系如何通過一套應用運維產(chǎn)品從物理資源、虛擬機平穩(wěn)的過渡到云原生架構(gòu),提出了研發(fā)團隊面臨微服務和云原生場景下運維爆炸式增長問題的解決方案,以及應用運維的核心方法論。此外,阿里巴巴采用了分層的運維的方式,清晰定義各運維層次的組織職能和關鍵SLA,以追求可靠性、自動化的策略應對線上應用運維復雜性。劉撫狄認為,在不久的將來,阿里巴巴主打穩(wěn)定性和安全工程解決方案的應用運維產(chǎn)品體系將會完成產(chǎn)品化,面向云客戶和企業(yè)提供混合云應用運維的集成解決方案。
?《阿里巴巴應用運維大腦 —— 監(jiān)管控一體化中樞》
劉撫狄 阿里巴巴高級技術專家
?
智能決策算法離不開海量的監(jiān)控數(shù)據(jù)。運維的終極目標也是監(jiān)管控一體化。所以高可用,可擴展的監(jiān)控系統(tǒng)必不可少。阿里巴巴云智能基礎設施事業(yè)部的資深技術專家陳國棟詳細介紹阿里云監(jiān)控技術及未來。云監(jiān)控對于上云客戶就像一雙雙眼睛,不僅能夠幫助用戶透視云上業(yè)務和計算存儲資源的數(shù)據(jù),站點監(jiān)控還可以提供外部網(wǎng)絡撥測,收集數(shù)據(jù),一旦出現(xiàn)問題通知運維人員快速處理。云監(jiān)控新的全球部署和負載均衡的架構(gòu)會支持阿里云產(chǎn)品和用戶的飛速增長,同時保持監(jiān)控告警的準確性和穩(wěn)定性。云監(jiān)控作為阿里云的事件中心,能把阿里云各云產(chǎn)品的事件也都收集起來,并且在未來基于這些信息實現(xiàn)更多的智能運維管控決策。
《阿里云監(jiān)控技術及未來》?
陳國棟 阿里巴巴資深技術專家
?
基礎設施的運維優(yōu)化不僅是服務器,網(wǎng)絡,數(shù)據(jù)中心每個領域本身的優(yōu)化,也需要看全局。能夠平衡成本,穩(wěn)定性和效率的一定是全局最優(yōu)的解法。數(shù)據(jù)中心整體的能耗管控和優(yōu)化就是個好例子。阿里巴巴云智能基礎產(chǎn)品事業(yè)部的資深技術專家宋軍深入介紹阿里巴巴基礎設施功耗管控和優(yōu)化的解決方案。通過服務器,機柜,數(shù)據(jù)中心設施等多維度功耗數(shù)據(jù)采集,分析,處理,同時加以云上產(chǎn)品的業(yè)務負載信息,形成上下層聯(lián)動的智能決策機制,尋找同時滿足穩(wěn)定性、成本、資源彈性三個方面的全局最優(yōu)解。此外,宋軍通過功耗管控平臺的三個具體優(yōu)化案例,帶領大家了解了如何做到提高性能的同時降低了能耗。
《阿里巴巴基礎設施功耗管控和優(yōu)化》
宋軍 阿里巴巴資深技術專家
?
阿里巴巴基礎設施運維的很多技術實踐,離不開戰(zhàn)略合作伙伴的研發(fā)和技術賦能。本次專場特邀英特爾(Intel)的資深架構(gòu)師宋川,為大家?guī)砹擞⑻貭栕钚碌脑茢?shù)據(jù)中心管理技術分享。宋川提到,英特爾是一個計算平臺的提供商,所以會從計算平臺的角度,幫助云客戶、互聯(lián)網(wǎng)客戶應對云計算帶來的各種挑戰(zhàn)。他分享了目前英特爾如何利用數(shù)據(jù)來幫助數(shù)據(jù)中心管理進行持續(xù)優(yōu)化,以及從計算平臺的基礎硬件管理能力角度如何通過技術創(chuàng)新來幫助客戶解決云計算及數(shù)據(jù)中心環(huán)境中的關鍵問題。
《云數(shù)據(jù)中心管理技術》
宋川 英特爾資深架構(gòu)師
2019的云棲大會《大規(guī)模云計算基礎設施智能運維》分論壇圓滿結(jié)束,希望討論和交流能夠帶給業(yè)界同行更多的啟發(fā)和思想的碰撞,生態(tài)與行業(yè)的協(xié)力,讓云計算基礎設施技術不斷前行,助力中國數(shù)字經(jīng)濟發(fā)展和企業(yè)的數(shù)字化改革。
資料免費送(點擊鏈接下載)
加入運維管理VIP群(點擊鏈接查看)
掃描以下二維碼加入學習群
總結(jié)
以上是生活随笔為你收集整理的云计算基础设施智能运维的下一段征程,你们准备好了吗?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 你以为ACI=SDN?大错特错!
- 下一篇: 数据中心用多模光纤技术及发展趋势