极致用云,数智护航
簡介:我們邀請到了阿里云混合云監控平臺(Sunfire)團隊負責人王肇剛來給我們分析下阿里背后的數字化業務運維安全工程標準及解決方案。 本次分享涵蓋了全新發布的數字化業務運維安全工程標準、安全生產解決方案,以及全新升級的產品能力:包括了全棧統一運維、全景監控和全周期安全工程相關產品能力的介紹,也包含了對產品解決方案在客戶側落地的最佳實踐分享。
我們邀請到了阿里云混合云監控平臺(Sunfire)團隊負責人王肇剛來給我們分析下阿里背后的數字化業務運維安全工程標準及解決方案。
本次分享涵蓋了全新發布的數字化業務運維安全工程標準、安全生產解決方案,以及全新升級的產品能力:包括了全棧統一運維、全景監控和全周期安全工程相關產品能力的介紹,也包含了對產品解決方案在客戶側落地的最佳實踐分享。
混合云新一代運維
混合云新一代業務運維:數字化業務運維系統工程
在數字化轉型的時代背景下,企業在未來5年內將會發生3個變化:業務規模變大、技術變復雜、組織職能變得更加標準化。
規模會越來越大,從單個業務上云到多個業務上云,云上資源從百臺到千臺。這些變化帶來的挑戰是技術風險導致的影響面擴大、范圍變廣、修復成本變高。如果企業核心業務的穩定性出現了波動乃至出現故障,輕則影響體驗、口碑并帶來客戶投入,重則導致巨大經濟損失,甚至威脅企業的生存。
企業的技術棧越來越復雜,從單云到多云,從專有云到混合云;從傳統開發到使用新技術開;企業IT系統的基礎架構也是多云環境、多技術棧并存;不同企業的數據的分析、治理、存儲和展現能力也存在差異。這些復雜性帶來的挑戰是:故障多、定位難、穩定性不可控。已知故障報警量多、未知故障潛伏期長,定界定位慢、響應慢、恢復慢,故障無法根除。而故障的重復發生會進一步導致影響時間、范圍和發生頻率不可控。
企業組織架構越來越標準化,組織分工標準化,即職責權定義清晰;人員能力標準化,即專業運維知識能力、操作能力、決策能力;協同標準化,即上下級、同級、內外協作標準化;決策架構標準化,即決策架構變化不會的導致技術運維能力的變化。對于剛進入數字化企業來說,組織完全沒有達到這個標準能力,帶來的挑戰就是:協同難,扯皮多、定責難;山頭文化,跨組織跨團隊協作難;出問題,找不到責任人;責任不清,問題無人解決。
面向這些變化與挑戰,在未來5年里,企業云上業務的“可靠性”和“連續性”成為企業發展決定性因素。為了助力企業上云、用云過程中應對這些變化和挑戰,阿里云混合云平臺推出了混合云新一代運維標準:數字化業務運維系統工程,即“全棧統一運維”、“全景可觀測”、“全周期安全工程”?三大能力,系統性保障數字化業務安全可靠。
混合云一體化安全生產(安全工程)解決方案
我們的解決方案涵蓋了從監控和預警,到應急處理,到日常持續改進的全過程閉環。即產品能力和服務能力從防、監、管、控四個方面進行構建,全方位保障數字化業務的連續性和可靠性。
- 防-全周期安全工程, 識別故障風險, 構建故障主動防御體系;
從代碼源頭開始,嚴控代碼質量和上線標準,通過主動防御型策略、專家知識庫、智能風險檢測、惡意識別、風險審計、高危攔截、集中統一管控、高可用架構等構建主動且完備的事前防護體系,將業務故障攔于門外。
- 監-全景可觀測能力, 建立從業務-應用-云資源全鏈路監控的能力,發現并定界異常,秒級預警;
我們的產品提供全景監控(業務/應用/云平臺)能力。全面支持混合云形態下的客戶側監控需求;提供智能監控(智能基線、黃金指標異常檢測等)能力,精準高效地發現故障、并迅速判定故障的級別和影響面,并對故障原因作出定界。同時,我們也提供報警處理和監控運維聯動能力,智能化地收斂與分級報警,并聯動運維平臺觸發故障自愈和應用彈性擴/縮容。
- 管-全棧統一運維, 構建數字化統一業務治理能力;
面向雙態的業務應用運維,提供業務中臺運維、資源調度、作業支撐、集中集成能力,解決企業運維看、管、控的需求,并實現日常運維數字化、智能化。我們利用應用生命周期中產生的海量數據(系統,監控,日志,調用鏈路等數據),通過平臺大數據分析以及機器學習,主動探測發現系統存在的風險,并且提供自動快速應對能力。可以大幅提升企業整體運維效率。
- 控-全周期安全工程,快速解決問題,及時應急恢復止損。產品化支持故障復盤與改進計劃落地,加固事前主動防御和能力驗證;
通過應急控制能力,快速解決問題,及時應急恢復止損,控制故障影響面。并對原因復查改進,加固事前主動防御,并常態進行常態化有效性驗證(演練、壓力測試),從而形成不斷迭代,持續提升的安全生產能力。
數字化智能監控運維安全產品功能矩陣
如圖所示,安全生產解決方案需要非常多的產品能力支持,圖上顯示了支持解決方案背后的產品能力。這是若干年來支持阿里巴巴雙十一的產品能力,也經歷了多年雙十一和日志技術風險戰火的洗禮,目前也從屬于阿里云云效監控運維領域的產品序列,提供給各位企業客戶使用。
云效監控運維域產品能力升級
持續可觀測系統化:Sunfire2.0智能全景監控平臺
監控是系統的眼睛,我們通過眼睛看到問題才能做定界和處理。我們監控平臺的設計理念是智能化全景監控平臺,是圍繞阿里巴巴平臺技術風險體系中的1-5-10理念來設計的。我們通過業務監控發現問題并觸發應急響應,這和傳統運維理念中對系統資源的監控是有差異的。阿里集團的應急響應不會是因為某一個CPU溫度過高、某一個磁盤使用率過高或者IO過高導致的系統級指標告警引起的。阿里集團有千萬級別的線上容器和主機,也有千萬級別的監控項和報警。阿里集團監控是以業務監控觸發為核心,即業務監控觸發報警以后,需要有高效的事件處理中心產品能力,把系統級指標報警、應用級報警和業務級報警有機關聯歸集起來,把業務報警進行判定和升級送入我們的故障臺,故障臺向集團發應急通告,整個閉環是從發現到處理到故障升級。發生故障之后,我們可以馬上進行問題的定界并恢復,全景監控可以把問題鎖定到某一個環節執行預案,再通過運維平臺發起預案執行讓系統恢復穩定,這個故障就被消滅在萌芽階段了。
業務監控能力升級
在業務指標監控領域,我們有一個超級武器,秒級監控。做過監控的同學都有體感,監控系統的數據遲延在秒級粒度時,監控曲線往往會有很多抖動。因此,秒級監控必須有智能化的監控策略作為輔助,否則會造成大量誤報。把之前的智能基線能力全新升級為黃金指標異常檢測能力后,系統會幫我們簡便的自動化配出黃金指標,能監控業務的量、率和耗時以及相應的組合策略,不需要配置人工預制,通過機器學習的算法就能自動化通過監控發現業務問題。
今年的阿里巴巴雙十一預售已經開始,消費者的熱情高漲,特別是薇婭和李佳琪兩個大V做的直播給我們的系統帶來了很大的流量沖擊,淘寶的核心業務指標也確實出現了一個微小的波動。我們的秒級監控和智能報警的策略耗時47秒,從事情的發生到最后全局預警通告只花了47秒,觸發了我們系統的快恢,這個故障還沒有到故障級別就被消滅在無形之中,以至于很多消費者都來不及感知。
我們的監控能力會盡可能先于用戶發現業務的問題。我們在業務鏈路的描述上和在大屏的展示上都有全新的能力升級,這背后是自研的大規模、分布式監控實施的引擎和智能化工程策略框架的支持。
應用和云資源監控能力升級
業務監控發現問題后做定界,這時就要看運行業務的應用和云資源的狀態。我們全新升級應用的發現能力、應用鏈追蹤的能力和云資源監控能力后可以監控客戶應用、從業務指標到業務狀態、云資源的狀態,應用調用其他應用、其他中間件的狀態、分析鏈路、智能化發現應用、第三方組件云資源的關聯。
在云原生的理念下,企業采用K8S作為自己PAAS層的運維方式,能夠被開源的Prometheus監控的對象可以直接被Sunfire平臺監控并享受到Sunfire智能化的策略和強大的監控計算及存儲能力。
報告(事件)和故障管理能力升級
發現問題后需要高效處理,而高效的應急處理需要事件中心和故障臺一起聯動,讓事件有效被管理降低誤報減少時間損耗,也可以通過故障臺進行高效的應急和響應。經過故障臺管理后,很多故障處理過程從開始的零亂不堪到最后整齊高效處理,處理過程由不見變成可觀察可度量。
云效監控運維域產品能力升級
100%IT運維數字化:Normandy智能運維平臺產品架構
上圖是Normandy平臺的全新升級,面向混合云客戶做到支持跨云管理的先進架構,自動化運維發布、自動化管理、擴縮容能力,也支持了阿里雙十一海量應用運維的挑戰。
智能化運維能力升級
運維平臺在智能化層面做了三大升級:一是彈性擴縮容能力。應用級智能的彈性擴縮容,根據應用程序的狀態指導擴縮容是運維過程中最優的選擇,我們Normandy平臺就能提供這樣的能力。針對發布過程中的風險,我們提出無人值守發布的理念,在發布過程中監控發現潛在問題。我們在灰度發布進行到很小范圍的時候就可以發現問題,進行攔截避免問題擴大化。真正出現問題的時候平臺可以執行原子的自愈能力和開放的能力擴展,做到跟客戶的場景相結合,完成客戶場景下的快恢操作。
運營指揮大屏
有時需要對于業務和應用做全局態勢的感知,我們有運行指揮大屏的能力,對運行系統的數據、工單數據和報警數據做展現,結合客戶場梳理到全局態勢的感知。在大型活動保障時做運營指揮參謀,這跟阿里巴巴雙十一指揮大屏的理念是一致的。
數字化業務安全工程平臺—護城河
大家會在新聞中看到,“刪庫跑路”這類新聞。說明我們的在運維安全層面面臨了很大的風險,安全工程平臺支持多云平臺下運維操作集中管控和安全審計、風險的控制。我們稱其為“護城河”,它是我們的核心能力,可以集中管控運維的管理和通路并且符合國家安全等保的標準。
白屏/黑屏化安全防護能力
- 我們護城河體系可以同時支持白屏化和黑屏化場景,進行安全防護。無論是資源管理授權統一管控、基于多終端運維方式,還是對于多協議運維扶持下保證客戶完成安全防護。我們支持在指定的窗口下進行身份認證規避風險。
- 阿里巴巴集團有數萬名技術員工通過操作我們的線上系統,護城河體系完成了整個的風險管控,也為阿里技術體系解決了運維操作的風險控制問題。現在,我們也把它放到云效監控運維的產品體系中提供給企業客戶使用。
- 我們安全審計的能是符合國家等保要求的。通過對過程統一管控記錄運維操作的情況發現里面的風險隱患。護城河平臺基于智能化的能力做到了基于動態智能化發現潛在風險能力。
案例分享
Sunfire在能源行業的案例
上圖是和我們和國家電網做的戰略合作。國家電網的營銷系統1.0的傳統架構遷移到2.0面向混合云的架構,大家在日常生活中交電費、查電費、充值電費等都可以通過小程序在云端運行了。國網營銷2.0系統在云上是由全景監控平臺Sunfire對數百個應用、數千個業務指標進行全面的監控。國網營銷2.0系統的報警處理機制以業務監控為入口,快速定界和處理的模式。這種模式使日常的報警量變少了,比如幾個月前出現了線上的風險,我們高效的發現觸發應急解決問題,國網領導也給我們平臺發了感謝信,是對我們很好的肯定和支持。
運營指揮中心在證券行業案例
上圖是我們跟證券的頭部企業進行合作的應用指揮的案例。這完成了證券指揮大屏在運行企業的落地。在大屏上有證券企業的核心業務流程,從整體的業務看到了應用和資源,線上交易出現問題可以通過多維下算的方式找到問題出現的細分業務領域,能看到運營的狀態和云資源利用的狀態。
我和客戶共建大屏時,首先對客戶側所有的場景進行梳理抽象出業務場景分發到大屏、中屏上,讓客戶進行不同的問題定位,設計成千上萬的業務指標匯聚在運營大屏上,背后是根據客戶異構的數據源,不同實效性的數據做自動歸置和對齊,這種高效實時的處理機制是我們在證券行業非常好的落地。
本次內容就到這里,我們也希望在我們的新一代運維安全工程標準指引下,我們的安全生產解決方案和產品能力能夠支持和服務更多的企業客戶,一起讓企業的云上業務運維更加高效、更加可靠、更加穩定!
原文鏈接
本文為阿里云原創內容,未經允許不得轉載。?
總結
- 上一篇: 一款跑在云上的定制容器专属 OS 来了—
- 下一篇: Python-OpenCV设置摄像头分辨