民生银行 IT运维故障管理 可视化案例
一、前言
民生銀行 IT 運維工作經歷了多年實踐,已經建設了CMDB、IT運維管理系統(流程平臺)、集中監控系統、交易性能監控系統、自動化運維系統、日志管理平臺等管理工具,并在實際工作中不斷深入的優化,在近年還打造了運維大數據平臺,用以支撐 IT 運維管理工作。
在日常工作中,監(各類監控)、管(流程)、控(自動化)和CMDB系統均建立了映射關系,用以打通各系統的數據消費場景。
但實際工作中依然面臨著工具分散,依靠運維人員經驗和頻繁切換各專業分析工具,以實現故障定位、影響分析等操作,運維數據消費效率存在進步空間。
二、建設思路與成果
基于上述背景,民生銀行嘗試借助架構管理可視化工具,將配置數據(CMDB)、監控數據(集中監控告警、交易性能監控)、自動化運維管理工具、IT運維管理系統的變更數據整合到 IT 運維架構圖上,打造統一的運維數據消費場景 - IT運維架構管理可視化平臺,行內稱之為云圖系統。
在系統建設之初,我們先定義了四類運維數據消費場景,如下圖所示:
下面,我們先對這四個比較具備代表性的場景進行說明:
1.日常監控
作為運維人員,每個人都需要對各自負責系統的運行情況了如指掌。系統本身的各項性能指標可以通過對數據庫、中間件、操作系統和網絡流量分析等監控手段實時主動監測,系統的交易性能情況則需要通過交易性能監控系統進行實時的診斷輸出和告警。
一線值班人員需要打開不同工具的監控窗口,實時監測系統的告警和異常指標,這些窗口占用了大量的終端資源;
二線運維人員接到異常告警后,也需要打開各個監控平臺進行故障判斷和問題定位,往往在登陸和跳轉的過程中浪費一定的時間和精力,無法有效滿足“10分鐘定位故障、10分鐘處置恢復”的“雙十”目標。
通過云圖系統對上述各專業監控工具的數據實現高效整合,目前已經能夠以應用為中心,在統一的頁面上實現上述多種運行狀態數據的呈現,實時同步的顯示告警數據和性能數據,并與特定場景的可視化相結合,直觀高效,一目了然。
舉例:圖1是我行網銀互聯系統發往工行、農行、中行、建行、交行、招行等14家對手行的交易量、響應時間、響應率和成功率一覽圖,當交易異常告警發生時,告警會實時掛載在應用系統圖標上。
圖1:網銀互聯至對手機構交易情況監控
2.排障定位
在日常IT運維工作中,有時會面對一些較復雜的故障定位場景,比如大量系統幾乎同時涌現高級別告警,這些系統之間依托于各類網絡,存在著支撐和依賴關系,而每個系統本身也被復雜的系統架構所承載。
這種情況下,如何在有限的時間內定位故障并快速恢復業務,是運維人員面臨的低頻但高風險的疑難問題。
對比傳統排障思路,運維人員需要綜合分析這些告警,確定可能的根因。
一般思路是各應用系統負責人分別找數據庫、操作系統、中間件、網絡等團隊確認是否是本系統導致的。
如果不是,則需要通過事前繪制的上下游系統關系圖梳理可能的根因節點,再查詢相應疑似故障根因系統的架構內是否存在故障,從而進行進一步處理。
由于相關工作既存在跨部門溝通,又需要強大的視圖化邏輯思維能力,對運維人員要求極高。
而通過云圖系統,我們可以先通過對應用墻的整體查看(如圖2所示),分析各系統告警的分布情況,之后依照經驗初步判斷交易關鍵節點,點擊鉆取進入應用關系全景圖。
圖2:應用墻展示
在圖中可以查看到基于時序的告警、性能指標曲線、近期變更記錄,從而進一步縮小需要深入判斷的故障域;再基于疑似的故障根因節點鉆取到系統架構圖和網絡拓撲圖,同樣對架構圖中對象的告警、變更、性能數據進行分析,進一步定位故障源頭(如圖3所示)。
圖3:應用交互關系展示
最后,將自動化操作也集成到相應的架構圖中,包括一鍵巡檢等操作,縮短大腦思考和逐一登陸各系統消耗的寶貴時間,完成處理后再次對比相應架構圖中的實時監控數據,確認故障處理效果。
排障結束后,還可借助應用畫像功能(如下圖4所示),對故障的形成原因及解決方法進行復盤,制定預案,為可能的故障二次發生或次生風險提供預防措施和緊急處理指導意見。
圖4:應用畫像展示
3.變更影響分析
在日常的變更管理工作中,分析變更影響,進行變更過程評審是變更管理工作的重點。
就變更影響分析而言,如果CMDB數據中的關系數據不夠完善,影響范圍的確認就變得異常艱辛,需要投入更多的經驗判斷、多方溝通以及大量思考。
依托于云圖系統,變更影響分析的工作得到了系統化改善。舉例來說,當需要對存儲系統進行維護時,只需要搜索該存儲設備的任意配置項屬性,便可知道哪些系統與該存儲存在關聯關系,同時還可以鏈接到相應的系統架構圖,從而進一步了解深層次的影響范圍(如下圖5所示)
圖5:存儲與應用影響關系展示
4.知識共享
知識共享能夠提升人與人之間的協作和分享能力,發揮團隊成員的主動性和創造性。舉例來說,基于配置數據的架構圖,結合相關的監控信息和變更記錄,可以由專業二線人員進行場景組裝,并將其分享給ECC一線值班經理。
值班經理一方面可以通過更易理解的架構圖,熟悉所需管理的各類系統情況,還能夠在故障定位時,更易縮小故障域根因范圍,進而向專業二線傳遞信息,提升整體排障效率。
此外,日常運維中演示匯報是知識共享的場景之一,架構圖作為IT管理領域存在共識的表現形式,本身就具備演示匯報的基礎能力。
不論是對新員工培訓或與運維備份崗的日常溝通過程中,還是在向業務單位介紹IT運維日常工作,又或者是描述一些重要的系統建設成果。
通過該系統的演示模式都可以有效的提升溝通效率,使整個組織形成知識積累、統一認知、快速分享和實時更新的機制。
圖6:演示匯報大屏模式
三、未來展望
1.可視化AIOps
近年來AIOps的理念逐漸深入人心,Gartner也在監管控運維架構的基礎上補充了AIOps的核心節點。作為AIOps,從各類數據源匯總成為大數據庫,在這個基礎上進行計算、分析、融入算法、增加機器學習能力,并最終以可視化供給數據消費是已知的發展路徑。
民生銀行運維大數據平臺已經建設完成,目前也已開展與清華大學智能運維實驗室的合作,將其機器學習和算法研究成果投入到生產環境進行積累和學習。
下一步云圖系統將對接智能運維系統的異常監測分析數據,實現AiOps與IT運維架構可視化故障定位的展示能力。
舉例來說,在架構圖中呈現的事件信息,除了經歷了過濾、壓縮、關聯、豐富等操作,還會補充單值標異常檢測系統在性能數據中挖掘的系統異常。
比如業務系統交易響應時長原本定義在100ms生成告警事件,而在異常檢測系統上線后,機器學習會基于數據特征,在低峰期,即便其響應時長只有50ms,也可以發現系統異常,從而進一步補充事件提醒,結合云圖系統,實現故障預警的可視化,進一步提高運維質量。
圖7:Gartner監管控運維架構
2.自動化場景可視化
下一步,系統將實現應用發布及災備切換自動化的可視化能力:
應用發布和災備切換需要管理的各種資源關系復雜,應用系統之間依存性高,自動化運維系統的流程管理可以清晰定義以上各種關系,有力的保障了災備系統的服務質量、提高應對突發事件的能力。
與此同時,各部門同事及領導可以通過大屏幕,一目了然的了解流程執行情況,使ECC成為統一的“作戰指揮中心”。
3.深入的場景化建設
基于架構圖和各類數據的集成,架構管理可視化工具已經成為了最貼近運維人員的綜合情勢研判工具。
基于此,系統可以做進一步深化,站在運維人員不同的工作場景進行功能深化和數據封裝。
舉例而言,故障在很多情況下源于變更,在系統變更前需要對變更進行評審,場景化能力可以在評審前,將變更前后需要關注的系統架構、應用交易性能指標、系統和網絡層面負載指標,以及各應用的日志新產生數量,均封裝在一個頁面上。
當變更日的次日清晨,應用運維人員可以自動收到郵件通知,將上述信息進行匯總,點擊后即可打開封裝好上述數據和圖形的場景化頁面,從而對變更后的狀態一目了然,一旦出現問題也可以查看問題表征,并迅速定位上下游影響。
四、總結
“心靈沒有意象就永遠不能思考”,亞里士多德的這句名言,映射到IT運維管理中,架構圖便是心靈意象的一種可視化呈現。
對于IT架構圖的規范化梳理,一方面在IT治理層面保障了運維管理工作可持續的優化;
另一方面隨著架構可視化管理的深入,以IT架構圖貫穿運維工作思考流的習慣正在逐漸形成。
未來,將配置數據、監控數據、日志數據、自動化工具、流程工具,基于架構圖進行有機整合,激發了運維人員對運維所需工具的新需求,從而形成更加高效的數據消費場景。
伴隨著工具深入使用和持續優化,相應的需求仍在不斷涌現,未來會根據進展與大家分享。
(來自:終端研發部)
資料免費送(點擊鏈接下載)
史上最全,數據中心機房標準及規范匯總(下載)數據中心運維管理 | 資料匯總(2017.7.2版本)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
加入運維管理VIP群(點擊鏈接查看)
《數據中心運維管理》VIP技術交流群會員招募說明
加入學習群掃描以下二維碼或者添加微信:
wang2017bj
總結
以上是生活随笔為你收集整理的民生银行 IT运维故障管理 可视化案例的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据中心、智慧机房全套解决方案
- 下一篇: 一张图读懂八大全国一体化算力网络国家枢纽