民生银行马坡数据中心基础设施Uptime Mamp;O运营管理体系建立与实施
01
關于M&O
2008年我行開始籌劃建設馬坡數據中心,機房管理中心團隊參與了整個數據中心從需求分析到運維管理的全生命周期的過程。數據中心的全生命周期包含了需求分析、規劃設計、施工安裝、測試驗收、運維管理等環節。運維管理是最后一環,也是歷時最長的一環,所謂“三分建設,七分管理”也正是如此,從項目開始運維需求就落實到了設計和實施中,工作范圍涵蓋數據中心全生命周期,是通過科學運維管理,實現為我行業務提供數據信息支持,實現我行發展目標的過程。
Uptime Institute的Management & Operation基礎設施運營管理體系是國際數據中心行業權威認證體系,是用來評估數據中心基礎設施運營管理的綜合指標。Uptime M&O體系提供了數據中心基礎設施運維的方法論及最佳實踐。Uptime M&O體系反映了人員配置、維護、培訓和操作的整體嚴密性等方面的管理決策。Uptime M&O體系與ITIL(ISO20000)等標準都包含了(事件、變更、問題等)IT服務的典型管理流程,但M&O更專注于基礎設施的管理流程,著重關注數據中心基礎設施技術層面的嚴謹的維護政策、操作流程、計劃管理程序、人員組織等運營要素。
隨著我行業務的飛速發展和對數據需求的不斷提高,我行數據中心IT和基礎設施的運營與管理也面臨著更大的壓力,在實現高可用性、高連續性的同時還需兼顧運營成本與效率。因此,2018年我行引入了Uptime M&O數據中心基礎設施運營管理體系。該體系提供了數據中心基礎設施相關的指導和框架基礎,也是推動實施數據中心有效運營管理的最佳實踐。本文將按照體系框架對我行MO運營管理體系的建立與實施進行逐一介紹。
02
M&O體系的建立與實施
我行M&O體系的建立與實施項目從2018年月開始,歷經近一年的時間,以Uptime M&O標準為依據,結合我行自身多年的數據中心運維管理實踐經驗,通過差距分析、專業體系構建、新體系試運行和審計優化升級等方式不斷探索、建設,打造了一套科學化、規范化、標準化、流程化的數據中心基礎設施運維管理體系。
1、M&O框架
M&O的體系框架包含人員組織、維護政策、計劃協調管理、培訓以及運行工況5個大的條目,5大條目下又細分了20小項和54條體系內容,基本涵蓋了數據中心基礎設施運營管理的所有內容、領域與細節。
2、人員和組織(Staffing and Organization)
1)人員配置Staffing
明確員工、外包運維團隊及供應商的組織架構、職責分工及專業劃分,明確所有崗位職責、任職要求、工作清單、培訓要求。明確各單位間的關系、接口與報告機制。通過對組織架構、崗位職責、任職要求、各單位接口及報告機制的明確定義,確保數據中心運營管理各項工作的有效實施。
建立員工的全專業(電氣、暖通、弱電、建筑與環境)覆蓋機制,并為每一個崗位配置冗余負責人。確保了數據中心基礎設施7*24小時的人員保障及各項工作的有效實施。
建立排班管理制度,建立工時統計機制,嚴格限制一線操作人員工作超時率,降低了由于疲勞產生的操作失誤的風險。
2)人員資格Qualification
所有員工、外包團隊均取得所轄基礎設施的操作資質證照;通過SLA要求供應商服務人員具備相應操作資質及證照;員工、外包團隊及供應商的資質證照統一管理存檔,定期核查復證。規范了數據中心基礎設施各崗位人員的資質證照及相關制度要求,確保每個專業崗位人員的資質滿足該崗位的運維管理需要。此外,為更熟悉Uptime機房設計建造與運維管理理念,機房管理中心團隊半數以上的員工獲得了Uptime Tier的認證專家證書。
建立員工、外包運維團隊及供應商技術培訓與考核機制,要求所有數據中心操作人員均具備相關資質、經驗以及經過必要的培訓與考核。培訓考核記錄追蹤到個人。確保所有在數據中心從事基礎設施工作人員的專業技術、運維管理流程、安全事項、應急流程及操作等知識與流程規范不斷的更新與積累
3)組織 Organization
建立覆蓋所有數據中心運維活動的職責矩陣,明確了數據中心每項活動中所有涉及部門及崗位(機房、外包、基建、IT運行、安保、消防、保潔)的職責(執行、支持、知曉、審批)及對應關系。
建立機房管理中心周例會制度,回顧總結周工作完成情況;跟蹤故障處理進度、故障處理方法、分析總結經驗教訓及優化措施;統一落實下周工作計劃和安排;對事件、變更、問題、風險等流程進行追蹤與分析;對容量管理、能耗管理進行分析回顧;確保中心負責人與各崗位及外包團隊間有效地交流與溝通,建立健全有序的工作秩序,提高工作效率和工作靈活性,更好的完成運維管理的統一目標。
細化數據中心上下電管理制度,規范機房機柜及IT設備的上下電管理流程,明確各部門在機柜及IT設備的上下電過程中的職責定位,合理規劃機房使用,確保機房設備的安全高效運行。
所有崗位、員工、外包運維團隊、供應商及相關單位均設置冗余聯系人,確保7*24的接入及呼出的有效接口。
3、維護 Maintenance
1)預防性維護Preventive Maintenance Program
建立有效地基礎設施維護管理機制,充分考慮廠商建議、國標及行業標準,建立了年度維護計劃、維護實施管理程序、維護延期政策、以及質量控制程序等方面工作的機制,對數據中心基礎設施維護工作的組織實施進行規范化、標準化、流程化的有序管理,確保數據中心基礎設施的有序運行,提高穩定性、可靠性,有效降低、規避數據中心運行風險。
建立了全年所有基礎設施的維護計劃,追蹤維護時間、內容及完成記錄,每次維護工作均由我行人員或外包團隊進行100%隨工、復核的質量控制程序。要求90%以上的維護工作按計劃時間完成。確保所有基礎設施按時完成維護,降低運行風險。
建立了所有基礎設施的維護作業程序(MOP),做到書面化、步驟化、標準化。涵蓋配電、暖通、弱電、消防4個專業,共49個維護作業程序,明確每一項維護作業所需要的安全保障信息、維護工具、備料備件、維護操作步驟明細及數據記錄內容。對維護實施籌備、實施步驟、實施標準等內容進行了明確定義,并用于指導、管控、記錄預防性維護的實施過程。
建立有效地維護質量控制程序,通過維護計劃展板跟蹤確保維護工作按時完成,通過維護隨工及復核機制確保維護工作按質量完成。
2)運維管理系統Maintenance Management System
重新整理并建立了正式的覆蓋所有數據中心設備的信息清單,細化到每一臺設備的品牌、型號、安裝位置、安裝要求、維保信息、技術參數、操作規范等。
建立關鍵設備信息卡(individual asset history book)跟蹤機制,將設備信息卡粘貼至每一臺設備上,追蹤設備的性能、趨勢數據、故障記錄、維護記錄以及故障維修記錄,以便對維護工作、設備性能指標進行分析和優化。
重新整理數據中心基礎設施所有設備、配電線纜、空開、管路、閥門、高低壓配電箱柜、精密配電柜的編號、對應關系、路由、上下級關聯關系、配置信息。并對數據中心內所有基礎設施設備重新張貼標志及標識。統一了設備的編號,明確了所有設備的上下級及路由關系,標志清晰一目了然,為后期設備及相關路由的維修、維護、巡檢工作提供的極大的便利。
重新制作制冷水系統管路包圍,用不同顏色區分冷凍水、冷卻水及其溫度、進出等關系。使得對水系統管路進行維護及巡檢工作各級關系一目了然。
建立維護工具的定期校驗機制,所有數據中心維護工具定期送至國家認證的檢測機構進行校驗,并建立供應商維護工具校驗要求及核查機制,供應商工程師每次進入數據中心提供服務之前對其工具有效性進行核查,確保維護活動中測量數據的準確性。確保了維護活動的有效展開,實現了工具管理的規范化,杜絕了因維護工具的丟失、損壞、失效等原因導致的維護質量下降、應急搶修延誤等問題。
建立數據中心基礎設施備件保障的管理制度,關鍵備件、普通備件及耗材分類管理統計,明確備件保障的存放位置、數量、到場時間、定期核查機制、再訂貨信息等,確保SLA的可執行性,規范了備品備件的品類、存量、維護、統籌管理等內容。建立了數據中心庫房管理制度,明確分類、出庫、入庫及領用流程,實現了物資出入庫的規范化、流程化管理,保障庫房內財產、物資安全,提高維護維修效率。
3)供應商支持Vendor Support
建立合格供應商清單;重新梳理服務水平協議(SLA),約定服務人員、資質證照、接入流程、聯系信息、維保內容及頻次、工具備件要求、故障級別以及相應的響應時間、服務人員到場時間、備件到場時間、系統恢復時間、設備修復時間、培訓要求等。
建立供應商服務質量管理與控制流程,用流程工單記錄每一次供應商服務信息,包含服務發起程序、維護工作內容要求、維護時間、頻次、應急要求、培訓要求、維護人員資質要求、維護工具要求、維護備件要求等,對每一次服務進行打分考核,并約定供應商接口人及工程師的冗余配置。實現了對服務商服務質量的有效閉環管理。
4)維護延期Deferred Maintenance Program
建立延期維護管理制度,要求數據中心按時維護完成率不低于90%,如因與IT工作沖突、備品備件缺失、供應商變動或其他不可抗因素導致的維護延期,需召開專項會議對維護延期風險進行評估,重新定義維護計劃及維護等級,并對通過郵件對相關部門進行通報。
5)預測性維護Predictive Maintenance Program
建立數據中心關鍵基礎設施的預測性維護機制,定期對柴發機油、冷機冷凍油、循環水泵的震動位移、紅外空開溫度、循環水系統中Cu及Fe離子含量做檢測并生成報告,進行預測性趨勢分析,提前發現設備性能的下降、設定點的變化、發現潛在風險,預測故障。
6)生命周期規劃 Life-Cycle Planning
建立數據中心核心設備的生命周期規劃,規劃貫穿于設備的設計、制造、選型、購置、安裝、使用、檢測、維修、改造、以及拆除報廢的所有過程,并確保設備在備件、備料或整機需要更換時有配套的財務政策支持。
7)故障分析程序 Failure Analysis Program
建立整套數據中心故障跟蹤及分析體系,包括基礎設施的事件、風險、問題的管理制度、工單流程、處理追蹤及升級機制、優化分析改善程序。詳細記錄故障的發生時間、現象、涉及設備、影響范圍、處理過程、總結及優化措施等。通過對事件的追蹤,故障的分析以及所學到的教訓來優化運維程序,避免風險的升級擴大,有效積累知識。
8)機房清潔制度Housekeeping Policies
建立了完善的機房清潔政策、建立機房清潔管理制度、衛生作業計劃、有效追蹤衛生作業記錄,對于機房的清潔堅持高標準嚴要求,有效地降低火災、污染腐蝕等風險,M&O終審數據中心的清潔狀況得到了Uptime的高度認可。
4、培訓 Training
1)員工培訓Data Center Staff Training
建立針對民生員工及外包團隊的培訓管理制度,包括年度培訓計劃、課程及參考資料、考核試題等。培訓課程內容涵蓋了運維管理、配置管理、安全、專業技術、應急實施五大方面,每年25場培訓及考核,確保操作人員掌握專業技術及運維流程,不斷提高數據中心員工專業素質,有效規避因運維人員人為因素而導致的運行風險。
建立正規化的培訓考核流程,包含培訓時間表、課程計劃、培訓材料、簽到、考核評估、培訓檔案等要素。
為數據中心的新員工建立培訓機制,培訓內容涵蓋管理制度、專業技術、應急操作等相關內容,由指定導師帶領新員工完成為期3個月的培訓及考核,合格后可執行相關工作任務,以滿足工作對員工技能的要求。
2)供應商培訓Vendor Training
建立供應商的培訓管理制度,培訓內容涵蓋了數據中心服務工作要求、工作管理流程、服務SLA等內容,所有進入數據中心服務的供應商均需進過民生銀行的培訓并通過考核。確保進入數據中心提供服務的服務商人員熟悉機房工作要求、管理流程,有效降低服務商人員工作的操作風險。
5、計劃協調與管理 Planning Coordination & Management
1)站點政策Site Policies
建立數據中心正常狀態下的供配電、暖通、水系統閥門、電力監控、環控、樓控系統的標準狀態配置運行方案(SCP),及相應的變更管理流程,管理范圍涵蓋基礎設施的運行狀態、參數設定、設備配置等內容,進行以風險管控為目標,以規范化、標準化、流程化變更實施管控方法,對變更風險進行控制。
建立數據中心的標準操作程序(SOP)覆蓋所有日常操作場景,共26個操作程序,110個操作場景。每個場景均有明確的操作步驟,有效減少人為操作失誤。
建立了數據中心的應急操作程序(EOP)共20個操作程序,61個應急操作場景,每一個操作步驟及所需時間都經過實際演練驗證。建立了應急演練管理制度,制定了全年應急演練計劃,使應急演練常規化、制度化,有效提高運維人員處理突發事件的能力。
建立數據中心文檔資料庫及文檔服務器,完整、規范、科學的保存管理技術資料、竣工圖紙、書面自控程序等資料。并建立了運維體系文檔的編寫、審批、發放、使用、更改及作廢的制度及管控程序,所有的資料運維團隊均可現場獲取,做到所有操作都有據可依。
持續追蹤數據中心空間、電量、冷量的使用情況,每周評估增長趨勢,使得機房設備配置、布局合理,實現機房電力、空間、冷量資源的均衡使用,并應用于IT設備上下架、加退電物理實施中的資源評估管理過程。
6、運行工況Operating condition
建立數據中心容量管理制度,明確容量采集、容量統計分析和容量優化管理的工作機制,每月更新機房模塊間的空間、電量、冷量的消耗使用情況,并對其進行平衡性分析,確保容量的均衡合理使用。設置容量預警閥值,確保組件之間切換不超負荷上限。設置機房服務器配電三相平衡要求。
建立能耗管理制度,內容涵蓋能耗采集、能耗統計分析,能耗優化管理等方面,綜合考慮可用性和節能性需求,對機房空間、電量、冷量進行合理布局合理規劃,對機房送風溫度、冷凍水出水溫度、風機轉速、循環水泵變頻、盲板安裝、電能采集精確化、制冷模式優化等指標進行一系列的精細化調整與優化,提高能量使用效率,持續降低PUE值。
7、機房模塊均衡性管理
03
M&O體系有效性的核心原則
原則一 主動性原則:提前制定MOP、SOP、EOP、SCP等流程和程序,提前制定維護計劃、事件、風險、變更等管理流程,提前規劃生命周期、容量、能耗等管理預測機制,建立有效的故障跟蹤分析體系、優化及改善程序,主動預見問題和風險,防患于未然。
原則二 實用性原則:確保所有已發布的流程和程序文檔文件都經過實踐驗證,在實際工作中是可執行的。并制定有效地更新優化機制。
原則三 周知性原則:確保所有數據中心基礎設施員工遵行相關流程均可現場取閱技術手冊、參數設定、圖紙、流程及程序文檔等,確保知識及流程體系存在于組織而不存在于個人,確保數據中心的服務保障能力和運營管理水準不因人員的變動而發生變化。
04
體系審核評價
馬坡數據中心于2019年6月13日完成Uptime M&O現場認證審核,并以95.5分的成績順利通過Uptime審核專家現場終審審核(全球通過認證數據中心平均分為84.7分),獲得Uptime M&O認證獎牌。
Uptime 官方對于馬坡項目的評價
機房格外的清潔,每年由外部專業供應商進行一次地板下清潔工作,數據中心內無可燃物、清潔工具、紙箱以及個人物品等雜物。清潔的機房環境是數據中心團隊堅持執行著極高運行標準的最好證明。
建立設備信息卡機制對設備性能及趨勢進行追蹤,便于維護活動的執行及優化。
數據中心執行非常全面的預測性維護活動,包括紅外掃描、水泵震動、柴發機油檢測、冷機油檢測、水管路Fe、Cu離子分析。
數據中心內所有的設備、斷路器、指示燈、儀表和閥在暖通及配電現場都有可取閱的相關文檔及標識,所有設備和設定值都在現場有標識指示,以實現可持續的運維并降低人為操作風險。
總體而言,數據中心的運營管理較預審有了非常顯著的提高,看到數據中心團隊的堅決地提升運營管理水準是非常令人振奮的。
05
總結
通過數據中心基礎設施Uptime M&O運營管理體系建立與實施,我行數據中心的運營管理從過去以暖通、電氣等專業為出發點建立運行制度和政策,轉變為從整體基礎設施管理領域出發,以體系化、標準化、程序化為導向,本著主動、實用、周知的執行原則,規劃、建立、管理數據中心基礎設施整體運營體系工作并執行到位。
本次認證通過對體系中人員組織、運行維護、培訓、計劃協調管理及運行工況五大要素的審核,表明了數據中心基礎設施的運營管理達到了Uptime M&O標準的要求水準并落地運行,此次獲得Uptime M&O認證是一個良好地開端,未來數據中心運營團隊將繼續嚴格遵循體系要求,堅持M&O的運營管理理念,并能夠以此為基礎,不斷總結、優化運維管理內容,不斷提升和完善專業技術水平、信息服務和保障能力,力爭始終走在信息化建設和管理的前列。
王伽寧:畢業于謝菲爾德大學,2006年加入民生銀行,負責數據中心基礎設施的運營管理工作,十三年數據中心設計建設及運維管理經驗。Uptime認證的數據中心基礎設施運營專家(ATS)。
掃描以下二維碼加入學習群
總結
以上是生活随笔為你收集整理的民生银行马坡数据中心基础设施Uptime Mamp;O运营管理体系建立与实施的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 赛迪数据:2018年数据中心市场数据
- 下一篇: 防范数据中心火灾的7个方式