数据中心实现高效运维的秘诀
隨著2017年中國“量子衛(wèi)星”“量子計算機”等重大科研技術(shù)的突破,2018年云計算進入2.0的飛速發(fā)展時代,智慧城市信息化建設(shè)、應(yīng)用數(shù)據(jù)量的井噴,使數(shù)據(jù)中心基礎(chǔ)設(shè)施的迅速落地建設(shè)、為用戶提供高效節(jié)能的云設(shè)施服務(wù)。數(shù)據(jù)中心運維管理工作作為數(shù)據(jù)中心持續(xù)運行重點保障任務(wù),其工作范疇涉及多門學(xué)科,需要合理的運維體系和具有創(chuàng)新性、愛專研的運維團隊來為后續(xù)運維工作奠定基礎(chǔ)。
?
同時,云計算2.0高密度虛擬化架構(gòu)化,越來越依賴于基礎(chǔ)設(shè)施的支撐,對數(shù)據(jù)中基礎(chǔ)設(shè)施的可靠性、持續(xù)性、大功率、時效性、模塊化、自動化等提出了更高的挑戰(zhàn)性,數(shù)據(jù)中心需要實現(xiàn)高效運維。那么如何實現(xiàn)?
?
首先,我們要明確數(shù)據(jù)中心運維管理對象。
?
數(shù)據(jù)中心運維對象包含了機房基礎(chǔ)設(shè)施、IT設(shè)備、系統(tǒng)和數(shù)據(jù)、運維管理工具、運維人員等。
?
其次,我們要設(shè)立有效管理的目標(biāo)。
?
數(shù)據(jù)中心運維管理過程是數(shù)據(jù)中心全生命周期中最后一個階段,也是歷時最長的一個階段,數(shù)據(jù)中心運維管理也是依托于已交付的數(shù)據(jù)中心基礎(chǔ)設(shè)施之上。通過有效的管理,最終使數(shù)據(jù)中心得以實現(xiàn)服務(wù)與經(jīng)濟上的目標(biāo),實現(xiàn)運維管理的持續(xù)性、時效性、標(biāo)準(zhǔn)性、安全性和可用性5大目標(biāo)。 ???
?
然后,我們要明確運維團隊的工作職責(zé)與需要掌握的技能。
?
由于數(shù)據(jù)中心的持續(xù)性特性,需要由7*24小時運維人員進行技術(shù)支持運維服務(wù),運維團隊主要職責(zé)是持續(xù)保障數(shù)據(jù)中心運行相關(guān)的基礎(chǔ)設(shè)施系統(tǒng)設(shè)備穩(wěn)定連續(xù)運行,并掌握數(shù)據(jù)中心各類設(shè)備的工作原理、操作方法、初步故障排查診斷的技能。
?
因此,組建一支高綜合水平的運維團隊是做好數(shù)據(jù)中心運維管理工作的根本,運維團隊的建設(shè)就會變成運維管理工作中非常重要的一項工作內(nèi)容。
?
下面我們重點講述運維團隊的建設(shè):
?
運維措施
“人”
數(shù)據(jù)中心高精度設(shè)備、復(fù)雜的系統(tǒng)對運維人員技術(shù)提出了新的要求,需要人員必須掌握專業(yè)所需的技能,周期性對運維人員的日常工作規(guī)范化運維操作、應(yīng)急響應(yīng)、故障排查進行開展技術(shù)培訓(xùn)和演練,通過演練總結(jié)經(jīng)驗,完善、運維指標(biāo)、運維技術(shù)標(biāo)準(zhǔn)、應(yīng)急流程,提高團隊綜合應(yīng)急響應(yīng)能力。
?
“體系”
?
根據(jù)ISO9000質(zhì)量管理體系標(biāo)準(zhǔn),建立設(shè)施運行、系統(tǒng)巡查、數(shù)據(jù)采集、指標(biāo)測試標(biāo)準(zhǔn)化等標(biāo)準(zhǔn)化記錄表單、完善設(shè)備運行管理、使運維質(zhì)量管理制度化、體系化,提高運維品質(zhì),定期對運行管理制度進行經(jīng)驗總結(jié),修正歸檔、統(tǒng)一發(fā)布的流程標(biāo)準(zhǔn)管理方法。
運維體系是運維的基石,根據(jù)ISO2000 IT服務(wù)管理體系建立數(shù)據(jù)中心ITSM(IT Service Management)IT服務(wù)管理流程,對各設(shè)備、系統(tǒng)操作流程、應(yīng)急響應(yīng)流程進行設(shè)計、建設(shè),通過對運維體系的建設(shè)、提高IT運維服務(wù)質(zhì)量,降低設(shè)施事件發(fā)生的頻率和影響,對運維成員流程文件輸入、輸出的理論培訓(xùn)、實操培訓(xùn),使流程不“固化”,流程更清晰、責(zé)任分工更明確,考核量化,文檔規(guī)范化等。??
?
“制度”
?
依據(jù)運維體系和指標(biāo)對運維人員的工作行為和取到的工作成績進行評估,并運用評估結(jié)果為運維人員后續(xù)的工作和工作成績進行正面的引導(dǎo)。重點對人員的指標(biāo)完成度、創(chuàng)新性進行觀察、挖掘引導(dǎo)潛在的運維潛力。在運維工作方面主要體現(xiàn)在運維保障上,確保服務(wù)的可用性、安全性和服務(wù)體系流程的標(biāo)準(zhǔn)化實施。通過周度、月度報表內(nèi)維護量、故障量等數(shù)據(jù)進行工作量、工作效率進行評估。
?
“預(yù)警”
?
數(shù)據(jù)中心監(jiān)控系統(tǒng)是現(xiàn)代信息化數(shù)據(jù)中心運行監(jiān)控指揮控制中心平臺,通過數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)存儲、數(shù)據(jù)展示、數(shù)據(jù)預(yù)警的方式進行對現(xiàn)場環(huán)境設(shè)備、網(wǎng)絡(luò)、溫濕度、電量、開關(guān)、設(shè)備運行狀態(tài)、壓力、能源信息進行集中化實施展示分析。根據(jù)容量計算算法對機柜配電容量、冷卻容量、裝機量進行預(yù)警、評估、擴容優(yōu)化。通過平臺數(shù)據(jù)接口二次開發(fā)將預(yù)警數(shù)據(jù)進行實施傳輸?shù)竭\維人員工作通訊群等平臺,實現(xiàn)了運行數(shù)據(jù)信息共享化、預(yù)警信息實時化。讓溝通簡單化、避免“信息孤島”等低效率現(xiàn)象,降低溝通成本、提高溝通效率的成果。
?
“測試”
?
數(shù)據(jù)中心系統(tǒng)測試是運維工作中至關(guān)重要的環(huán)節(jié)。系統(tǒng)測試驗證是測試數(shù)據(jù)中心系統(tǒng)設(shè)計、安裝、功能、調(diào)試是否與設(shè)計意圖相符合的一個重要過程,是設(shè)施獲得良好功能和可靠性運行過程中的重要組成部分,一個好的測試驗證不應(yīng)僅滿足“測試”相關(guān)的設(shè)備功能指標(biāo),更重要的是“驗證”系統(tǒng)是否可以滿足運行階段的要求。
?
運維人員也應(yīng)利用測試驗證的過程熟悉在管理設(shè)備的狀態(tài)和運行指標(biāo),驗證設(shè)備操作標(biāo)準(zhǔn)流程的可操作性,提高實際過程中操作和應(yīng)對突發(fā)事件的運維經(jīng)驗。
?
“容量管理”
?
隨著數(shù)據(jù)中心各式各樣的非標(biāo)用戶的進入,通過專業(yè)知識及運維管理經(jīng)驗對客戶提出的非標(biāo)改造需求、對方案進行容量分析計算、布局規(guī)劃、改造實施、功能測試、驗收交付的過程,針對容量管理計算使用流體動力學(xué)CFD技術(shù)進行熱仿真分析、對機柜進行合理布局、氣流組織改善、機柜裝機量分析驗證。
?
對機房客戶改造項目通過使用BIM技術(shù)進行布局,BIM是在項目全生命周期內(nèi),使用富含信息的三維模型作業(yè)中心數(shù)據(jù)庫,在項目相關(guān)干系人之間共同進行創(chuàng)建、檢查和溝通協(xié)調(diào)項目信息的一個過程。
?
BIM過程管理是一次對于傳統(tǒng)的項目工作流線性模式的大轉(zhuǎn)型。BIM的項目生命全周期鼓勵項目團隊全體成員在全生命周期內(nèi)進行合作,BIM還提供了信息丟失時候、無縫溝通的平臺,使項目團隊能夠在早期進行重大決策,提高生產(chǎn)率、提高項目質(zhì)量和進行持續(xù)性建設(shè)大道重要方向。
“運維管理”
?
通過不停的學(xué)習(xí)有效的管理思路,運維團隊建立即時通訊溝通平臺,在工作中實施,“走動式管理“、“PDCA”(即計劃(plan)、執(zhí)行(do)、檢查(check)、調(diào)整(Action)),定期帶著問題對現(xiàn)場進行巡視、發(fā)現(xiàn)問題糾正問題和了解現(xiàn)場存在的問題和不完善的細節(jié)等問題,定期與員工進行交流,鼓勵大家對工作提出好的建議,在即時通訊平臺進行及時溝通,最大程度做到專人負(fù)責(zé)責(zé)任制,跟進問題的整改檢查和后續(xù)的持續(xù)完善的循環(huán)管理方法,減少“報喜不報憂”的不良現(xiàn)象。
運維計劃
通過運維“三控、三管、一協(xié)調(diào)”措施對運維工作的運維成本、運維品質(zhì)、運維效率進行目標(biāo)控制,對運維安全、代維服務(wù)商、信息進行管理,對運維各技術(shù)小組運維工作的協(xié)作協(xié)調(diào)。加強對團隊各小組人員安全培訓(xùn)、技術(shù)實施培訓(xùn),技術(shù)文件的規(guī)范化、周期性的演練、團隊建設(shè)。
資料免費送(點擊鏈接下載)
史上最全,數(shù)據(jù)中心機房標(biāo)準(zhǔn)及規(guī)范匯總(下載)
數(shù)據(jù)中心運維管理 | 資料匯總(2017.7.2版本)
加入運維管理VIP群(點擊鏈接查看)
《數(shù)據(jù)中心運維管理》VIP技術(shù)交流群會員招募說
加入學(xué)習(xí)群掃描以下二維碼或者添加微信:wang2017bj
總結(jié)
以上是生活随笔為你收集整理的数据中心实现高效运维的秘诀的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。