OVH数据中心失火事件关于运维管理的思考
OVH是除亞馬遜、微軟、Google之外的全球體量最大的云服務商和托管服務商之一,歐洲最大的。在全球擁有27個數據中心,起火的區域總共有4個數據中心,發生起火的SBG2被完全燒毀,SBG1的建筑物部分受損。
火災發生后一直關注火災原因,第一反應是蓄電池,數據中心最易燃的部分,雖然目前還沒有正式的官方公告,但是各方面的情況基本指向了UPS及蓄電池。
細節1:發生的前一天,現場剛對7號UPS進行了維護,起火是7號和8號UPS。
細節2:OVH的工作人員在晚上23點42分響應火災警報,但數據中心受影響的部分已經煙霧彌漫,火災預警系統滯后嚴重,疑似故障或者靈敏度問題。
教訓和啟示:
1、本次火情,疑似部分客戶設備主用、災備服務器在一個機房樓或者主備云服務器在一個機房樓,導致約360萬網站出現故障, 約1.5萬名客戶的資料可能受到影響,部分客戶數據完全丟失且無法恢復。
啟示:現有大部分數據中心都是T3及以上級別,供電、網絡等基礎都有保障,但是客戶在實際上架時,會存在部分設備采用單電源、單光纖接入等情況,單路的斷電、單光纖中斷都會對業務造成影響,此部分在上架時一定要提前告知客戶,盡量整改。
2、事件中有提到火災煙霧已經很大后,火災報警才起作用,疑似系統故障或者靈敏度不夠。
啟示:現有數據中心,基本都會在正常煙溫感報警系統的基礎上,安裝極早期預警系統,電池室等還會安裝氫氣、硫化物等專項檢測探頭。但是部分數據中心缺乏對這些檢測器靈敏度和準確性的校驗,甚至長期不校驗,延誤火情的發現。
3、OVH故障疑似也是UPS、蓄電池引起
啟示:數據中心火災中蓄電池原因占比很高,而且起火快,一方面要針對蓄電池、儲油箱等要定期完善針對性的防火預案,另一方面要針對夜間場景,組織消控和相關專業做好定期的聯合演練,確保現場每個人第一時間知道應該做什么。
4、疑似前一天剛做過UPS系統的檢修?
啟示:所有系統,在做更換、割接、改造之后務必要做相關測試和一段時間的觀察,這也是容易被基層忽略的一方面。
5、火災發生時間在夜里23點30分左右,也是人比較疲憊的時間段
啟示:火災是突發的,各崗位務必保持好敏感度,確保第一時間發現、第一時間處理。管理人員要做好檢查和抽查工作,特別是周末和夜間。
6、據了解,OVH的IT設備上架和部分巡檢已經智能化。
啟示:人在日常維護和巡檢中是極其重要的,雖然數據中心都在大力推進智能化、無人化,但是人的作用不應該被忽略。一些潛在的隱患,設備是無法檢測的,比如氣味的變化等。
7、要加強預火災源頭的控制
啟示:我們在人員進場時,特別是對外來施工、調測人員,安保務必要加強園區禁煙的告知、安檢要加強對打火機等隱患物品的檢查,要加大對火災源頭的管控。
華為、OVH都是國際知名企業,制度和管理都很完善,但是松山湖實驗基地、OVH數據中心也會因為各種原因產生火情,而一般數據中心企業與他們相比在管理上還有差別,所以關于安全生產工作我們如何重視都不為過。
?
資料免費送(點擊鏈接下載)
史上最全,數據中心機房標準及規范匯總(下載)數據中心運維管理 | 資料匯總(2017.7.2版本)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
加入運維管理VIP群(點擊鏈接查看)
《數據中心運維管理》VIP技術交流群會員招募說明
掃描以下二維碼加入學習群
總結
以上是生活随笔為你收集整理的OVH数据中心失火事件关于运维管理的思考的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 欧洲顶级云数据中心着火,损失惨重!筑牢数
- 下一篇: 十张图了解2021年中国数据中心产业链投