Proxmox VE 超融合集群不停服务更换硬盘操作实录
生活随笔
收集整理的這篇文章主要介紹了
Proxmox VE 超融合集群不停服务更换硬盘操作实录
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
情況描述
四節點組成的proxmox VE超融合集群,連續運行時間超過500天。每個節點除了系統盤而外,由四個單獨的2.4T 10000轉sas盤做ceph osd。
監控發現,其中一個節點的一塊硬盤處于down的狀態,嘗試修復未獲得成功,登錄系統,發現系統日志有大量的IO錯誤,由此判斷,一定是硬盤物理損壞。再通知機房,請值班技術幫忙,現場查看硬盤指示燈狀態,有一塊硬盤常亮紅燈,確認故障與判斷一致。
標題故障修復計劃
由于是在線系統,服務不允許停止,這是最基本的要求。非常幸運的是,proxmox VE去中心化超融合集群,在保證集群得以維持的情況下,可以關掉任意一臺或者多臺物理服務器(別的超融合平臺有控制節點,這個控制節點不能關)。
沒有停機擔憂以后,做出如下安排:
? 把有故障的物理機上正在運行的虛擬機,加入到ha中;
? 停機換硬盤;
? 系統識別硬盤;
? 創建osd;
? 回遷部分虛擬機到恢復好的物理節點。
標題故障修復實施
一切準備妥當之后,風高月黑之夜派人潛入機房,待命。按照計劃,進行如下的步驟:
wipefs -af /dev/sdc #sdc為新更換的磁盤設備名稱
ceph osd tree
7. 回遷部分虛擬機到恢復好物理節點。點鼠標就行,不再贅述。
總結
以上是生活随笔為你收集整理的Proxmox VE 超融合集群不停服务更换硬盘操作实录的全部內容,希望文章能夠幫你解決所遇到的問題。