VSAN集群关机重启流程
VSAN集群關(guān)機(jī)重啟流程
最近對(duì)一家用戶實(shí)施搬遷機(jī)房,數(shù)據(jù)中心核心業(yè)務(wù)運(yùn)行在VSAN中,vCenter的版本是7.0.3.00100,ESXi的版本是6.5.0.8294253
簡(jiǎn)單的就是一個(gè)7.0VC管理4臺(tái)6.5ESXI的VSAN,搬遷機(jī)房需要關(guān)機(jī)和重啟~
以前在公司做實(shí)驗(yàn)都是直接拔電沒(méi)有進(jìn)維護(hù)模式~~有過(guò)VSAN崩潰的經(jīng)歷,也有過(guò)進(jìn)入維護(hù)模式關(guān)機(jī)第二天來(lái)VC虛擬機(jī)名字成亂碼了的經(jīng)歷~
所以這次打算查VMware官網(wǎng)文檔來(lái)操作關(guān)閉和重啟VSAN~正路子
可以直接查看按照VMware鏈接來(lái)操作:
官網(wǎng)中提到 vSAN 7.0 Update 3 及更高版本可以直接提供關(guān)閉集群向?qū)?#xff0c;我對(duì)于文中的VSAN7.0U3概念很模糊!是vCenter的版本呢?還是要求的ESXi版本呢?
我個(gè)人認(rèn)為是vCenter的版本更合理,我立即查看用戶的vCenter中是否有這個(gè)功能~
右鍵集群–>VSAN–>僅有上載支持包一個(gè)功能;又在集群配置中的VSAN查看–>僅有一個(gè)關(guān)閉VSAN的功能(和關(guān)閉集群不是一個(gè)類型)
隨即,我登錄了另一個(gè)客戶,VC版本7.0.3.00700,找到一個(gè)VSAN集群看看是否有關(guān)閉集群功能–>有此功能;配置里面的VSAN也有這個(gè)選項(xiàng)
嘗試點(diǎn)一下–>會(huì)有個(gè)關(guān)機(jī)預(yù)檢查,都關(guān)機(jī)了估計(jì)就可以下一步了,這里不做更多敘述了,詳細(xì)看官方文檔
重新啟動(dòng)VSAN集群:打開(kāi)服務(wù)器電源–>等VC起來(lái)(我理解的意思是VC會(huì)自啟動(dòng)不需要登錄ESXI打開(kāi)電源)–>右鍵集群重新啟動(dòng)集群
要干活的地方不能自動(dòng)了,只能手動(dòng)了!
先關(guān)閉VSAN集群
- 詢問(wèn)是否有關(guān)聯(lián)vCenter的或者主機(jī)的任務(wù)正在進(jìn)行~比如備份任務(wù)正在做快照等,要先都確認(rèn)關(guān)閉
- 檢查 vSAN 運(yùn)行狀況服務(wù)以確認(rèn)集群處于正常運(yùn)行狀態(tài)。(用skyline檢查一下,我這里提示兩個(gè)告警,一個(gè)是磁盤存儲(chǔ)空間告警,一個(gè)是假設(shè)主機(jī)失敗告警,其實(shí)都是存儲(chǔ)空間不足的問(wèn)題,跟關(guān)機(jī)沒(méi)關(guān)系),
- 檢查集群—>監(jiān)控—>VSAN—>重新同步對(duì)象,確保當(dāng)前沒(méi)有重新同步任何 vSAN 組件
- 檢查集群—>監(jiān)控—>VSAN—>虛擬對(duì)象,如果有單副本的虛擬機(jī)建議先改成雙副本,有過(guò)一次系統(tǒng)故障,重建系統(tǒng)后單副本的虛擬機(jī)變成了不可訪問(wèn)對(duì)象,數(shù)據(jù)找不回來(lái)了
- 如果 vSAN 集群中未托管 vCenter Server,請(qǐng)關(guān)閉該集群中運(yùn)行的所有虛擬機(jī)的電源。如果 vSAN 集群中托管 vCenter Server,請(qǐng)勿關(guān)閉 vCenter Server 虛擬機(jī)的電源。(我這里是vCenter托管在VSAN里面的,除了VC都關(guān)機(jī))
- 單擊配置選項(xiàng)卡,然后關(guān)閉 HA和DRS。因此,集群不會(huì)將主機(jī)關(guān)機(jī)事件登記為故障。(關(guān)閉HA還是要得,要不可能會(huì)因?yàn)榉?wù)器關(guān)的滿了亂糟糟的,重啟后虛擬機(jī)都到一個(gè)服務(wù)器上了)
- 對(duì)于 vSphere 7.0 U1 和更高版本,請(qǐng)啟用 vCLS 撤回模式。有關(guān)詳細(xì)信息,請(qǐng)參見(jiàn)相應(yīng)的 VMware 知識(shí)庫(kù)文章。(突然想起來(lái)以前考VMware證書時(shí)候有一題是關(guān)VSAN前要做的操作,選項(xiàng)里面有vCLS撤回,使用config.vcls.clusters.domain-c<number>.enabled,值先填False,就可以看到vCenter任務(wù)里面刪除虛擬機(jī))
- 登錄四臺(tái)SSH確保沒(méi)問(wèn)題,關(guān)機(jī)vCenter
- 四臺(tái)服務(wù)器登錄SSHesxcli system maintenanceMode set -e true -m noAction(不遷移虛擬機(jī)和不遷移數(shù)據(jù),要是單臺(tái)維護(hù)才選數(shù)據(jù)可訪問(wèn))
- 然后四臺(tái)服務(wù)器poweroff全部關(guān)機(jī)(全部進(jìn)入維護(hù)模式以后看到虛擬機(jī)變成未知等狀態(tài)不要緊)
開(kāi)啟VSAN集群
- 等交換機(jī)都正常起來(lái)了再打開(kāi)四臺(tái)服務(wù)器電源
- web頁(yè)面登錄四臺(tái)服務(wù)器,選擇退出維護(hù)模式(SSH也可以esxcli system maintenanceMode set -e false)
- 找到開(kāi)啟vCenter虛擬機(jī)(都退出維護(hù)后不要著急,一會(huì)就能看到虛擬機(jī)都提示正常了)
- 通過(guò)skyline健康檢查確認(rèn)vSAN狀態(tài)
- 找到config.vcls.clusters.domain-c<number>.enabled的值改為True(看到新建了vCLS虛擬機(jī))
- 開(kāi)機(jī)其他虛擬機(jī)(不要大批量的開(kāi)機(jī),小心開(kāi)機(jī)風(fēng)暴,慢慢來(lái))
- 打開(kāi)HA和DRS(確保任務(wù)完成再下一項(xiàng)任務(wù))
如果出現(xiàn)不可用查看VMware文檔
同時(shí)重新引導(dǎo)或關(guān)閉 vSAN 群集中的所有主機(jī)可能會(huì)導(dǎo)致在一次故障后出現(xiàn)數(shù)據(jù)不可用的情況 (60424)
在 vSAN 集群中執(zhí)行集群級(jí)別維護(hù)時(shí),如果使用“無(wú)操作維護(hù)模式”功能并隨后重新引導(dǎo),若集群?jiǎn)?dòng)期間出現(xiàn)故障或主機(jī)進(jìn)入 vSAN 取消配置狀態(tài),可能會(huì)導(dǎo)致數(shù)據(jù)在維護(hù)后不可用。
備注:
維護(hù)模式選項(xiàng)“無(wú)操作”是指:6.7, 6.0: “無(wú)數(shù)據(jù)遷移”,6.5:“無(wú)數(shù)據(jù)撤出”
問(wèn)題/故障示例:
- 磁盤故障
- 任何其他硬件問(wèn)題
- 由于網(wǎng)絡(luò)問(wèn)題等情況導(dǎo)致主機(jī)無(wú)法加入集群
在以下情況下,不存在問(wèn)題:
- 使用“無(wú)操作”以外的任何其他維護(hù)模式
- 通過(guò)執(zhí)行“滾動(dòng)重新引導(dǎo)”重新引導(dǎo) vSAN 主機(jī)(將 vSAN 主機(jī)置于維護(hù)模式后)
注意:
在通過(guò)這種方式進(jìn)行集群范圍的維護(hù)之前,應(yīng)正常關(guān)閉所有虛擬機(jī)的電源,包括 vCenter Server。
如果 vCenter Server 在 vSAN 集群外運(yùn)行,且無(wú)法關(guān)閉電源,則請(qǐng)禁用 vSphere HA 并針對(duì) vSAN 集群將 vSphere DRS 設(shè)置為手動(dòng)。
我理解的意思是不撤出數(shù)據(jù)一定要關(guān)閉所有的虛擬機(jī)包括vCenter,曾經(jīng)有一次是在vCenter開(kāi)機(jī)情況下挨個(gè)主機(jī)進(jìn)入維護(hù)模式最后再關(guān)閉vCenter再維護(hù)最后一臺(tái)服務(wù)器導(dǎo)致了重啟后vCenter虛擬機(jī)崩了變成了不可用狀態(tài)!
總結(jié)
以上是生活随笔為你收集整理的VSAN集群关机重启流程的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: python中用py2exe打包可执行文
- 下一篇: DR. TRADELOVE 或我如何不再