NetApp FAS2554故障灯常亮case处理过程分享
近期處理了一個NetApp FAS2554前面故障燈一直點亮的case,本文對于分析過程和最終的問題發(fā)現(xiàn)做一個分享,歡迎討論,可以add wechat at StorageExpert。
外觀檢查:
客戶反饋,一套FAS2554存儲,沒有任何擴(kuò)展柜,前面板的故障燈近期一直是亮的,但沒有其他任何故障燈,核對檢查了控制器的故障燈,都是熄滅正常的。
客戶做過的嘗試:
某些所謂專業(yè)人員已經(jīng)對這個存儲做了故障分析,結(jié)論是需要重啟控制器,然后控制器也重啟了,但是故障依舊存在。至于為什么要重啟控制器,就不知道了?;旧暇褪侵貑⒋蠓?。
下面是我們的分析過程:
1. 檢查兩個控制器的message文件
對兩個控制器近期的messages文件做了詳細(xì)的檢查,沒有發(fā)現(xiàn)任何和硬件有關(guān)的報錯。
2. 系統(tǒng)檢查
檢查了system health的情況,發(fā)現(xiàn)一個控制器是degraded
再仔細(xì)檢查,發(fā)現(xiàn)是SP的網(wǎng)絡(luò)沒有接,這個問題不大,不是導(dǎo)致整個控制器亮燈的原因。
?檢查fru 的LED故障燈情況,兩個控制器全都是off
檢查DIMM的ECC報錯,也正常。
檢查sensor和environment 情況,所有都正常
?
?檢查storage fault的情況,發(fā)現(xiàn)如下的異常點。
四個電源模塊的狀態(tài)都是OK,但是status描述有三個顯示 DC under VOLTAGE,這是不正常的。另外整個enclosure 的狀態(tài)顯示為FAIL。?
3. sp檢查
檢查sp的狀態(tài),工作正常,但兩個控制器的版本有差異,一個是 2.2.3, 另外一個是 2.2.4。
初步分析結(jié)論
到此,我們可以初步得出結(jié)論,導(dǎo)致FAS2554系統(tǒng)控制器故障燈點亮的原因在于四個電源模塊的不正常的矛盾狀態(tài),但什么原因?qū)е鲁霈F(xiàn)四個電源模塊的status都顯示DC under voltage呢?初步判斷是2個sp的版本不同,低版本2.2.3的可能有bug,沒有準(zhǔn)確的讀到電源的狀態(tài)信息。
行動計劃
基于上面的判斷,計劃如下:
1. 升級其中一個控制器的SP firmware版本到 2.2.4
2. 如果升級完成后,故障依然存在,就對有問題的電源模塊依次做插拔動作。
執(zhí)行情況
按照上面的計劃,我們首先升級了SP的版本,但升級后我問題依舊,說明這個不是SP的bug導(dǎo)致。開始執(zhí)行第二個計劃,對電源模塊做插拔動作,這個時候悲劇發(fā)生了,插拔了其中一個電源,30秒內(nèi)又插了回去,但是系統(tǒng)console上馬上給出提示:
[FAS2554-02:monitor.fan.critical:EMERGENCY]: 2 fans have failed. Replace them to avoid overheating. If not corrected, system will shutdown in 2 minutes.
然后緊接著給出提示,multiple fan failed, system will shutdown immediately.?
兩個控制器都shudown了。
進(jìn)一步處理和分析
由于系統(tǒng)自己shutdown了系統(tǒng),ontap是不會做failover之類的,兩個控制器都關(guān)機(jī)了。通過插拔控制器讓兩個控制器重新啟動恢復(fù)業(yè)務(wù)。進(jìn)一步分析問題,解決問題的思路開始轉(zhuǎn)移到bug方面。果然,找到了相關(guān)的一模一樣的bug說明。
845945 - Fault LED stays lit after DC under-voltage event
網(wǎng)站連接??NetApp Support Site
bug的具體說明:
After a DC under-voltage event, the storage shelf OPS panel fault LED?remains lit, and incorrect EMS messages continue to be generated, even?after the voltage returns to correct levels.
影響的版本:
8.0.2P4, 8.1.2, 8.1.3, 8.1.4P2, 8.1.4P4, 8.1.4P8, 8.2.1, 8.2.1P1, 8.2.1P2,?8.2.1P3, 8.2.2, 8.2.2P1, 8.2.2P2, 8.2.3, 8.2.3P1, 8.2.3P2, 8.2.3P3, 8.2.3P4,8.2.3P5, 8.2.3P6, 8.2P3, 8.2P5, 8.3, 8.3P1,? 8.3P2
客戶的版本非常完美的命中了這個bug。
當(dāng)然,解決這個問題,最徹底的辦法就是升級ONTAP版本。如果不想升級,也有workaround的辦法,
Remove and reinsert the power supply unit (PSU) that experienced the?under-voltage event. To identify the PSU you need to operate on, use the?"storage show fault -v" command (available in the nodeshell for clustered?Data ONTAP) and look under the Power Supplies: Element Status section.?E.g. Power Supplies: Element Status Status Bytes Status Descriptions 1:?OK 01,00,04,A0 DC UNDER VOLTAGE, RQSTED ON 2: OK 01,00,00,A0?RQSTED ON
其實就是我們之前做的對有影響的電源做插拔動作。但不幸的是我們又命中了sp的一個bug,sp沒有及時識別到電源又插了回去,依然認(rèn)為多個fan有故障,直接shutdown了機(jī)器。
好了,不寫了,都是淚,前后折騰了半天,還把機(jī)器搞掛了。
總結(jié)
以上是生活随笔為你收集整理的NetApp FAS2554故障灯常亮case处理过程分享的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 科技企业怎么留住人才
- 下一篇: python pynput 按两下耳机播