RAC集群故障恢复CRS-4047,CRS-4000
?
知識點:
RAC是real application clusters的縮寫,譯為“實時應用集群”,是高可用性的一種,也是Oracle數據庫支持網格計算環境的核心技術。
主要作用:
(1)多節點負載均衡;
(2)提供高可用:故障容錯和無縫切換功能,將硬件和軟件錯誤造成的影響最小化;
帶來好處的同時,RAC管理復雜,維護難度大。
本文涉及到幾個組件和進程介紹
OCR:用于存儲所有與集群,RAC數據庫相關的配置信息。
OHAS:集群高可用服務,并負責生成agent進程。
?
背景
操作系統:Red Hat 6.5
數據庫:? RAC集群雙節點(11.2.0.1)
由于受臺風“山竹“影響,服務器異常關機,集群服務無法啟動,業務中斷,棘手的問題是客戶沒有任何備份。
?
精簡后的操作過程:
節點1,集群狀態報錯
?
節點2
?
asm無法啟動
?
檢查crsd.log
?
?
發現ocr.loc和olr.loc全部丟失,這兩個文件非常重要,分別記錄了ocr和olr的位置
?
查看ocr沒有備份,正常情況下OCR每4小時自動備份一次
?
Ocr的備份也沒有,已經基本上無解了,只剩最后一招重建集群(風險操作)
重建集群過程:
rootcrs.pl? -verbose -deconfig -force
?
執行root.sh腳本
?
重建腳本的時候繼續報錯,這個報錯說明OHAS沒有起來
?
解決方法:
在執行root.sh腳本時出現Adding daemon to inittab的時候,在另一個窗口使用root執行以下命令:?
?
之后創建文件輸入以下命令,oracle-ohasd.conf必須創建,否則重啟系統后無法自動啟動OHAS
?
說明OHAS已經啟動
?
?集群重建之后,集群已經無法管理數據庫資源,報下面錯誤
??
需要把數據庫注冊到到集群,發現已經存在
?
需要執行如下命令刪掉serverpool再添加
?
已經成功把數據庫注冊到集群管理
?
查看集群狀態,已經正常。
?
至此恢復結束。能恢復成功是一種幸運,所幸硬件和存儲沒出問題。
?
轉載于:https://www.cnblogs.com/lysheng/p/9713650.html
總結
以上是生活随笔為你收集整理的RAC集群故障恢复CRS-4047,CRS-4000的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 非线性系统的线性化
- 下一篇: 温州商学院计算机二级office考试时间