一篇文章让你了解灾备指标:RPO与RTO
RTO 和 RPO 都是企業災難恢復(Disaster Recovery, DR)需要考慮的關鍵指標,這兩個指標可以用來指導企業來制定合適的業務系統服務或數據的恢復方案。
RPO(Recovery Point Objective):即數據恢復點目標,主要指的是業務系統所能容忍的數據丟失量。
如果以定期計劃的24小時增量備份全部或大部分數據,那么在最壞的情況下,企業將丟失24小時的數據。對于某些應用來說,這是可以接受的,對于其他應用來說并不是這樣。
例如:如果企業的應用程序具有4小時RPO,那么備份和數據丟失之間的間隔時間將為4小時。擁有4小時的RPO并不一定意味著企業將失去4小時的數據。
 例如:一個文字處理應用程序在午夜停止運行并在凌晨出現故障,那么可能沒有丟失太多(或任何)數據。但是如果一個任務繁忙的應用程序在上午10點關閉并且直到下午2點才恢復,那么企業可能會失去4個小時的高價值并且可能無法替代的數據。
 在這種情況下,需要進行更加頻繁的備份,以便訪問特定于應用程序的RPO。
取決于應用的優先級,單個RPO的范圍通常為24小時、12小時、8小時、4小時。以秒為單位測量到接近零。
 只要對生產系統的影響最小,8小時以上的RPO就可以利用現有的備份解決方案。
 4小時的RPO將需要計劃的快照復制,而接近零的RPO將需要連續復制。
 在RPO和RTO都接近于零的情況下,將連續復制與故障轉移服務結合使用,以實現接近100%的應用程序和數據可用性。
RTO(Recovery Time Objective):即恢復時間目標,主要指的是所能容忍的業務停止服務的最長時間,也就是從災難發生到業務系統恢復服務功能所需要的最短時間周期,此兩點之間的時間段稱為RTO。
RTO不僅僅是業務損失和恢復之間的持續時間。這個目標還包括IT部門必須采取的步驟來恢復應用程序及其數據。如果IT已經投入高優先級應用程序的故障轉移服務,那么它們可以在幾秒鐘內安全地表達RTO(IT部門必須恢復本地環境,但由于應用程序正在云中進行處理,因此IT部門可能需要一些時間)。
企業的RTO任務是根據優先級和潛在業務損失對應用程序進行分類,并相應地匹配企業的資源。
例如,接近零的RTO的典型計劃將需要故障轉移服務。4小時RTO允許從裸機恢復開始進行本地恢復,并以完整的應用程序和數據可用性結束。對于8小時以上的RTO,IT團隊可以與本地系統集成商簽署維護合同。
1.相同點與不同點
RTO 和 RPO 都是使用時間來度量。
- 對于 RTO 時間,是指災難發生到服務恢復的時間,這個時間也包含了數據恢復的時間。
 - 對于 RPO 時間,是指災難發生到數據上一次備份的時間。
 
雖然 RTO 和 RPO 都使用時間來度量,但是使用它們的目的卻不相同。
- RTO 關注于應用或系統的可用性,RTO 雖然包含數據恢復的時間,但更多地是描述應用停機的時間限制。
 - RPO 關注于數據的完整性,描述所能容忍的最大數據丟失限制。業務系統服務不可用會帶來經濟損失,但如果丟失的是客戶交易數據則導致的損失更是災難性的。
 
2.備份策略
在制定企業的容災計劃時,需要考慮 RTO 和 RPO 目標,然而 RTO 和 RPO 目標的成本存在差異。維護一個高要求的 RTO 目標的成本可能比 RPO 目標的成本要高,這是因為 RTO 涉及到整個業務基礎架構,而不僅僅是數據。
 要實現 RPO 目標,只需要以正確的時間間隔執行數據備份,數據備份可以很容易地自動化實現,因此自動化的 RPO 策略很容易實現。
 另一方面,由于 RTO 涉及恢復所有 IT 操作,因此完全自動化的 RTO 策略實現更復雜。
 RTO 和 RPO 對于制定容災計劃時都很重要,各個企業業務場景不同,這需要我們根據實際情況來選擇合適的 RTO 和 RPO 目標,以達到經濟效益的最大化。
3.備份場景實例
1.單一文件恢復:
 例如,一家公司員工意外刪除一個時間敏感的電子郵件,然后清空回收站和文件夾的內容。
 由于Microsoft Exchange是這家公司的業務關鍵型應用程序,因此IT部門不斷支持Exchange中的增量更改。而且由于他們的備份應用程序能夠進行精細的備份和恢復,他們可以在5分鐘的RTO內恢復單個文件,而不用為單個文件恢復整個虛擬機。
2.電子商務網站:
 例如,一家零售商店的自營電子商務網站使用三種不同的數據庫:
- 存儲產品目錄的關系數據庫
 - 報告歷史訂單數據的文檔數據庫
 - 以及連接到其支付處理器網關的API數據庫
 
文件數據庫可以重建來自其他數據庫的數據,因此其RTO和RPO是在24小時內。
 該業務每周只向關系數據庫添加一次產品,因此RPO并不重要。 其RTO是如果數據庫關閉,則客戶交易停止。
 為了保持高可用性,這家商店采用了故障轉移服務,因此數據庫立即在虛擬服務器上運行。該公司將其在一周內進行的少量更改復制到其提供商的災難恢復平臺。API數據庫包含訂購信息,并且需要幾秒鐘才能完成RPO和RTO。 IT部門不斷地將數據復制到故障轉移站點,如果API數據庫停機,該站點將立即接管處理。
總結
以上是生活随笔為你收集整理的一篇文章让你了解灾备指标:RPO与RTO的全部內容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: NVIDIA GPU 架构梳理
 - 下一篇: openstack 热迁移(Live M