Ceph 的数据回填和恢复
ceph在增加osd的時候會觸發backfill,讓數據得到平均,觸發數據的遷移
 ceph在移除osd的時候需要在節點上進行數據的恢復,也有數據的遷移和生成
只要是集群里面有數據的變動就會有網卡流量,cpu,內存等資源的占用,并且最重要的是還有磁盤的占用,這個客戶端也是需要對磁盤進行訪問的,當請求出現碰撞的時候,肯定會比正常的情況下要慢很多,而且還有可能因為資源方面的原因而引起機器down機等異常狀況的出現
主要引起的問題可能:
- 在peering的時候 block 了IO請求
- 在backfill的引起了slow requests
- 上面的兩個情況會引起客戶端的降速和出現soft lockup
這個在一般情況下會出現不同的需求:
這個需要根據自己可以掌控的程度來進行控制,首先環境的不同,影響不同,遷移數據量,網卡的帶寬都是重要的影響因素,從整體上可以根據自己的環境按照上面的三個要求中的一個進行控制
上面的三種情況:
 第一個慢點遷移不能出問題,這個處理方式比較簡單,直接將相關參數控制到最低的值,這個能保證業務的影響最低,但是帶來的影響就是遷移需要很久的時間,可能長達幾十個小時
第二個越快越好就是用默認的參數或者加大參數,然后觀察這個遷移過程中的資源的占用情況
第三個就是需要在自己的環境下進行多測試驗證這個參數,本篇主要就是根據思科的測試出來的參數進行分析
下面的參數是思科測試出來的值:
osd recovery max active = 3 (default : 15)
 osd recovery op priority = 3 (default : 10)
 osd max backfills = 1 (default : 10)
測試過程的數據圖
這個圖開始的時候我也沒太明白,后來多看下就理解了,實際上在很多情況下,一個因素的變化是會引起其他兩個因素的變化,而這兩個因素是一個正面的因素和一個負面的因素,而找到這個平衡值就是最優的情況,在這里的因素包括:
 max-backfill和max-recovery :遷移相關參數
 MTTR(mean time to recovery):失效恢復時間,也就是遷移完成
 Soft Lockup:前面虛擬機出現的soft lockup,也可以理解為對前端的影響
測試環境一致,都是 down 掉10%的osd進行恢復:
 在遷移參數最低的時候,沒有出現soft lockup ,也就是最低遷移參數的時候,影響最小,恢復使用了45分鐘
 隨著遷移相關參數調大的時候,遷移的時間的曲線是先降低,在到達一定的值后又開始增加(這個地方可能是遷移過大出現了前端io鎖住,然后影響了遷移速度)
 隨著遷移相關參數的調大,出現soft lockup的情況是增加的
從測試的曲線來看,在2-6之間是出現的最優值,也就是出現異常的情況概率最低,并且遷移速度最快,最終選擇了一組最優的值 :
osd recovery max active = 3 (default : 15)
 osd recovery op priority = 3 (default : 10)
 osd max backfills = 1 (default : 10)
這個值是思科的測試出來的值,這個值可以根據自己的需要進行取用,大概的情況是這樣
- 完全無法把控就把參數調整到最低
- 使用思科的推薦值
- 根據自己的環境測出自己環境的最優值
很多參數是別人根據自己的環境測試出來的,很多情況并不是通用的,得到別人測試的思路是最重要的,然后消化后自己根據自己的需要得出自己的值
總結
以上是生活随笔為你收集整理的Ceph 的数据回填和恢复的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 流媒体知识点
- 下一篇: Linux下axel多线程下载
