IBM-kmeans-坏盘预测
換盤預測
論文:《Predicting Disk Replacement towards Reliable Data Centers》
作者:Mirela Botezatu,IBM蘇黎世研究院
?
1.介紹
目標:
1)找到對換盤事件最相關的SMART屬性。
2)用這些屬性構建統計模型,自動預測下一次換盤事件。
?
方法:
1)時間序列的變化點偵測,識別相關SMART屬性。
2)把事件序列轉換成樣本集合,通過把多個事件編碼成單獨的數據點,從而得到壓縮過,但是有價值的特征。
3)構建預測分類模型
4)用遷移學習方法
?
問題:
1)不同廠商的SMART屬性不同,需要為廠商單獨建立模型。
2)磁盤數據不均衡,只有2%需要更換。
?
2.預測換盤
算法1 磁盤更換預測算法
輸入:SMART屬性時間序列,加上換盤信息
1. 找到指示換盤的SMART屬性子集,通過在時間序列中識別顯著變化點。
2. 對步驟1得到的每個相關序列,通過指數平滑,得到高度信息的壓縮表示。
3. 通過K-means聚類,進行downsampling,來處理類別間不均衡問題。
4. 用步驟3的訓練數據訓練一個分類模型
輸出:用小規模SMART屬性可以預測換盤事件的預測模型。
?
2.1.選擇相關SMART屬性
表示目標SMART屬性的時間序列,包含p個時間點的數據,p是最近時間點。
用【7】的方法偵測中的顯著變化時間點t。總結而言,
?
使得:
?
這里的:
?
?
下一步,驗證這個變化是不是永久性的,看如下兩個時間序列的差異是不是顯著:一個是現有的SMART屬性序列,另一個是相同屬性序列,但是去掉觀察到的t時刻的顯著變化。具體步驟如下:
?
第一步,令時間序列
?
表示觀察到的中從t到p的子序列。P時間點表示換盤時間點。
?
第二步,生成一個合成時間序列
?
除去了t時刻的顯著變化點。更確切說,我們用貝葉斯結構時間序列模型計算的后驗分布,
?
給定t時刻前的未變化序列,以及控制時間序列。控制時間序列是從健康磁盤采樣得到的時間序列。
?
最后,目標SMART屬性的確是換盤指示屬性,如果變化點后面的實際時間序列的概率分布,與從健康磁盤生成的合成序列的分布顯著不同。通過假設檢驗來估計這種區別。
?
形式化的,令和是從未知分布P和Q分別生成的。假設檢驗下述:
?
?
我們檢查我們是否可以拋棄零假設。
2.2.壓縮時間序列表示
1)按天的觀察還不夠,我們需要考慮更長的時間窗口。因為磁盤內部有恢復機制,造成單獨一天的記錄不夠穩定。
2)如果我們考慮到磁盤生命周期的最后一天,模型不能提前預測。
?
我們用滑動窗口,把原始數據集合劃分成小節。在時間窗口上用指數平滑,變成一個值。
?
?
上述公式中,作為時刻t平滑值,基于t時刻的觀測值,和t-1時刻的平滑值。當把窗口寬度擴展為k,成為一定數量的直到的過去觀測值的加權和。K越小,平滑效果差,但是對新的變化更敏感。參數控制老觀測值衰減的速度。
?
對每個SMART屬性,時間窗口寬度是2.1步驟中顯著變化的事件區間分布的中值。
?
2.3.通過降采樣來平衡類別
大量的盤是好盤,因此訓練集是不均衡的。
解決方案是用健康磁盤的代表性子集。
用K-mean聚類算法【15】,把觀察到的健康磁盤數據劃分成k個聚類。
每一個聚類中,選擇離聚類中心最近的數據點,作為代表性數據。
最后,我們生成一個平衡的訓練集,通過選擇k與壞盤樣本數接近即可。
2.4. 分類算法
訓練數據集:
?
,表示多變量時序觀察信息,在時間點和之間。
y是二值響應變量,
要學習一個函數
可以最小化損失函數
?
選擇的算法是RGF【14】。比GBDT【21】和隨機森林【6】,以及SVM【8】,邏輯回歸【9】的精確性更好。
- RGF引入一個明確的正則化項:
?
?
- RGF引入fully-corrective貪婪算法,迭代修改當前獲得的所有葉子節點(決策規則)的權重,同時通過貪婪搜索法向森林里增加新規則。這里,一個明確的正則項加到里面,防止過擬合。
- RGF利用結構化稀疏來直接執行貪婪搜索。
?
算法2 正則化貪婪森林框架
?
While 停止標準不滿足 do:
修改權重,調整森林結構s
計算
If 某種條件匹配命中 then:
修正結構,改變F中的權重,使得,Q(F)中的loss最小化。
End if
End While
優化F中的葉子權重,來最小化Q(F)中的loss
Return
結束
?
F表示一個森林
F中的每個節點v關聯一個元組
表示節點v的basis函數
表示節點v的權重
模型F定義為
對于v的內部節點,有
?
公式(4)的正則損失是F的一個函數:
?
S(F)表示F的所有結構改變操作(如,節點分割,或者增加一個新樹)
?
2.5. 遷移學習
用某個特定磁盤訓練的模型,遷移到同廠商的新磁盤模型上。
?
算法3:不同模型間的遷移學習
輸入:
從磁盤模型1搜集到的標記數據
從磁盤模型2搜集到的未標記數據
?
過程:
用來學習一個函數,f(x)表示一塊磁盤屬于“”或“”的概率。
根據f,從采樣一個子集
用來學習一個函數,g是算法2,g(x)表示一個類型的磁盤需要更換的概率。
?
輸出:
磁盤模型2的更換預測模型。
?
算法背后的想法是,訓練一個分類器,可以rank相似性,介于,連接到一個特定磁盤模型的觀測結果,以及預訓練的目標磁盤模型的觀察結果。
?
3. 評估
3.1.模型描述和實驗建立
數據集是Backblaze數據集:https://www.backblaze.com/hard-drive-test-data.html
包含了50984塊磁盤,27個月(2013年4月到2015年6月)的觀察數據,以天為粒度。
數據格式:
(1)時間戳
(2)磁盤序列號
(3)磁盤模型
(4)磁盤容量
(5)失效 健康0,換盤1
(6)SMART統計數據
?
從磁盤模型,可以提取廠商,我們的分析基于Hitachi和Seagate兩個廠商。
同時也除去了一些數據,最終數據從2014年1月到2016年6月,共17個月。
?
構建的磁盤模型
SgtA Seagate ST4000DM000
HitA Hitachi HDS22020ALA330
然后,我們評估遷移學習效果:
從SgtA到SgtB ST31500541AS
從HitA到HitB HDS5C3030ALA630
?
表一是數據信息:
?
?
?
3.2. SMART屬性選擇
每個SMART指示器有兩個值:原始值,和正則化值。
原始值表示技術,或者物理計量值(溫度、毫秒數等)
正則化值是廠商特定的映射。
?
?
圖2圖示了SMART_187_raw的時間序列,SgtA磁盤,80天。
我們對希捷和日立磁盤分布做了變化點分析,結果見表2。每個參數,我們報告了磁盤數的百分比,觀察到了相關。
?
?
?
3.3. 數據壓縮
圖4展示了,當6個變化點觀察到了之后,換盤天數的分布
read error rate,
the number of reallocated sectors,
the number of pending sectors,
the reported uncorrectable errors,
the seek error count
the transfer error rate
我們用這些中值來做事件序列窗口。
?
?
?
?
?
?
?
?
?
?
?
4. 部署
?
5. 相關工作
總結
以上是生活随笔為你收集整理的IBM-kmeans-坏盘预测的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 华为m40怎么升级鸿蒙,华为再亮剑,这四
- 下一篇: WSL安装桌面