當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

IBM-kmeans-坏盘预测

發布時間：2024/1/8 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了 IBM-kmeans-坏盘预测小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

換盤預測

論文：《Predicting Disk Replacement towards Reliable Data Centers》

作者：Mirela Botezatu，IBM蘇黎世研究院

1.介紹

目標：

1）找到對換盤事件最相關的SMART屬性。

2）用這些屬性構建統計模型，自動預測下一次換盤事件。

方法：

1）時間序列的變化點偵測，識別相關SMART屬性。

2）把事件序列轉換成樣本集合，通過把多個事件編碼成單獨的數據點，從而得到壓縮過，但是有價值的特征。

3）構建預測分類模型

4）用遷移學習方法

問題：

1）不同廠商的SMART屬性不同，需要為廠商單獨建立模型。

2）磁盤數據不均衡，只有2%需要更換。

2.預測換盤

算法1 磁盤更換預測算法

輸入：SMART屬性時間序列，加上換盤信息

1. 找到指示換盤的SMART屬性子集，通過在時間序列中識別顯著變化點。

2. 對步驟1得到的每個相關序列，通過指數平滑，得到高度信息的壓縮表示。

3. 通過K-means聚類，進行downsampling，來處理類別間不均衡問題。

4. 用步驟3的訓練數據訓練一個分類模型

輸出：用小規模SMART屬性可以預測換盤事件的預測模型。

2.1.選擇相關SMART屬性

表示目標SMART屬性的時間序列，包含p個時間點的數據，p是最近時間點。

用【7】的方法偵測中的顯著變化時間點t。總結而言，

使得：

這里的：

下一步，驗證這個變化是不是永久性的，看如下兩個時間序列的差異是不是顯著：一個是現有的SMART屬性序列，另一個是相同屬性序列，但是去掉觀察到的t時刻的顯著變化。具體步驟如下：

第一步，令時間序列

表示觀察到的中從t到p的子序列。P時間點表示換盤時間點。

第二步，生成一個合成時間序列

除去了t時刻的顯著變化點。更確切說，我們用貝葉斯結構時間序列模型計算的后驗分布，

給定t時刻前的未變化序列，以及控制時間序列。控制時間序列是從健康磁盤采樣得到的時間序列。

最后，目標SMART屬性的確是換盤指示屬性，如果變化點后面的實際時間序列的概率分布，與從健康磁盤生成的合成序列的分布顯著不同。通過假設檢驗來估計這種區別。

形式化的，令和是從未知分布P和Q分別生成的。假設檢驗下述：

我們檢查我們是否可以拋棄零假設。

2.2.壓縮時間序列表示

1）按天的觀察還不夠，我們需要考慮更長的時間窗口。因為磁盤內部有恢復機制，造成單獨一天的記錄不夠穩定。

2）如果我們考慮到磁盤生命周期的最后一天，模型不能提前預測。

我們用滑動窗口，把原始數據集合劃分成小節。在時間窗口上用指數平滑，變成一個值。

上述公式中，作為時刻t平滑值，基于t時刻的觀測值，和t-1時刻的平滑值。當把窗口寬度擴展為k，成為一定數量的直到的過去觀測值的加權和。K越小，平滑效果差，但是對新的變化更敏感。參數控制老觀測值衰減的速度。

對每個SMART屬性，時間窗口寬度是2.1步驟中顯著變化的事件區間分布的中值。

2.3.通過降采樣來平衡類別

大量的盤是好盤，因此訓練集是不均衡的。

解決方案是用健康磁盤的代表性子集。

用K-mean聚類算法【15】，把觀察到的健康磁盤數據劃分成k個聚類。

每一個聚類中，選擇離聚類中心最近的數據點，作為代表性數據。

最后，我們生成一個平衡的訓練集，通過選擇k與壞盤樣本數接近即可。

2.4. 分類算法

訓練數據集：

，表示多變量時序觀察信息，在時間點和之間。

y是二值響應變量，

要學習一個函數

可以最小化損失函數

選擇的算法是RGF【14】。比GBDT【21】和隨機森林【6】，以及SVM【8】，邏輯回歸【9】的精確性更好。

RGF引入一個明確的正則化項：

RGF引入fully-corrective貪婪算法，迭代修改當前獲得的所有葉子節點（決策規則）的權重，同時通過貪婪搜索法向森林里增加新規則。這里，一個明確的正則項加到里面，防止過擬合。
RGF利用結構化稀疏來直接執行貪婪搜索。

算法2 正則化貪婪森林框架

While 停止標準不滿足 do：

修改權重，調整森林結構s

計算

If 某種條件匹配命中 then:

修正結構，改變F中的權重，使得，Q(F)中的loss最小化。

End if

End While

優化F中的葉子權重，來最小化Q(F)中的loss

Return

結束

F表示一個森林

F中的每個節點v關聯一個元組

表示節點v的basis函數

表示節點v的權重

模型F定義為

對于v的內部節點，有

公式（4）的正則損失是F的一個函數：

S(F)表示F的所有結構改變操作（如，節點分割，或者增加一個新樹）

2.5. 遷移學習

用某個特定磁盤訓練的模型，遷移到同廠商的新磁盤模型上。

算法3：不同模型間的遷移學習

輸入：

從磁盤模型1搜集到的標記數據

從磁盤模型2搜集到的未標記數據

過程：

用來學習一個函數，f(x)表示一塊磁盤屬于“”或“”的概率。

根據f，從采樣一個子集

用來學習一個函數，g是算法2，g（x）表示一個類型的磁盤需要更換的概率。

輸出：

磁盤模型2的更換預測模型。

算法背后的想法是，訓練一個分類器，可以rank相似性，介于，連接到一個特定磁盤模型的觀測結果，以及預訓練的目標磁盤模型的觀察結果。

3. 評估

3.1.模型描述和實驗建立

數據集是Backblaze數據集：https://www.backblaze.com/hard-drive-test-data.html

包含了50984塊磁盤，27個月（2013年4月到2015年6月）的觀察數據，以天為粒度。

數據格式：

（1）時間戳

（2）磁盤序列號

（3）磁盤模型

（4）磁盤容量

（5）失效健康0，換盤1

（6）SMART統計數據

從磁盤模型，可以提取廠商，我們的分析基于Hitachi和Seagate兩個廠商。

同時也除去了一些數據，最終數據從2014年1月到2016年6月，共17個月。

構建的磁盤模型

SgtA Seagate ST4000DM000

HitA Hitachi HDS22020ALA330

然后，我們評估遷移學習效果：

從SgtA到SgtB ST31500541AS

從HitA到HitB HDS5C3030ALA630

表一是數據信息：

3.2. SMART屬性選擇

每個SMART指示器有兩個值：原始值，和正則化值。

原始值表示技術，或者物理計量值（溫度、毫秒數等）

正則化值是廠商特定的映射。

圖2圖示了SMART_187_raw的時間序列，SgtA磁盤，80天。

我們對希捷和日立磁盤分布做了變化點分析，結果見表2。每個參數，我們報告了磁盤數的百分比，觀察到了相關。

3.3. 數據壓縮

圖4展示了，當6個變化點觀察到了之后，換盤天數的分布

read error rate,

the number of reallocated sectors,

the number of pending sectors,

the reported uncorrectable errors,

the seek error count

the transfer error rate

我們用這些中值來做事件序列窗口。

4. 部署

5. 相關工作

總結

以上是生活随笔為你收集整理的IBM-kmeans-坏盘预测的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

ibm
KMeans

上一篇：华为m40怎么升级鸿蒙,华为再亮剑，这四
下一篇： WSL安装桌面