可解释机器学习- LIME模型讲解|interpretable machine learning-LIME
生活随笔
收集整理的這篇文章主要介紹了
可解释机器学习- LIME模型讲解|interpretable machine learning-LIME
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
Contents
- 原理
- 計算流程
- 優勢
- 劣勢
- Reference
原理
- LIME生成了一個新的數據集,數據集由擾動的樣本(permuted samples)和黑箱模型對應的預測構成。LIME在這個數據集上訓練一個可解釋模型(比如lasso或決策樹),該模型根據生成樣本與真實樣本的近似程度(proximity)來加權
- 如何生成擾動的樣本:
- 對于圖像和文字,可以通過隱藏一些像素點(pixels)或單詞
- 對于表格數據(tabular),LIME對于每一個特征單獨進行擾動,比如說從正態分布中采樣,該正太分布由特征的均值和方差決定
- LIME是在保持可解釋模型復雜度較低的情況下,盡可能減小loss(可解釋模型與原始模型的接近程度,也就是對擾動后產生的數據集擬合)
- 但在實際應用中,用戶需要確定復雜度
計算流程
使用InterpretML對 PCA+Random Forest組合成的黑箱模型進行解釋,結果如下
- 如何使用請參考:https://blog.csdn.net/qq_41103204/article/details/125796207
優勢
- 即使替換了底層(underlying)的機器學習模型,仍然可以用局部的可解釋模型進行解釋
- 當使用lasso或者決策樹的時候,解釋是簡短的(有選擇性的),并且是可以比較的(contrastive)。但需要更全面的解釋的時候,LIME就不合適了
- 可用于表格數據(tabular),文本和圖像
- 保真度度量fidelity measure (可解釋模型與黑盒預測的近似程度) 使我們很好地了解了可解釋模型在解釋感興趣的數據實例附近的黑盒預測方面的可靠性
- 用局部代理模型創建的解釋可以使用除原始模型所用以外的其他 (可解釋) 特征。當然,這些可解釋的特征必須從數據實例中派生。文本分類器可以將抽象詞嵌入作為特征,但解釋可以基于句子中是否存在詞。回歸模型可以依賴于某些屬性的不可解釋的轉換,但是可以使用原始屬性來創建解釋。與其他方法相比,對LIME 使用可解釋特征可能是一個很大的優勢,尤其是當模型使用不可解釋特征進行訓練時。
- 比如上面的例子,分類模型Random Forest是基于PCA降維后的特征,但是LIME可以把PCA+Random Forest當成一個黑箱,直接在原始數據上進行解釋。
劣勢
- 當對表格式數據使用 LIME 時,**正確定義鄰域(correct definition of the neighborhood)**是一個很大的未解決的問題,需要嘗試不用的核函數,來看解釋是否合理
- 采樣可能不合理。現在只通過高斯分布來采樣,忽略了特征之間的相關性,這會導致一些不可能的數據出現在訓練樣本中
- 解釋不穩定(instability)。兩個相近的樣本點,解釋非常不同
從第一張圖可以看到,正確的鄰域應該是綠色圓圈表示的區域,要盡可能包括ML的線形區域。但是不同的核函數的寬度會帶來不同的鄰域,如圖二。
Reference
- https://interpret.ml/
- https://christophm.github.io/interpretable-ml-book/
- https://towardsdatascience.com/lime-explain-machine-learning-predictions-af8f18189bfe
總結
以上是生活随笔為你收集整理的可解释机器学习- LIME模型讲解|interpretable machine learning-LIME的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: JS瀑布流插件 -- salvattor
- 下一篇: 树莓派linux下载机,树莓派打造北邮人