谷歌开源机器学习可视化工具 Facets:从全新角度观察数据
谷歌開源機器學習可視化工具 Facets:從全新角度觀察數據
By?黃小天2017年7月18日 10:51近日,出于支持?PAIR?initiative的目的,谷歌發布了?Facets,一款開源的可視化工具。它可以幫助你理解、分析和調試?ML?數據集。Facets?包含兩個部分——Facets?Overview?和?Facets?Dive——允許用戶從不同的粒度觀看數據的全景圖,還可以輕易地被用在?Jupyter?notebooks?之內,或者嵌入網頁之中。除了開放?Facets?源代碼,谷歌還創建了演示網站,Github?和網站地址見文中。
- Github:https://github.com/pair-code/facets
- 演示網站:https://pair-code.github.io/facets/
從機器學習(ML)模型中取得最佳結果需要你對有數據有真正的理解。然而,ML?數據集的數據點一般有數百萬種,每種包含數百個(甚至數千個)特征,致使不可能直觀地理解整個數據集??梢暬兄诮鉀Q大型數據集的這一難題。一圖勝千言,而一個交互式可視化不止勝千言。
出于支持?PAIR?initiative,我們發布了?Facets,一款開源的可視化工具,幫助你理解和分析?ML?數據集。Facets?包含兩個部分——Facets?Overview?和?Facets?Dive——允許用戶從不同的粒度觀看其數據的全景圖。你可以使用?Facets?Overview?可視化數據每一個特征,或者使用?Facets?Dive?探索個別的數據觀察集。這些可視化允許你調試數據,這在機器學習中和調試模型一樣重要;還可以輕易地被用在?Jupyter?notebooks?之內,或者嵌入網頁之中。我們除了開放?Facets?源代碼,還創建了演示網站,允許任何人在瀏覽器中直接可視化數據集而無需安裝任何軟件或設置,也無需數據離開你的計算機。
Facets?Overview
Facets?Overview?自動地幫助用戶快速理解數據集中所有特征的值分布。多個數據集(比如訓練集和測試集)可在同一個可視化中進行比較。束縛機器學習的一般性數據難題被推向最前端,比如出乎意料的特征值、具有高比例遺失值的特征、帶有不平衡分布的特征,數據集之間的特征分布偏態(distribution?skew)。
加州大學爾灣分校(UCI)人口普查數據集?[1]?的?6?個數字特征的?Facets?Overview。
特征按照不均勻性排序,帶有最大不均勻性分布的特征排在頂部。標紅的數字表示可能的問題點,在這種情況下,帶有高比例值的數字特征設置為?0。右邊的柱狀圖允許你比較訓練集(藍色)和測試集(橙色)之間的分布。
Facets?Overview?展示了加州大學爾灣分校人口普查數據集?9?個分類特征中的?2?個。
這些特征通過分布間距被排序,把訓練集(藍色)和測試集(橙色)之間帶有最大偏態的特征排在頂部。由于測試集中的尾隨時段(「<=50K」vs「<=50K.」),「目標」特征中標簽值在訓練和測試集中有所不同。這可在特征的圖表中查看,也可在表中「頂部」列的條目中看到。該標簽不匹配將導致對該數據進行訓練和測試的模型不能被正確評估。
Facets?Dive
Facets?Dive?提供了一個易于定制的直觀界面,用于探索數據集中不同特征數據點之間的關系。通過?Facets?Dive,你可以控制位置、顏色和視覺表現。如果數據點有與其相關的圖像,則圖像可以用作視覺表示。
Facets?Dive?可視化顯示了加州大學爾灣分校人口普查測試數據集中的?16281?個數據點。
動圖展示了通過對數據點顏色不同特征「關系」進行分別著色,連續特征「年齡」為一個維度,離散特征「婚姻狀況」為另一個維度進行排列。
Facets?Dive?從「Quick?Draw」數據集中生成的可視化效果,它顯示了「Quick?Draw」圖片中筆畫和點被正確地分類為人臉。
Quick?Draw?數據集:https://github.com/googlecreativelab/quickdraw-dataset
Fun?Fact:在大數據集中(如?CIFAR-10?數據集),一個小小的標簽錯誤是很容易被忽視的。我們利用?Dive?檢查了?CIFAR-10?數據集,并發現了一只青蛙貓——一只被標記為貓的青蛙。
使用?Facets?Dive?探索?CIFAR-10?數據集。在這里,基本分類標簽為行,預測分類標簽為列。
這種組合就產生了混淆矩陣視圖,我們可以在其中找到特定類型的錯誤分類。在上面的例子中,我們可以看到機器學習模型錯誤地將一些貓的圖片分類為青蛙。把真實圖形放在混淆矩陣中讓我們發現的一個有趣現象是:這些「真貓」中的一只被模型預測為青蛙是因為它在視覺檢查中被定義為青蛙,這是由于模型訓練的數據集中它被人為地錯誤分類了。
你能區分出貓和青蛙嗎?
在谷歌內部,Facets?已經展現出了巨大價值。現在,谷歌希望將這份便利分享到全世界,通過發現數據中更有趣的新特征來創造更加強大和準確的機器學習模型。因為?Facets?已經開源,你可以根據自己的需求自定義可視化內容,或為項目作出貢獻。
參考文獻
[1]?Lichman,?M.?(2013).?UCI?Machine?Learning?Repository?
[http://archive.ics.uci.edu/ml/datasets/Census+Income].?Irvine,?CA:?University?of?California,?School?of?Information?and?Computer?Science
[2]?Learning?Multiple?Layers?of?Features?from?Tiny?Images?,?Alex?Krizhevsky,?2009:https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf
總結
以上是生活随笔為你收集整理的谷歌开源机器学习可视化工具 Facets:从全新角度观察数据的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 从蚂蚁金服一窥人工智能在金融领域的机遇与
- 下一篇: 五大因素推动中国AI崛起,生态报告概览中