【数据竞赛】盘点Kaggle中常见的AutoEDA工具库
在完成競賽和數據挖掘的過程中,數據分析一直是非常耗時的一個環節,但也是必要的一個環節。
能否使用一個工具代替人來完成數據分析的過程呢,現有的AutoEDA工具可以一定程度上完成上述過程。本文將盤點常見的AutoEDA工具,歡迎收藏轉發。
Pandas Profiling
https://pandas-profiling.github.io/pandas-profiling/docs/master/index.html
Pandas Profiling是款比較成熟的工具,可以直接傳入DataFrame即可完成分析過程,將結果展示為HTML格式,同時分析功能也比較強大。
功能:字段類型分析、變量分布分析、相關性分析、缺失值分析、重復行分析
耗時:較少
AutoViz
https://github.com/AutoViML/AutoViz
AutoViz是款美觀的數據分析工具,在進行可視化的同時將結果保存為圖片格式。
功能:相關性分析、數值變量箱線圖、數值變量分布圖
耗時:較多
Dataprep
https://dataprep.ai/
Dataprep是款比較靈活也比較強大的工具,也是筆者最喜歡的。它可以指定列進行分析,同時也可以在Notebook中進行交互式分析。
功能:字段類型分析、變量分布分析、相關性分析、缺失值分析、交互式分析。
耗時:較多
SweetViz
https://github.com/fbdesignpro/sweetviz
SweetViz是款強大的數據分析工具,可以很好的分析訓練集和測試集,以及目標標簽與特征之間的關系。
功能:數據集對比分析、字段類型分析、變量分布分析、目標變量分析
耗時:中等
D-Tale
https://github.com/man-group/dtale
D-Tale是款功能最為強大的數據分析工具,對單變量的分析過程支持比較好。
功能:字段類型分析、變量分布分析、相關性分析、缺失值分析、交互式分析。
耗時:中等
本站qq群955171419,加入微信群請掃碼:
總結
以上是生活随笔為你收集整理的【数据竞赛】盘点Kaggle中常见的AutoEDA工具库的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 解决quartz的job无法注入spri
- 下一篇: java问题,(x.equals(y)