zeppelin--使用D-Tale,针对pandas结构化数据进行可视化探索
                                                            生活随笔
收集整理的這篇文章主要介紹了
                                zeppelin--使用D-Tale,针对pandas结构化数据进行可视化探索
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.                        
                                什么是D-Tale
D-Tale是Flask后端和React前端的結合,為Pandas數據結構的提供可視化分析。
 它與ipython notebook和python/ipython terminals無縫集成。
 目前這個工具支持Pandas的這些數據結構DataFrame、Series、MultiIndex、DatetimeIndex和RangeIndex。
D-Tale是SAS到Python轉換的產品。最初是SAS insight函數之上的perl腳本包裝器,現在是Pandas數據結構之上的輕量級web客戶端。
pypi地址
如何使用
安裝
pip install -U dtale使用
%python import dtale import pandas as pdimport pandas as pd df = pd.read_csv("/data/flink/bank.csv", sep=";")dtale.show(df,vertical_headers=False, )常用功能
列菜單提供的功能
- 凍結列: Lock option將列固定在屏幕的左側,允許您自由滾動/導航到其他列
- 隱藏和刪除: - hide選項從dataframe視圖中刪除列。它不會從實際dataframe中刪除。可以簡單地從右上角的隱藏列表中取消隱藏列
- delete選項將從dataframe中永久刪除該列。它類似于pandas的drop功能。在后端,它迭代列列表以選擇要從dataframe中刪除的列。
 
- 替換和類型轉換 - 替換選項用于用常量或nan值替換列的某些值。可以就地進行替換,也可以創建單獨的列。替換類型也可以定義為替換: 特定值、空格或特定字符串替換
- Type conversion 針對字段的類型進行轉換
 
- 描述性統計Describe: 提供列或數據集的統計摘要,這個針對數據探查比較重要,
- 篩選過濾Filters 增加針對列 或 數據集的過濾功能
- 方差報告Variance Report :表示該特征是否具有低方差。它根據如下兩個檢查來決定,注意:只能用于非字符串類型。 - 特性/樣本大小中唯一值的計數< 10%
- 最常用值的計數/第二常用值的計數> 20
 
- 文本清洗: 僅對字符串類型的值可用。 - 文本清理是數據科學項目的主要部分。如果清洗方式正確,可以提高模型性能
- 提供可應用于文本的所有可能的文本清理方法(詳見下圖)
 
 
主菜單提供的功能
Main Menu Options:主菜單與列菜單提供的選項幾乎相同,但在主菜單中,它們是通用的,您可以在多個列的一個位置上執行操作,而可以手動從顯示中選擇它們。
以下是主菜單獨有的一些選項,它們的工作方式不同。
- Build Column: 允許你在現有的列之外創建新的功能/列。可以通過對列執行算術操作或使用兩個列執行操作來創建這些新特性
- 匯總數據Summarize Data: 像在pandas中一樣,可以通過分組或數據透視表 概括數據【summarise the data】。
- 缺失率分析Missing Analysis: 在任何類型的數據集中,缺失數據都是一個常見的問題. - D-Tale使用missingno python包來可視化數據集中出現的缺失值。
- D-Tale還提供矩陣、條形圖、熱圖和樹狀圖。
 
- Charts: 繪圖是任何數據科學探索性分析階段的重要步驟 - D-Tale uses plotly to create interactive plots
- offers Line, Bar, Scatter, Pie, word cloud, Heatmap, 3D scatter, Surface, Maps, Candlestick, Treemap, and funnel charts
- 不同類型的數據支持不同類型的圖表
 
- Highlighters: 突出【高亮】顯示數據集的某些部分 - 可以突出顯示缺失值、數據類型、離群值和范圍。
 
- Code Export and Data Export - 你在D-Tale中對你的dataframe所做的所有操作都自動轉換為它們的python/pandas/plotly等效代碼。
- 可以使用導出選項在更改為CSV、TSV、Parquet后直接導出最終的數據集。
 
結論
使用Pandas 和 D-Tale,能快速的針對數據進行探查分析
附錄
exploring-pandas-dataframe-with-d-tale
總結
以上是生活随笔為你收集整理的zeppelin--使用D-Tale,针对pandas结构化数据进行可视化探索的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 阿凡题——智慧的背囊
- 下一篇: 3DTools TrackballDec
