Tableau Prep经验总结
Tableau Prep經驗總結
Tableau Prep定義
? Tableau Prep是tableau家族的數據準備工具。我們進行數據分析時,有時拿到的數據無法直接用于數據分析,這是因為1、我們對數據的形狀和結構不是很了解;2、可能存在一些臟亂數據(如:空值,異常值等);3、我們需要提前完成(如:數據規劃,指標量化,顯示指標轉化)等工作。這三個操作都是數據準備,一個數據準備工作的好壞直接影響了數據分析的結果。
Tableau Prep特點
? 1、去IT化:零學習成本完成數據提取、清洗、組織流程,容易上手。
? 2、可視化:直觀展示數據準備過程,操作及處理的數據結果隨時可見。
? 3、集成化:與Tableau Server和Desktop對接,自動完成數據準備工作。
使用Prep的原因
對數據庫開發人員
? 1、更方便的了解數據集的整體狀況,制訂數據清理步驟。因為要進行數據清洗,我們首先需要了解這個數據表的結構,有多少字段,有多少行,每個字段的NULL值情況,空字符串情況等等。
? 2、更直觀地向需求方展示數據開發邏輯,改善溝通成本。
? 3、便于隨時回溯開發思路和檢查問題,節約時間成本。因為如果采用SQL寫一個復雜的儲存過程時,過了一兩個月,需要修改或增加數據時,可能一時半會忘記自己的書寫邏輯。
? 4、更便捷的自動運行計劃和Tableau集成。
對數據分析及報表開發人員
? 1、獲取數據更精準,節省返工浪費的時間。因為做數據提取時,很大一部分工作量是發生在數據分析人員和數據庫管理員的溝通方面;此時借助Prep的話,數據分析人員可以自己從數據庫提取數據,自己開發論證的數據流,往往獲得的數據更加精準且更加靈活(如一些行業,看到每天的充值人數及充值總額中有異常值,如果想獲得明細數據,以往需要找數據庫管理員,有了Prep后便可以自行查找,節約時間。)
? 2、獲取數據更靈活,減少二次開發時間。
? 3、減少數據加工和清理時間,提高報表運行效率。
對非技術人員
? 1、更輕松的處理辦公表格,提升工作效率。
? 2、自助式數據分析文化,人人都是分析師。
? 財務部門是使用prep最多的部門,財務部門是最多線下表的,需要從線下數據拉表,表與表之間做關聯關系,做一下透視等等,可以將一些共性的工作表提取出來并做成工作流來自動運行。
Prep能做什么
? 一、可以連接數十種數據源:(1、可批量讀取excel、文本文件、CSV等文件數據源;2、輕松訪問mysql等常用數據庫;3、提供數十種數據源支持)。
? 二、輕松完成數據準備:(1、強大的數據清理功能;2、拖拽式操作完成多表合并;3、輕松完成行列轉置;4、內置Tableau計算公式功能;5、可外接Python和R腳本等擴展功能)。
? 三、操作直觀可見:(1、提供分布數據預覽;2、提供數據集描述;3、所有操作步驟一覽無余)。
? 四、強大的輸出功能:(1、數據保存形式多樣;2、Tableau可直接調用;3、集成入Server,自動運行)。
Prep操作界面
? 準備好需要做數據清洗的數據表,點擊+號將數據表添加進來,然后可以借助設置按鈕,多個文件按鈕,數據樣本按鈕或在字段前面的類型欄目下對數據進行修改配置及控制數據量的多少及啟用增量刷新來提升效率等等操作。
Prep總體數據流處理步驟
? Prep整體工作的數據流是從左到右依次進行的,其中的數據處理操作包含:1、清理步驟;2、新行;3、聚合;4、轉置;5、聯接;6、并集;7、腳本;8、預測;9、輸出。通常拿到一個數據表的第一個數據處理是清理步驟,最后是輸出為excel或數據庫等等。
數據清理步驟
? 一般拿到一個表后,為了先了解表結構,點擊表后面的+號即可創建一個清洗步驟,然后就可以對數據表進行清洗操作。注意:數據清理步驟是Prep使用最多的一個操作,通過這個操作可以完成所有對數據表行元素(如進行篩選減少數據量)和列元素(即字段)處理的操作。對每個字段的下拉框就包含了可以進行的清洗操作,每個操作均會顯示在左邊的更改數下面,另外還可以找到對應表的主鍵:如下圖中每個字段后面的數字代表字段包含哪些唯一值,由此確定主鍵為“行ID”字段。
? 注意:數據清理步驟主要針對行元素和列元素進行操作。
排除NULL
? 移除null值,找到null后,右鍵勾選排除即可完成清理null的數據處理操作。
將值分組
? 將值分組主要應對于:同音字打錯了或無意中打錯字了,導致本來是同一個類別的變成了兩個類別。為了將其改回正確的分類,就可以采用將值分組功能。先選中出錯的字段,即需要處理的字段,點擊最右側的三個點即可彈出數據清理步驟相關功能,選擇將值分組功能,其中分組依據可以有:1、手動選擇;2、發音;3、常用字符;4、拼寫四種,通常采用手動選擇,之后如下圖所示即可對所選中的字段進行分組。
聚合操作
? 聚合相當于數據透視,即創建透視表一樣。通過在聚合操作后面增加一個清理步驟可知:聚合就是創建了一個透視表,即生成一個新表,這個表只包含需要聚合的字段,如此處的“地區”和“銷售額”兩個字段,相同于寫了一個SQL中的group by操作。
表的并集操作
? 兩個表字段差不多,如一個表有十行數據,另一個表有二十行數據,借助表合并變成三十行數據的新表。
? 選取一個數據清理步驟后的一個表為主表,點擊這個數據清理步驟右側的+號,再將其他需要做并集聯接的表拖拽到并集里面(注意:選擇添加功能)。
表的聯接操作
? 兩張表行數差不多,或行數相差比較大,但是有一些值存在第一張表,另一些值存在另一張表,如學生的語文成績是一張表,數學成績是另一張表,兩張表都有學生的學號和姓名字段,需要把兩張表通過表的聯接操作合在一起來展示學生的語文和數學成績。表的聯接操作包含:“內聯接,外聯接,左聯接,右聯接”等操作。主要是通過兩表或多表都包含的一些關聯字段進行關聯的聯接操作。
表的行列轉置
? 轉置操作:轉置即將表進行列轉行或行轉列操作,基本操作和Tableau Desktop中的轉置操作差不多。通過點擊數據表或者清理步驟等操作右側的+號,勾選轉置即可以彈出轉置相關的配置。注意Prep不同于Desktop轉置的原因是Prep特別適用于多次轉置的情況。
輸出
? 所有Prep數據處理過程必有輸入和輸出兩個過程,輸出即將數據處理的結果輸出保存起來供下一個環節創建報表使用。
總結
以上是生活随笔為你收集整理的Tableau Prep经验总结的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: RTB 广告投放流程详解
- 下一篇: FPGA 使用PCIE高速接口
