大数据可视化案例分析_Tableau数据可视化分析案例
0x00 Tableau簡介
Tableau是一款定位于數據可視化敏捷開發和實現的商務智能展現工具,可用來實現交互的、可視化的分析和儀表盤應用。
Tableau提供了體驗感良好且易用的使用界面,在處理大規模、多維數據時,可以即時從不同角度看到數據呈現的規律。操作簡單,大大降低了技術門檻,但其呈現出來的效果卻十分優秀。
本文圍繞一個使用Tableau進行可視化的實例,介紹了Tableau中一些基礎概念和繪圖的簡單操作,下面一起開始可視化之旅吧~
0x01 奧運會數據集可視化
數據來源:Kaggle"120 years of Olympic history: athletes and results"數據集。
包括athlete_events.csv和noc_regions.csv兩個文件,有從1896年雅典奧運會到2016年里約奧運會的每一屆奧運會的數據。
athlete_events.csv文件包含15個字段、271116條記錄。每一條記錄對應一位在一項奧運會項目中參賽的運動員。具體字段及對應含義如下:
- ID - 運動員ID編號
- Name - 運動員姓名
- Sex - 性別
- Age - 年齡
- Height - 身高(cm)
- Weight - 體重(kg)
- Team - 隊伍名稱
- NOC - 國家奧委會編碼
- Games - 奧運會年份和季節
- Year - 年份
- Season - 季節
- City - 主辦城市
- Sport - 體育運動
- Event - 比賽項目
- Medal - 獲獎情況(金、銀、銅、未獲獎)
noc_regions.csv描述的是國家奧委會編碼與具體的國家(/地區)名稱的對應關系。包含3個字段,分別是NOC國家奧委會編碼、regions國家(/地區)具體名稱及notes備注。
1 數據連接與管理
打開Tableau,會進入到數據源界面,可進行如下幾個操作:
數據連接
Tableau可連接Excel、文本文件、JSON文件、空間文件(Shapefile、GeoJSON文件等)、統計文件等多種本地數據源。在連接數據源時,如果僅需要使用部分數據,也可對數據進行篩選。
數據整合
Tableau可對來自不同數據表的數據實現多表合并(行)、多表聯接(列)及多個數據源的融合。
行合并通過【新建并集】實現,使用并集合并的表需要有相同的結構,即相同字段數,且相關字段名稱和數據類型匹配。
列合并通過【聯接】實現,需要選擇同名字段作為關聯字段,有四種聯接類型,即內部、左側、右側、完全外部聯接,默認是內部聯接。
注:在2020.2之后的版本中,數據源使用的數據模型具有兩個層:一個邏輯層(在其中關聯表),一個物理層(在其中聯接或合并表)。更推薦使用【關系】來連接數據,關系是一種更靈活、動態的方式,根據關聯字段確定聯接可能性,而不創建新的固定表。
數據加載
Tableau有兩種加載數據的方式,一是實時連接,從數據源獲得查詢結果;另一種是數據提取,將數據提取到Tableau數據引擎中進行管理。
將兩張表的數據加載至Tableau,會基于NOC字段自動進行連接。在數據源界面可查看前1000行數據,并進行一些重命名、排序等基本操作。數據預處理導入完畢,下面就可以大展身手,正式開始可視化啦!
2 圖表繪制
1) 折線圖
基于運動員的ID和年份字段,來繪制一個各屆參賽運動員數變化的折線圖。
新建一個工作表。可以看到如下幾個功能區。
數據窗口
導入Tableau的數據會被自動劃分為【維度】和【度量】。在連接數據時Tableau會對各個字段評估劃分,如果分配與實際情況不符,例如運動員ID被認為是度量,可右鍵進行轉換。
維度通常是分類、時間等定性的離散數據,將其拖放至功能區不會被計算,而會對視圖進行分區。度量通常是數值數據,拖放至功能區會默認進行聚合計算(總和、平均值、計數等)。
Tableau支持多種字段類型,維度中包括文本、日期、日期和時間、地理值、布爾值;度量中包括數字、經緯度(當數據包含地理類型名稱會自動生成)。
行列功能區
對應X、Y軸數據。
將Year拖至列,運動員ID拖至行,ID被默認為離散類型,生成的圖表如下:
下面將ID的類型改為度量→計數(不同),Y軸即為每屆奧運會運動員的總人數。但由于原文件夏季奧運會和冬季奧運會數據是混合的,故折線圖形狀明顯異常。
標記卡
Tableau中,定義圖表中的形狀、顏色、大小、標簽等屬性,通過標記卡完成。
【顏色】和【大小】會根據放入字段數值相應改變。顏色和大小只能放入一個字段,但是【標簽】可放入多個。
【詳細信息】會根據拖放的字段對視圖細化。
【工具提示】即可“對當光標移到視圖某個標記顯示的標記信息”的內容進行編輯。
將Season拖至標記卡中的【顏色】,就能看到夏季和冬季的數據分成了兩條折線,每個類型對應一種顏色,并自動生成圖例,完成了一幅基本的折線圖。
對圖表標題、顏色、坐標軸標簽、坐標軸范圍等進行設置,只需點選預覽即可。最終效果如下:
同理繪制各屆賽事項目數、各界參與國家數折線圖。
2) 堆疊面積圖
生成過程與折線圖基本相同,只需修改圖表類型。在Tableau界面右端有一個【智能推薦】按鈕,可快速創建基本圖形,光標移動到圖形上就會顯示字段要求。
效果如下:
3) 柱狀圖/條形圖
以繪制獎牌數排名前15國家的得獎情況的柱狀圖為例。
首先將Medal和Region分別拖入行列功能區,Medal類型改為度量→計數。因為國家數太多,生成的柱狀圖太長,圖表不便于查看,下面基于新建計算字段對顯示的國家進行篩選。
計算字段
計算字段是根據數據源字段使用運算符和函數構造公式來定義字段。
運算符支持加減乘除等所有運算符。函數包括數字、字符串、日期、類型轉換等各類Tableau自帶計算函數。
因為預處理對Medal的空缺值進行了填充,若直接對其進行計數,實際上結果等于“各國參與運動員數”,與期待的“各國獎牌數”不符。故先基于Medal新建一個計算字段Medal_Num。在數據區域Medal上右擊創建→計算字段,輸入表達式如下,然后對Medal計數即可。
篩選器
篩選器可對全量數據進行篩選,有常規、通配符、條件、頂部四種,可根據各種需要對數據進行篩選。
這里只篩選顯示獎牌數前15的國家。將Region拖入篩選器,自動彈出篩選器對話框,選擇頂部。按Medal_Num字段,計數,篩選出前15個國家。然后再將國家基于Medal_Num字段降序排序。
將Medal拖入標記卡中的顏色,即可生成堆疊柱狀圖,其中金銀銅及未獲獎按不同顏色顯示。再將Medal拖入篩選器,選擇不顯示"No Medal";在篩選器上右鍵,選擇顯示篩選器,篩選器就在視圖左側顯示。堆疊柱狀圖效果如下:
各屆男女運動員人數柱狀圖、奧運會獎牌數條形圖繪制類似。由于時間跨度長,可添加一個基于Year的篩選器,只展示特定時間區間的數據。
4) 箱線圖
箱線圖可以反映數據的基本統計特征,包括最大最小、上下四分位數、中位數等。以繪制各屆奧運會運動員身高分布的箱線圖為例。
將Year和Height分布拖入行列功能區,在視圖右側智能推薦選擇箱線圖,會得到一些離散分布的線。
需要在菜單分析欄,取消聚合度量,即可生成一幅箱線圖。觀察到數據集中于圖表上部,對縱軸的坐標范圍進行設置,還可添加基于性別的篩選器,最終效果如下:
5) 餅圖
以男女運動員比例餅圖為例。
在標記卡中選擇餅圖,將字段ID拖入角度,數據類型改為度量→計數(不同),會生成一個圓形,但是還未顯示男女比。繼續將Sex拖入顏色和標簽,添加Year篩選器,效果如下:
3 圖表組合、布局
將上面繪制的圖表,按照相似主題,組合成儀表板。
儀表板支持在單一面板多個工作表的集合,便于同時比較監測數據,通過添加篩選器、突出顯示等操作,還可實現數據的下鉆,交互性更強。
在Tableau中,文本、圖像、網頁、空白都可被當作對象添加至儀表板中。
【布局容器】是儀表板布局的框架,分為水平和垂直兩種,用來放置工作表、篩選器、圖例、文本等。
【布局方式】有平鋪和浮動兩者。默認的平鋪方式,即所選工作表或對象平行分布,互不遮蓋。浮動布局則更為自由,可隨意調整對象大小及位置,以實現更好效果。
布局流程一般是,添加布局容器,然后在容器中添加內容,再添加另一布局容器。
下面以各項目運動員分布情況儀表板為例,其余布局類似。
首先新建儀表板,拖入一個水平容器,添加"參與人數前15的運動項目"氣泡圖,會默認添加氣泡圖及圖例。然后在下面再添加一個水平容器,添加各屆男女運動員人數條形圖及比例餅圖,如下:
注:Tableau布局容器和工作表間的包含、并列關系需要小心琢磨,有時候看似一樣的布局結構,但是其背后的布局邏輯卻是不相同的。
設置儀表板上篩選器的作用范圍,應用于儀表板上的所有表,單一篩選器即可對該儀表板上的所用表進行篩選。
還可對儀表板上的某一工作表"使用篩選器",那么單擊該表部分,其余表則會相應顯示該部分的數據。如選中"Swimming",那么另外兩個圖表則會相應顯示Swimming項目各屆男女運動員參與人數及比例。
4 可視化結果
經過上面一系列簡單的圖表繪制、組合的操作,主要圍繞奧運會總體情況概覽、獎牌總數前15名國家情況、各項目運動員分布情況、運動員身體情況四個主題來創建儀表板,就可以得到以下結果啦!
a. 總體情況概覽
b. 獎牌總數前15名國家情況
c. 各項目運動員分布情況
d. 運動員身體情況
0x0F 總結
Tableau對數據的管理、呈現類似Excel中的數據透視表,操作簡單、易上手,僅需要拖拽字段就可進行可視化分析,效果美觀,因此廣受歡迎。
本文僅介紹了最基礎的部分,實際上Tableau還可進行創建分組、集、聚類分析、回歸分析、時間序列等高級操作,大家可以繼續探索學習~
其官網提供了豐富的學習資源,對初學者非常友好。不僅如此,學習的另一途徑就是模仿優秀作品,Tableau還擁有活躍的、高質量的社群,各路可視化大神都會在上面交流分享自己的作品,對我們開拓思路、精進可視化效果都有很大幫助。
注:本文的Tableau工作簿已經上傳至Tableau Public,感興趣的朋友可以前往查看~
網址:https://public.tableau.com/profile/meetywy#!/vizhome/120yearsofOlympichistory_16069878256050/120yearsofOlympichistory
·················END·················推薦閱讀
說說心里話
寫給所有數據人。
從留存率業務案例談0-1的數據指標體系
NB,真PDF神處理工具!
超級菜鳥如何入門數據分析?
歡迎長按掃碼關注「數據管道」
總結
以上是生活随笔為你收集整理的大数据可视化案例分析_Tableau数据可视化分析案例的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: lisp遍历表中所有顶点_三十张图片让你
- 下一篇: Nignx出现failed (3: Th