Python数据可视化2.6 一些最好的可视化实践
2.6 一些最好的可視化實踐
我們完成一個好的可視化的最首要一步是了解努力背后的目標。如何了解可視化是否有其意圖?同樣重要的是了解觀眾群以及這種方式是否有幫助。
一旦回答了這些問題并透徹理解可視化的目標,那么下一個挑戰就是選擇正確的呈現方法。最常用的可視化類型可根據下述內容進一步分類:
比較和排名
相關性
分布
位置定位或地理數據
局部到整體的關系
隨時間的變化趨勢
2.6.1 比較和排名
比較和排名的方法不止一種,傳統的方法使用條形圖。條形圖是在相同基線上以編碼數值為長度的圖形。但它并不總是比較和排名的最佳方法。例如,為了展示非洲GDP排名前12名的國家,下面是一種創造性的可視化方式(來源:Stats Legend,Andrew Gelman and Antony Unwin):
?
2.6.2 相關性
相關性不能保證一種關系,但一種簡單的相關性分析是識別不同測度間關系的良好開端。通常需要一種統計方法來確保關系的真實存在。下面的例子是通過構建一個簡單的散點圖來檢測兩個因子間關系,比如同一所大學中學生的gpa和tv,gpa和exercise:
?
我們也可以用其他方法展示相關矩陣。比如,可以用散點圖、熱力圖,或一些特定的案例來展示S&P 100中股票的影響力網。(下面兩個圖來自Statistical Tools for High Throughput Analysis,網址是:http://www.sthda.com。)需要進一步強調,一個相關矩陣包括數據的矩陣形式。如下面的例子所示,數據通過一個縮放后的顏色圖計算相關性。為了解更多細節,我們建議您參考下面的網站:http://www.sthda.com。
?
相關矩陣被用來研究同一時間多個變量間的依賴性。結果是一張表,包括每一個變量與其他變量的相關系數。熱力圖源于數據矩陣形式的二維展示。通過很多不同的顏色方案來說圖解熱力圖,每一種方案都有感知優點和缺點。
?
2.6.3 分布
分布分析展示了數值在區間范圍內的分布,因此,在數據分析中非常有用。比如,比較同一個班的學生在家庭作業、期中考試、期末考試和全部課程成績的得分分布。在這個例子中,我們將討論使用最普遍的兩種圖表類型來實現這個目的。一種是直方圖(如下圖所示),另一種是箱線圖或箱須圖。
?
直方圖的形狀非常依賴于箱子的大小和位置。箱須圖特別適用于多元分布。它們將所有數據點(在這個例子中是學生的得分)打包入箱須圖中。現在,你可以很容易識別出所有類別中的最小值、25%分位數、中位數、75%分位數和最大值,這些都能同時進行。
?
Python中有一種便捷的畫圖方法Plotly它是一種在線分析和可視化工具。Plotly提供在線畫圖、分析和統計工具,還有Python、R、Julia和JavaScript的科學繪圖庫。直方圖和箱線圖的案例請見:https://plot.ly/python/histograms-and-box-plots-tutorial。
2.6.4 位置定位或地理數據
地圖是展示位置定位數據的最佳方法。地圖最適用于與另外一個圖配對的情況,該圖詳細說明了地圖的展示內容(比如條形圖按從大到小排序,線圖展示趨勢,等等)。比如,下面的地圖展示了不同大洲之間地震的強度:
?
2.6.5 局部到整體的關系
餅圖適用于展示局部到整體的關系,但還有其他方式。分組的條形圖適用于比較類別中每個元素與其他元素,以及所有類別的元素。然而,分組使區分每個組的整體差異變得更難。下圖是累積柱形圖。
?
累積柱形圖適用于展示整體差異,這是因為它們在視覺上聚集同一個組中的所有類別。不足之處是比較單個類別大小變得更難。這種累積方式也展示出一種局部到整體的關系。
2.6.6 隨時間的變化趨勢
最常用類進行數據分析的可視化方法是展示一段時間的變化趨勢。在下面的例子中,2009~2015年穿戴式設備的初創公司投資情況被畫成圖。該圖表明,該項投資在幾年中持續增長;而在2013年,只有43起總價值$166百萬的交易,所有年份中最高點是2014年61起總價值$427百萬的交易,相比僅一年前。
?
總結
以上是生活随笔為你收集整理的Python数据可视化2.6 一些最好的可视化实践的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《编译与反编译技术实战》——第2章编译器
- 下一篇: 《CCIE路由和交换认证考试指南(第5版