使用python画图表_利用Python绘制数据的瀑布图的教程
介紹
對(duì)于繪制某些類型的數(shù)據(jù)來(lái)說(shuō),瀑布圖是一種十分有用的工具。不足為奇的是,我們可以使用Pandas和matplotlib創(chuàng)建一個(gè)可重復(fù)的瀑布圖。
在往下進(jìn)行之前,我想先告訴大家我指代的是哪種類型的圖表。我將建立一個(gè)維基百科文章中描述的2D瀑布圖。
這種圖表的一個(gè)典型的用處是顯示開(kāi)始值和結(jié)束值之間起“橋梁”作用的+和-的值。因?yàn)檫@個(gè)原因,財(cái)務(wù)人員有時(shí)會(huì)將其稱為一個(gè)橋梁。跟我之前所采用的其他例子相似,這種類型的繪圖在Excel中不容易生成,當(dāng)然肯定有生成它的方法,但是不容易記住。
關(guān)于瀑布圖需要記住的關(guān)鍵點(diǎn)是:它本質(zhì)上是一個(gè)堆疊在一起的條形圖,不過(guò)特殊的一點(diǎn)是,它有一個(gè)空白底欄,所以頂部欄會(huì)“懸浮”在空中。那么,讓我們開(kāi)始吧。
創(chuàng)建圖表
首先,執(zhí)行標(biāo)準(zhǔn)的輸入,并確保IPython能顯示matplot圖。
?
1
2
3
4
5
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
設(shè)置我們想畫出瀑布圖的數(shù)據(jù),并將其加載到數(shù)據(jù)幀(DataFrame)中。
數(shù)據(jù)需要以你的起始值開(kāi)始,但是你需要給出最終的總數(shù)。我們將在下面計(jì)算它。
?
1
2
3
index= ['sales','returns','credit fees','rebates','late charges','shipping']
data= {'amount': [350000,-30000,-7500,-25000,95000,-7000]}
trans= pd.DataFrame(data=data,index=index)
我使用了IPython中便捷的display函數(shù)來(lái)更簡(jiǎn)單地控制我要顯示的內(nèi)容。
?
1
2
from IPython.displayimport display
display(trans)
瀑布圖的最大技巧是計(jì)算出底部堆疊條形圖的內(nèi)容。有關(guān)這一點(diǎn),我從stackoverflow上的討論中學(xué)到很多。
首先,我們得到累積和。
?
1
2
3
4
5
6
7
8
display(trans.amount.cumsum())
sales350000
returns320000
credit fees312500
rebates287500
late charges382500
shipping375500
Name: amount, dtype: int64
這看起來(lái)不錯(cuò),但我們需要將一個(gè)地方的數(shù)據(jù)轉(zhuǎn)移到右邊。
?
1
2
3
4
5
6
7
8
9
10
blank=trans.amount.cumsum().shift(1).fillna(0)
display(blank)
sales0
returns350000
credit fees320000
rebates312500
late charges287500
shipping382500
Name: amount, dtype: float64
我們需要向trans和blank數(shù)據(jù)幀中添加一個(gè)凈總量。
?
1
2
3
4
5
total= trans.sum().amount
trans.loc["net"]= total
blank.loc["net"]= total
display(trans)
display(blank)
?
1
2
3
4
5
6
7
8
sales0
returns350000
credit fees320000
rebates312500
late charges287500
shipping382500
net375500
Name: amount, dtype: float64
創(chuàng)建我們用來(lái)顯示變化的步驟。
?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
step= blank.reset_index(drop=True).repeat(3).shift(-1)
step[1::3]= np.nan
display(step)
0 0
0 NaN
0 350000
1 350000
1 NaN
1 320000
2 320000
2 NaN
2 312500
3 312500
3 NaN
3 287500
4 287500
4 NaN
4 382500
5 382500
5 NaN
5 375500
6 375500
6 NaN
6 NaN
Name: amount, dtype: float64
對(duì)于“net”行,為了不使堆疊加倍,我們需要確保blank值為0。
?
1
blank.loc["net"]= 0
然后,將其畫圖,看一下什么樣子。
?
1
2
my_plot= trans.plot(kind='bar', stacked=True, bottom=blank,legend=None, title="2014 Sales Waterfall")
my_plot.plot(step.index, step.values,'k')
看起來(lái)相當(dāng)不錯(cuò),但是讓我們?cè)囍袷交痀軸,以使其更具有可讀性。為此,我們使用FuncFormatter和一些Python2.7+的語(yǔ)法來(lái)截?cái)嘈?shù)并向格式中添加一個(gè)逗號(hào)。
?
1
2
3
4
5
6
def money(x, pos):
'The two args are the value and tick position'
return "${:,.0f}".format(x)
from matplotlib.tickerimport FuncFormatter
formatter= FuncFormatter(money)
然后,將其組合在一起。
?
1
2
3
4
my_plot= trans.plot(kind='bar', stacked=True, bottom=blank,legend=None, title="2014 Sales Waterfall")
my_plot.plot(step.index, step.values,'k')
my_plot.set_xlabel("Transaction Types")
my_plot.yaxis.set_major_formatter(formatter)
完整腳本
基本圖形能夠正常工作,但是我想添加一些標(biāo)簽,并做一些小的格式修改。下面是我最終的腳本:
?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.tickerimport FuncFormatter
#Use python 2.7+ syntax to format currency
def money(x, pos):
'The two args are the value and tick position'
return "${:,.0f}".format(x)
formatter= FuncFormatter(money)
#Data to plot. Do not include a total, it will be calculated
index= ['sales','returns','credit fees','rebates','late charges','shipping']
data= {'amount': [350000,-30000,-7500,-25000,95000,-7000]}
#Store data and create a blank series to use for the waterfall
trans= pd.DataFrame(data=data,index=index)
blank= trans.amount.cumsum().shift(1).fillna(0)
#Get the net total number for the final element in the waterfall
total= trans.sum().amount
trans.loc["net"]= total
blank.loc["net"]= total
#The steps graphically show the levels as well as used for label placement
step= blank.reset_index(drop=True).repeat(3).shift(-1)
step[1::3]= np.nan
#When plotting the last element, we want to show the full bar,
#Set the blank to 0
blank.loc["net"]= 0
#Plot and label
my_plot= trans.plot(kind='bar', stacked=True, bottom=blank,legend=None, figsize=(10,5), title="2014 Sales Waterfall")
my_plot.plot(step.index, step.values,'k')
my_plot.set_xlabel("Transaction Types")
#Format the axis for dollars
my_plot.yaxis.set_major_formatter(formatter)
#Get the y-axis position for the labels
y_height= trans.amount.cumsum().shift(1).fillna(0)
#Get an offset so labels don't sit right on top of the bar
max = trans.max()
neg_offset= max / 25
pos_offset= max / 50
plot_offset= int(max / 15)
#Start label loop
loop= 0
for index, rowin trans.iterrows():
# For the last item in the list, we don't want to double count
if row['amount']== total:
y= y_height[loop]
else:
y= y_height[loop]+ row['amount']
# Determine if we want a neg or pos offset
if row['amount'] >0:
y+= pos_offset
else:
y-= neg_offset
my_plot.annotate("{:,.0f}".format(row['amount']),(loop,y),ha="center")
loop+=1
#Scale up the y axis so there is room for the labels
my_plot.set_ylim(0,blank.max()+int(plot_offset))
#Rotate the labels
my_plot.set_xticklabels(trans.index,rotation=0)
my_plot.get_figure().savefig("waterfall.png",dpi=200,bbox_inches='tight')
運(yùn)行該腳本將生成下面這個(gè)漂亮的圖表:
最后的想法
如果你之前不熟悉瀑布圖,希望這個(gè)示例能夠向你展示它到底是多么有用。我想,可能一些人會(huì)覺(jué)得對(duì)于一個(gè)圖表來(lái)說(shuō)需要這么多的腳本代碼有點(diǎn)糟糕。在某些方面,我同意這種想法。如果你僅僅只是做一個(gè)瀑布圖,而以后不會(huì)再碰它,那么你還是繼續(xù)用Excel中的方法吧。
然而,如果瀑布圖真的很有用,并且你需要將它復(fù)制給100個(gè)客戶,將會(huì)怎么樣呢?接下來(lái)你將要怎么做呢?此時(shí)使用Excel將會(huì)是一個(gè)挑戰(zhàn),而使用本文中的腳本來(lái)創(chuàng)建100個(gè)不同的表格將相當(dāng)容易。再次說(shuō)明,這一程序的真正價(jià)值在于,當(dāng)你需要擴(kuò)展這個(gè)解決方案時(shí),它能夠便于你創(chuàng)建一個(gè)易于復(fù)制的程序。
我真的很喜歡學(xué)習(xí)更多Pandas、matplotlib和IPothon的知識(shí)。我很高興這種方法能夠幫到你,并希望其他人也可以從中學(xué)習(xí)到一些知識(shí),并將這一課所學(xué)應(yīng)用到他們的日常工作中。
總結(jié)
以上是生活随笔為你收集整理的使用python画图表_利用Python绘制数据的瀑布图的教程的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: python程序设计试卷_2013Pyt
- 下一篇: python3入门与进阶笔记_16_变量