第十一篇 时间序列
時間序列(time series)數據是?種重要的結構化數據形式,應?于多個領域,包括?融學、經濟學、?態學、神經科學、物理學等。在多個時間點觀察或測量到的任何事物都可以形成?段時間序列。很多時間序列是固定頻率的,也就是說,數據點是根據某種規律定期出現的(?如每15秒、每5分鐘、每?出現?次)。時間序列也可以是不定期的,沒有固定的時間單位或單位之間的偏移量。時間序列數據的意義取決于具體的應?場景,主要有以下?種:
???????? 時間戳(timestamp),特定的時刻。
???????? 固定時期(period),如2007年1?或2010年全年。
???????? 時間間隔(interval),由起始和結束時間戳表示。時期(period)可以被看做間隔(interval)的特例。
???????? 實驗或過程時間,每個時間點都是相對于特定起始時間的?個度量。例如,從放?烤箱時起,每秒鐘餅?的直徑。
本篇主要講解前3種時間序列。許多技術都可?于處理實驗型時間序列,其索引可能是?個整數或浮點數(表示從實驗開始算起已經過去的時間)。最簡單也最常?的時間序列都是?時間戳進?索引的。
注意:pandas也?持基于timedeltas的指數,它可以有效代表實驗或經過的時間。可以在pandas的官方?檔學習timedelta指數(http://pandas.pydata.org/)。
pandas提供了許多內置的時間序列處理?具和數據算法。因此,你可以?效處理?常?的時間序列,輕松地進?切?/切塊、聚合、對定期/不定期的時間序列進?重采樣等。有些?具特別適合?融和經濟應?,你當然也可以?它們來分析服務器?志數據。
一、?期和時間數據類型及?具
Python標準庫包含?于?期(date)和時間(time)數據的數據類型,?且還有?歷??的功能。我們主要會?到datetime、time以及calendar模塊。datetime.datetime(也可以簡寫為datetime)是?得最多的數據類型:
from datetime import datetime
now = datetime.now()
now???????? # 輸出:datetime.datetime(2018, 12, 20, 14, 43, 59, 744323)
now.year, now.month, now.day??????? # 輸出:(2018, 12, 20)
datetime以毫秒形式存儲?期和時間。timedelta表示兩個datetime對象之間的時間差:
delta = datetime(2018, 8, 1) - datetime(2018, 3, 1, 9, 14)
delta????????????????????? # 輸出:datetime.timedelta(152, 53160)
delta.days???????????? # 輸出:152
delta.seconds????? # 輸出:53160
可以給datetime對象加上(或減去)?個或多個timedelta,這樣會產??個新對象:
from datetime import timedelta
start = datetime(2016, 3, 2)
start + timedelta(12)??????????? # 輸出:datetime.datetime(2016, 3, 14, 0, 0),加12天
start - 2 * timedelta(12)?????? # 輸出:datetime.datetime(2016, 2, 7, 0, 0),減24天
datetime模塊中的數據類型參?表11-1。雖然本篇主要講的是pandas數據類型和?級時間序列處理,但你肯定會在Python的其他地?遇到有關datetime的數據類型。
表11-1 datetime模塊中的數據類型
類型????????????? 說明
date????????????? 以公歷形式存儲日歷日期(年、月、日)
time????????????? 將時間存儲為時、分、秒、毫秒
datetime?????? 存儲日期和時間
timedelta????? 表示兩個datetime值之間的差(日、秒、毫秒)
tzinfo??????????? 存儲時區信息的基本類型
1、字符串和datetime的相互轉換
利?str或strftime?法(傳??個格式化字符串),datetime對象和pandas的Timestamp對象(稍后就會介紹)可以被格式化為字符串:
stamp = datetime(2016, 3, 2)
str(stamp)????? # 輸出 :'2016-03-02 00:00:00'
stamp.strftime('%Y-%m-%d')????? # 輸出: '2016-03-02'
表11-2列出了全部的格式化編碼。
表11-2 datetime格式定義(兼容ISO C89)
代碼????????? 說明
%Y??????????? 4位數的年
%y??????????? 2位數的年
%m?????????? 2位數的月[01, 12]
%d??????????? 2位數的日[01, 31]
%H??????????? 時(24小時制)[00, 23]
%I????????????? 時(12小時制)[01, 12]
%M?????????? 2位數的分[00, 59]
%S???????????? 秒[00, 61](秒60和61用于閏秒)
%w??????????? 用整數表示的星期幾 [ 0(星期天), 6]
%U??????????? 每年的第幾周[00, 53]。星期天被認為是每周的第一天,每年的第一個
????????????????? 星期天之前的那幾天被認為是“第0周”
%W?????????? 每年的第幾周[00, 53]。星期一被認為是每周的第一天,每年的第一個
????????????????? 星期一之前的那幾天被認為是“第0周”
%z???????????? 以+HHMM或-HHMM表示的UTC時區偏移量,如果時區為naive,則返回空字符串
%F???????????? %Y-%m-%d簡寫形式,例如2012-4-18
%D??????????? %m/%d/%y簡寫形式,例如04/18/12
datetime.strptime可以?這些格式化編碼將字符串轉換為?期:
value = '2016-03-02'
datetime.strptime(value, '%Y-%m-%d')??????? # 輸出:datetime.datetime(2016, 3, 2, 0, 0)
datestrs = ['5/4/2018', '8/10/2018']
[datetime.strptime(x, '%m/%d/%Y') for x in datestrs]??????? # 輸出如下:使用推導式逐個轉換
[datetime.datetime(2018, 5, 4, 0, 0), datetime.datetime(2018, 8, 10, 0, 0)]
datetime.strptime是通過已知格式進??期解析的最佳?式。但是每次都要編寫格式定義是很麻煩的事情,尤其
是對于?些常?的?期格式。這種情況下,你可以?dateutil這個第三?包中的parser.parse?法(pandas中已經
?動安裝好):
from dateutil.parser import parse
parse('2016-3-2')?????? # 輸出:datetime.datetime(2016, 3, 2, 0, 0)
dateutil可以解析?乎所有?類能夠理解的?期表示形式:
parse('Jan 31, 1997 10:45 PM')????? # 輸出:datetime.datetime(1997, 1, 31, 22, 45)
在國際通?的格式中,?出現在?的前?很普遍,傳?dayfirst=True即可解決這個問題:
parse('7/8/2018', dayfirst=True)??? # 輸出:datetime.datetime(2018, 8, 7, 0, 0)
pandas通常是?于處理成組?期的,不管這些?期是DataFrame的軸索引還是列。to_datetime?法可以解析多種不同的?期表示形式。對標準?期格式(如ISO8601)的解析?常快:
datestrs = ['2018-07-10 12:00:00', '2018-10-16 00:00:00']
pd.to_datetime(datestrs)??????? # 輸出如下:
DatetimeIndex(['2018-07-10 12:00:00', '2018-10-16 00:00:00'], dtype='datetime64[ns]', freq=None)
它還可以處理缺失值(None、空字符串等):
idx = pd.to_datetime(datestrs + [None])
idx???????? # 輸出如下:
DatetimeIndex(['2018-07-10 12:00:00', '2018-10-16 00:00:00', 'NaT'], dtype='datetime64[ns]', freq=None)
idx[2]????????? # 輸出:NaT
pd.isnull(idx)????????? # 輸出:array([False, False,? True])
NaT(Not a Time)是pandas中時間戳數據的null值。
注意:dateutil.parser是?個實?但不完美的?具。?如說,它會把?些原本不是?期的字符串認作是?期
(?如"42"會被解析為2042年的今天)。
datetime對象還有?些特定于當前環境(位于不同國家或使?不同語?的系統)的格式化選項。例如,德語或法語系統所?的?份簡寫就與英語系統所?的不同。表11-3進?了總結。
表11-3 特定于當前環境的?期格式
代碼????????? 說明
%a??????????? 星期幾的簡寫
%A?????????? 星期幾的全稱
%b?????????? 月份的簡寫
%B?????????? 月份的全稱
%c?????????? 完整的日期和時間,例如"Tue 01 May 2012 04:20:57 PM"
%p?????????? 不同環境中的AM或PM
%x?????????? 適合于當前環境的日期格式,例如,在USA,“May 1, 2012”會生產"05/01/2012"
%X?????????? 適合于當前環境的時間格式,例如 "04:24:12 PM"
二、時間序列基礎
pandas最基本的時間序列類型就是以時間戳(通常以Python字符串或datatime對象表示)為索引的Series:
from datetime import datetime
dates = [datetime(2011, 1, 2), datetime(2011, 1, 5),
?????????????? datetime(2011, 1, 7), datetime(2011, 1, 8),
?????????????? datetime(2011, 1, 10), datetime(2011, 1, 12)]
ts = pd.Series(np.random.randn(6), index=dates)
ts?????????????? # 輸出如下:
2011-01-02??? 0.758055
2011-01-05??? 0.197013
2011-01-07?? -1.014007
2011-01-08?? -0.083171
2011-01-10??? 1.299712
2011-01-12?? -0.799759
dtype: float64
這些datetime對象實際上是被放在?個DatetimeIndex中的:
ts.index??????????? # 輸出如下:
DatetimeIndex(['2011-01-02', '2011-01-05', '2011-01-07', '2011-01-08',
?????????????????????????? '2011-01-10', '2011-01-12'],
???????????????????????? dtype='datetime64[ns]', freq=None)
跟其他Series?樣,不同索引的時間序列之間的算術運算會?動按?期對?:
ts + ts[::2]??????????? # 輸出如下:
2011-01-02??? 1.516111
2011-01-05?????????? NaN
2011-01-07?? -2.028014
2011-01-08?????????? NaN
2011-01-10??? 2.599424
2011-01-12?????????? NaN
dtype: float64
ts[::2] 是每隔兩個取?個。
pandas?NumPy的datetime64數據類型以納秒形式存儲時間戳:
ts.index.dtype????????????? # 輸出:dtype('<M8[ns]')
DatetimeIndex中的各個標量值是pandas的Timestamp對象:
stamp = ts.index[0]
stamp?????????? # 輸出:Timestamp('2011-01-02 00:00:00')
只要有需要,TimeStamp可以隨時?動轉換為datetime對象。此外,它還可以存儲頻率信息(如果有的話),且知道如何執?時區轉換以及其他操作。稍后將對此進?詳細講解。
1、索引、選取、?集構造
當你根據標簽索引選取數據時,時間序列和其它的pandas.Series很像:
stamp = ts.index[2]
ts[stamp]????????? # 輸出: -1.014007193261713
還有?種更為?便的?法:傳??個可以被解釋為?期的字符串:
ts['1/10/2011']???????? # 輸出:1.2997122200536004
ts['20110110']?????????? # 輸出:1.2997122200536004
對于較?的時間序列,只需傳?“年”或“年?”即可輕松選取數據的切?:
longer_ts = pd.Series(np.random.randn(1000),
???????????????????????????????????? index=pd.date_range('1/1/2000', periods=1000))
longer_ts?????????? # 輸出如下:
2000-01-01??? 0.297975
2000-01-02?? -1.153909
2000-01-03??? 0.090682
2000-01-04??? 0.552662
2000-01-05??? 1.635998
???????????????? ...
2002-09-22??? 0.039126
2002-09-23??? 0.379367
2002-09-24?? -0.037303
2002-09-25??? 1.009411
2002-09-26?? -0.360946
Freq: D, Length: 1000, dtype: float64
longer_ts['2001']?????????? # 輸出如下:選取的切片是一年
2001-01-01?? -0.069738
2001-01-02?? -1.858975
2001-01-03?? -0.021057
2001-01-04?? -0.928934
2001-01-05?? -1.600358
???????????????? ...
2001-12-27?? -0.133934
2001-12-28??? 0.216217
2001-12-29?? -0.888471
2001-12-30??? 0.103915
2001-12-31?? -0.128421
Freq: D, Length: 365, dtype: float64
這?,字符串“2001”被解釋成年,并根據它選取時間區間。指定?也同樣奏效:
longer_ts['2001-05']??????????? # 輸出如下:選取的切片是一月
2001-05-01?? -1.132128
2001-05-02??? 0.730976
2001-05-03?? -1.047071
2001-05-04?? -0.687509
2001-05-05?? -0.618300
???????????????? ...
2001-05-27??? 0.389774
2001-05-28??? 1.751153
2001-05-29??? 0.940651
2001-05-30??? 0.631526
2001-05-31??? 0.000392
Freq: D, Length: 31, dtype: float64
datetime對象也可以進?切?:
ts[datetime(2011, 1, 7):]?????? # 輸出如下:
2011-01-07?? -1.014007
2011-01-08?? -0.083171
2011-01-10??? 1.299712
2011-01-12?? -0.799759
dtype: float64
由于?部分時間序列數據都是按照時間先后排序的,因此你也可以?不存在于該時間序列中的時間戳對其進?切?(即范圍查詢):
ts????????????????? # 輸出如下:
2011-01-02??? 0.758055
2011-01-05??? 0.197013
2011-01-07?? -1.014007
2011-01-08?? -0.083171
2011-01-10??? 1.299712
2011-01-12?? -0.799759
dtype: float64
ts['1/6/2011':'1/11/2011']????????? # 輸出如下:切片的起始時間不在時間序列中
2011-01-07?? -1.014007
2011-01-08?? -0.083171
2011-01-10??? 1.299712
dtype: float64
跟之前?樣,你可以傳?字符串?期、datetime或Timestamp。注意,這樣切?所產?的是源時間序列的視圖,跟NumPy數組的切?運算是?樣的。這意味著,沒有數據被復制,對切?進?修改會反映到原始數據上。
此外,還有?個等價的實例?法也可以截取兩個?期之間TimeSeries:
ts.truncate(after='1/9/2011')?????????? # 輸出如下:實例方法truncate()
2011-01-02??? 0.758055
2011-01-05??? 0.197013
2011-01-07?? -1.014007
2011-01-08?? -0.083171
dtype: float64
這些操作對DataFrame也有效。例如,對DataFrame的?進?索引:
dates = pd.date_range('1/1/2000', periods=100, freq='W-WED')
long_df = pd.DataFrame(np.random.randn(100, 4),
???????????????????????????????????????? index=dates,
???????????????????????????????????????? columns=['Colorado', 'Texas', 'New York', 'Ohio'])
long_df.loc['5-2001']??????????? # 輸出如下:
????????????????????? Colorado?????? Texas?? New York??????? Ohio
2001-05-02 -0.439088? 0.405889 -0.758566 -1.257653
2001-05-09? 1.048846 -0.822053? 0.250146? 1.263414
2001-05-16 -1.811179? 1.282718 -0.274745 -2.329642
2001-05-23 -1.590255? 1.057494 -1.306906? 0.308010
2001-05-30 -2.094225? 0.816898 -0.576982 -0.257714
2、帶有重復索引的時間序列
在某些應?場景中,可能會存在多個觀測數據落在同?個時間點上的情況。下?就是?個例?:
dates = pd.DatetimeIndex(['1/1/2000', '1/2/2000', '1/2/2000',
????????????????????????????????????????????? '1/2/2000', '1/3/2000'])
dup_ts = pd.Series(np.arange(5), index=dates)
dup_ts????????? # 輸出如下:
2000-01-01??? 0
2000-01-02??? 1
2000-01-02??? 2
2000-01-02??? 3
2000-01-03??? 4
dtype: int32
通過檢查索引的is_unique屬性,我們就可以知道它是不是唯?的:
dup_ts.index.is_unique????????? # 輸出:False
對這個時間序列進?索引,要么產?標量值,要么產?切?,具體要看所選的時間點是否重復:
dup_ts['1/3/2000']????????? # 輸出:4,(不重復,產生標量值)
dup_ts['1/2/2000']?????????? # 輸出如下:(重復,duplicated,產生的是切片)
2000-01-02??? 1
2000-01-02??? 2
2000-01-02??? 3
dtype: int32
假設你想要對具有?唯?時間戳的數據進?聚合。?個辦法是使?groupby,并傳?level=0:
grouped = dup_ts.groupby(level=0)?????? # level=0,對第1層標簽分組
grouped.mean()???????????? # 輸出如下:分組平均數
2000-01-01??? 0
2000-01-02??? 2
2000-01-03??? 4
dtype: int32
grouped.count()???????????? # 輸出如下:分組統計
2000-01-01??? 1
2000-01-02??? 3
2000-01-03??? 1
dtype: int64
三、?期的范圍、頻率以及移動
pandas中的原?時間序列?般被認為是不規則的,也就是說,它們沒有固定的頻率。對于?部分應?程序??,這是?所謂的。但是,它常常需要以某種相對固定的頻率進?分析,?如每?、每?、每15分鐘等(這樣?然會在時間序列中引?缺失值)。幸運的是,pandas有?整套標準時間序列頻率以及?于重采樣、頻率推斷、?成固定頻率?期范圍的?具。例如,我們可以將之前那個時間序列轉換為?個具有固定頻率(每?)的時間序列,只需調?resample即可:
ts????????????????????? # 現在有ts變量的內容如下:
2011-01-02?? -1.418847
2011-01-05?? -1.585231
2011-01-07??? 1.136025
2011-01-08??? 0.586130
2011-01-10?? -0.789736
2011-01-12??? 0.128133
dtype: float64
resampler = ts.resample('D')??? # 字符串“D”是每天的意思。調用resample()方法重采樣
頻率的轉換(或重采樣)是?個?較?的主題,在本篇第六小節討論。這?,先了解如何使?基本的頻率和它的倍數。
1、?成?期范圍
pandas.date_range可?于根據指定的頻率?成指定?度的DatetimeIndex:
index = pd.date_range('2012-4-1', '2012-6-1')?????? # 日期范圍。默認按天計算時間點
index?????????????? # 輸出如下:
DatetimeIndex(['2012-04-01', '2012-04-02', '2012-04-03', '2012-04-04',
?????????????????????????? '2012-04-05', '2012-04-06', '2012-04-07', '2012-04-08',
?????????????????????????? '2012-04-09', '2012-04-10', '2012-04-11', '2012-04-12',
?????????????????????????? '2012-04-13', '2012-04-14', '2012-04-15', '2012-04-16',
?????????????????????????? '2012-04-17', '2012-04-18', '2012-04-19', '2012-04-20',
?????????????????????????? '2012-04-21', '2012-04-22', '2012-04-23', '2012-04-24',
?????????????????????????? '2012-04-25', '2012-04-26', '2012-04-27', '2012-04-28',
?????????????????????????? '2012-04-29', '2012-04-30', '2012-05-01', '2012-05-02',
?????????????????????????? '2012-05-03', '2012-05-04', '2012-05-05', '2012-05-06',
?????????????????????????? '2012-05-07', '2012-05-08', '2012-05-09', '2012-05-10',
?????????????????????????? '2012-05-11', '2012-05-12', '2012-05-13', '2012-05-14',
?????????????????????????? '2012-05-15', '2012-05-16', '2012-05-17', '2012-05-18',
?????????????????????????? '2012-05-19', '2012-05-20', '2012-05-21', '2012-05-22',
?????????????????????????? '2012-05-23', '2012-05-24', '2012-05-25', '2012-05-26',
?????????????????????????? '2012-05-27', '2012-05-28', '2012-05-29', '2012-05-30',
?????????????????????????? '2012-05-31', '2012-06-01'],
?????????????????????????? dtype='datetime64[ns]', freq='D')
默認情況下,date_range會產?按天計算的時間點。如果只傳?起始或結束?期,那就還得傳??個表示?段時間的數字:
pd.date_range(start='2012-4-1', periods=20)???????? # 輸出如下:按天計算,向前計算20天
DatetimeIndex(['2012-04-01', '2012-04-02', '2012-04-03', '2012-04-04',
?????????????????????????? '2012-04-05', '2012-04-06', '2012-04-07', '2012-04-08',
?????????????????????????? '2012-04-09', '2012-04-10', '2012-04-11', '2012-04-12',
?????????????????????????? '2012-04-13', '2012-04-14', '2012-04-15', '2012-04-16',
?????????????????????????? '2012-04-17', '2012-04-18', '2012-04-19', '2012-04-20'],
???????????????????????? dtype='datetime64[ns]', freq='D')
pd.date_range(end='2012-6-1', periods=20)?????????? # 輸出如下:按天計算,向后計算20天
DatetimeIndex(['2012-05-13', '2012-05-14', '2012-05-15', '2012-05-16',
????????????????????????? '2012-05-17', '2012-05-18', '2012-05-19', '2012-05-20',
????????????????????????? '2012-05-21', '2012-05-22', '2012-05-23', '2012-05-24',
????????????????????????? '2012-05-25', '2012-05-26', '2012-05-27', '2012-05-28',
????????????????????????? '2012-05-29', '2012-05-30', '2012-05-31', '2012-06-01'],
????????????????????? dtype='datetime64[ns]', freq='D')
起始和結束?期定義了?期索引的嚴格邊界。例如,如果你想要?成?個由每?最后?個?作?組成的?期索引,可以傳?"BM"頻率(表示business end of month,表11-4是頻率列表),這樣就只會包含時間間隔內(或剛好在邊界上的)符合頻率要求的?期:
pd.date_range('2000-1-1', '2001-1-1', freq='BM')??????? # 輸出如下:頻率是每月最后一個工作日
DatetimeIndex(['2000-01-31', '2000-02-29', '2000-03-31', '2000-04-28',
????????????????????????? '2000-05-31', '2000-06-30', '2000-07-31', '2000-08-31',
????????????????????????? '2000-09-29', '2000-10-31', '2000-11-30', '2000-12-29'],
???????????????????????? dtype='datetime64[ns]', freq='BM')
表11-4 基本的時間序列頻率(不完整)(下面的頻率用于date_range()函數的freq參數)
date_range默認會保留起始和結束時間戳的時間信息(如果有的話):
pd.date_range('2016-3-2 8:30:15', periods=5)??????????????? # 輸出如下:注意默認的頻率是天('D')
DatetimeIndex(['2016-03-02 08:30:15', '2016-03-03 08:30:15',
????????????????????????? '2016-03-04 08:30:15', '2016-03-05 08:30:15',
????????????????????????? '2016-03-06 08:30:15'],
???????????????????????? dtype='datetime64[ns]', freq='D')
有時,雖然起始和結束?期帶有時間信息,但你希望產??組被規范化(normalize)到午夜的時間戳。normalize選項即可實現該功能:
pd.date_range('2016-3-2 8:30:15', periods=5, normalize=True)??????????? # 規范化的時間戳顯示:
DatetimeIndex(['2016-03-02', '2016-03-03', '2016-03-04', '2016-03-05',
????????????????????????? '2016-03-06'],
???????????????????????? dtype='datetime64[ns]', freq='D')
2、頻率和?期偏移量
pandas中的頻率是由?個基礎頻率(base frequency)和?個乘數組成的。基礎頻率通常以?個字符串別名表示,?如"M"表示每?,"H"表示每?時。對于每個基礎頻率,都有?個被稱為?期偏移量(date offset)的對象與之對應。例如,按?時計算的頻率可以?Hour類表示:
from pandas.tseries.offsets import Hour, Minute
hour = Hour()
hour??????? # 輸出hour對象: <Hour>
傳??個整數即可定義偏移量的倍數:
four_hours = Hour(4)
four_hours????????????? # 輸出: <4 * Hours>
?般來說,?需明確創建這樣的對象,只需使?諸如"H"或"4H"這樣的字符串別名即可。在基礎頻率前?放上?個整數即可創建倍數:
pd.date_range('2018-1-1', '2018-1-3 23:59', freq='4h')????? # 輸出如下:
DatetimeIndex(['2018-01-01 00:00:00', '2018-01-01 04:00:00',
????????????????????????? '2018-01-01 08:00:00', '2018-01-01 12:00:00',
????????????????????????? '2018-01-01 16:00:00', '2018-01-01 20:00:00',
????????????????????????? '2018-01-02 00:00:00', '2018-01-02 04:00:00',
????????????????????????? '2018-01-02 08:00:00', '2018-01-02 12:00:00',
????????????????????????? '2018-01-02 16:00:00', '2018-01-02 20:00:00',
????????????????????????? '2018-01-03 00:00:00', '2018-01-03 04:00:00',
????????????????????????? '2018-01-03 08:00:00', '2018-01-03 12:00:00',
????????????????????????? '2018-01-03 16:00:00', '2018-01-03 20:00:00'],
???????????????????????? dtype='datetime64[ns]', freq='4H')
?部分偏移量對象都可通過加法進?連接:
Hour(2) + Minute(30)??????????????? # 輸出:<150 * Minutes>
同理,你也可以傳?頻率字符串(如"2h30min"),這種字符串可以被?效地解析為等效的表達式:
pd.date_range('2018-1-1', periods=10, freq='1h30min')?????? # 輸出如下:
DatetimeIndex(['2018-01-01 00:00:00', '2018-01-01 01:30:00',
????????????????????????? '2018-01-01 03:00:00', '2018-01-01 04:30:00',
????????????????????????? '2018-01-01 06:00:00', '2018-01-01 07:30:00',
????????????????????????? '2018-01-01 09:00:00', '2018-01-01 10:30:00',
????????????????????????? '2018-01-01 12:00:00', '2018-01-01 13:30:00'],
??????????????????????? dtype='datetime64[ns]', freq='90T')
有些頻率所描述的時間點并不是均勻分隔的。例如,"M"(?歷?末)和"BM"(每?最后?個?作?)就取決于每?的天數,對于后者,還要考慮?末是不是周末。由于沒有更好的術語,我將這些稱為錨點偏移量(anchored offset)。
表11-4列出了pandas中的頻率代碼和?期偏移量類。
可根據實際需求?定義?些頻率類以便提供pandas所沒有的?期邏輯。
表11-4 時間序列的基礎頻率
3、WOM?期
WOM(Week Of Month)是?種?常實?的頻率類,它以WOM開頭。它使你能獲得諸如“每?第3個星期五”之類的?期:
rng = pd.date_range('2018-1-1', '2018-9-1', freq='WOM-3FRI')????? # 每月第三個星期五
list(rng)?????????????????????????? # 輸出如下:
[Timestamp('2018-01-19 00:00:00', freq='WOM-3FRI'),
? Timestamp('2018-02-16 00:00:00', freq='WOM-3FRI'),
? Timestamp('2018-03-16 00:00:00', freq='WOM-3FRI'),
? Timestamp('2018-04-20 00:00:00', freq='WOM-3FRI'),
? Timestamp('2018-05-18 00:00:00', freq='WOM-3FRI'),
? Timestamp('2018-06-15 00:00:00', freq='WOM-3FRI'),
? Timestamp('2018-07-20 00:00:00', freq='WOM-3FRI'),
? Timestamp('2018-08-17 00:00:00', freq='WOM-3FRI')]
4、移動(超前和滯后)數據
移動(shifting)指的是沿著時間軸將數據前移或后移。Series和DataFrame都有?個shift?法?于執?單純的前移或后移操作,保持索引不變:
ts = pd.Series(np.random.randn(4),
?????????????????????? index=pd.date_range('1/1/2000', periods=4, freq='M'))
ts?????????????????????? # 輸出如下:
2000-01-31?? -0.832222
2000-02-29??? 0.341062
2000-03-31?? -1.939174
2000-04-30??? 0.861032
Freq: M, dtype: float64
ts.shift(2)???????????? # 輸出如下:沿時間軸將數據向前移動
2000-01-31?????????? NaN
2000-02-29?????????? NaN
2000-03-31?? -0.832222
2000-04-30??? 0.341062
Freq: M, dtype: float64
ts.shift(-2)?????????? # 輸出如下:沿時間軸將數據向后移動
2000-01-31?? -1.939174
2000-02-29???? 0.861032
2000-03-31??????????? NaN
2000-04-30??????????? NaN
Freq: M, dtype: float64
當我們這樣進?移動時,就會在時間序列的前?或后?產?缺失數據。
shift通常?于計算?個時間序列或多個時間序列(如DataFrame的列)中的百分?變化。可以這樣表達:
ts / ts.shift(1) - 1
由于單純的移位操作不會修改索引,所以部分數據會被丟棄。因此,如果頻率已知,則可以將其傳給shift以便實現對時間戳進?位移?不是對數據進?簡單位移:
ts.shift(2, freq='M')?????????????? # 輸出如下:已知頻率的情況,對時間戳進行位移
2000-03-31?? -0.832222
2000-04-30??? 0.341062
2000-05-31?? -1.939174
2000-06-30??? 0.861032
Freq: M, dtype: float64
這?還可以使?其他頻率,于是就能?常靈活地對數據進?超前和滯后處理:
ts.shift(3, freq='D')?????????????? # 輸出如下:向前移3天
2000-02-03?? -0.832222
2000-03-03??? 0.341062
2000-04-03?? -1.939174
2000-05-03??? 0.861032
dtype: float64
ts.shift(1, freq='90T')???????????? # 輸出如下:向前移動90分鐘
2000-01-31 01:30:00?? -0.832222
2000-02-29 01:30:00??? 0.341062
2000-03-31 01:30:00?? -1.939174
2000-04-30 01:30:00??? 0.861032
Freq: M, dtype: float64
5、通過偏移量對?期進?位移
pandas的?期偏移量還可以?在datetime或Timestamp對象上:
from pandas.tseries.offsets import Day, MonthEnd
now = datetime(2011, 11, 17)
now + 3 * Day()???????? # 輸出如下:時間戳,使用now + Day(3)是一樣的結果
Timestamp('2011-11-20 00:00:00')
如果加的是錨點偏移量(?如MonthEnd),第?次增量會將原?期向前滾動到符合頻率規則的下?個?期:
now + MonthEnd()???????? # 輸出如下:MonthEnd是偏移到每月的最后一天
Timestamp('2011-11-30 00:00:00')
now + MonthEnd(2)??????? # 輸出如下:
Timestamp('2011-12-31 00:00:00')
通過錨點偏移量的rollforward和rollback?法,可明確地將?期向前或向后“滾動”:
offset = MonthEnd()
offset.rollforward(now)??????????????? # 輸出如下:將now對應的日期向前滾動到月末
Timestamp('2011-11-30 00:00:00')
offset.rollback(now)??????????????? # 輸出如下:將now對應的日期向后滾動到上一個月的月末
Timestamp('2011-10-31 00:00:00')
?期偏移量還有?個巧妙的?法,即結合groupby使?這兩個“滾動”?法:
ts = pd.Series(np.random.randn(20),
??????????????????????? index=pd.date_range('1/15/2000', periods=20, freq='4D'))
ts?????????????????????? # 輸出如下:
2000-01-15?? -0.476511
2000-01-19??? 0.646956
2000-01-23??? 0.157716
2000-01-27?? -1.207581
2000-01-31?? -0.629533
???????????????? ...
2000-03-15??? 0.082505
2000-03-19?? -0.154366
2000-03-23??? 1.368601
2000-03-27?? -2.117017
2000-03-31?? -1.594271
Freq: 4D, Length: 20, dtype: float64
ts.groupby(offset.rollforward).mean()????? # 輸出如下:由于offset.rollforward指向月末,計算每月的平均數
2000-01-31?? -0.301791
2000-02-29?? -0.001096
2000-03-31?? -0.129890
dtype: float64
當然,更簡單、更快速地實現該功能的辦法是使?resample(后面六?節詳細介紹):
ts.resample('M').mean()????????????? # 輸出如下:
2000-01-31?? -0.301791
2000-02-29?? -0.001096
2000-03-31?? -0.129890
Freq: M, dtype: float64
四、時區處理
時間序列處理?作中最讓?不爽的就是對時區的處理。許多?都選擇以世界標準時間(UTC,它是格林威治標準時間(Greenwich Mean Time)的接替者,?前已經是國際標準了)來處理時間序列。時區是以UTC偏移量的形式表示的。例如,夏令時期間,紐約?UTC慢4?時,?在全年其他時間則?UTC慢5?時。
在Python中,時區信息來?第三?庫pytz,它使Python可以使?Olson數據庫(匯編了世界時區信息)。這對歷史數據?常重要,這是因為由于各地政府的各種突發奇想,夏令時轉變?期(甚?UTC偏移量)已經發?過多次改變了。就拿美國來說,DST轉變時間?1900年以來就改變過多次!
有關pytz庫的更多信息,可查閱其?檔。由于pandas包裝了pytz的功能,因此可不?記憶其API,只要記得時區的名稱即可。時區名可以在shell中看到,也可以通過?檔查看:
import pytz
pytz.common_timezones[-5:]????????? # 輸出如下:
['US/Eastern', 'US/Hawaii', 'US/Mountain', 'US/Pacific', 'UTC']
要從pytz中獲取時區對象,使?pytz.timezone即可:
tzz = pytz.timezone('Asia/Shanghai')
tzz???????? # 輸出: <DstTzInfo 'Asia/Shanghai' LMT+8:06:00 STD>
pandas中的?法既可以接受時區名也可以接受這些對象。
1、時區本地化和轉換
默認情況下,pandas中的時間序列是單純的(naive)時區。看看下?這個時間序列:
rng = pd.date_range('3/9/2012 9:30', periods=6, freq='D')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts????????????????????? # 輸出如下:
2012-03-09 09:30:00?? -0.604688
2012-03-10 09:30:00?? -0.824233
2012-03-11 09:30:00?? -1.376939
2012-03-12 09:30:00??? 0.660257
2012-03-13 09:30:00?? -0.362623
2012-03-14 09:30:00?? -1.885881
Freq: D, dtype: float64
其索引的tz字段為None:
print(ts.index.tz)????????????????? # 輸出:None
可以?時區集?成?期范圍:
pd.date_range('3/9/2012 9:30', periods=10, freq='D', tz='UTC')????????? # 輸出如下:
DatetimeIndex(['2012-03-09 09:30:00+00:00', '2012-03-10 09:30:00+00:00',
????????????????????????? '2012-03-11 09:30:00+00:00', '2012-03-12 09:30:00+00:00',
????????????????????????? '2012-03-13 09:30:00+00:00', '2012-03-14 09:30:00+00:00',
????????????????????????? '2012-03-15 09:30:00+00:00', '2012-03-16 09:30:00+00:00',
????????????????????????? '2012-03-17 09:30:00+00:00', '2012-03-18 09:30:00+00:00'],
???????????????????????? dtype='datetime64[ns, UTC]', freq='D')
從單純到本地化的轉換是通過tz_localize?法處理的:
ts????????????????????? # 有ts如下:
2012-03-09 09:30:00?? -0.604688
2012-03-10 09:30:00?? -0.824233
2012-03-11 09:30:00?? -1.376939
2012-03-12 09:30:00??? 0.660257
2012-03-13 09:30:00?? -0.362623
2012-03-14 09:30:00?? -1.885881
Freq: D, dtype: float64
ts_utc = ts.tz_localize('UTC')
ts_utc????????????????? # 輸出如下:
2012-03-09 09:30:00+00:00?? -0.604688
2012-03-10 09:30:00+00:00?? -0.824233
2012-03-11 09:30:00+00:00?? -1.376939
2012-03-12 09:30:00+00:00??? 0.660257
2012-03-13 09:30:00+00:00?? -0.362623
2012-03-14 09:30:00+00:00?? -1.885881
Freq: D, dtype: float64
ts_utc.index??????????? # 輸出如下:
DatetimeIndex(['2012-03-09 09:30:00+00:00', '2012-03-10 09:30:00+00:00',
?????????????????????????? '2012-03-11 09:30:00+00:00', '2012-03-12 09:30:00+00:00',
?????????????????????????? '2012-03-13 09:30:00+00:00', '2012-03-14 09:30:00+00:00'],
???????????????????????? dtype='datetime64[ns, UTC]', freq='D')
?旦時間序列被本地化到某個特定時區,就可以?tz_convert將其轉換到別的時區了:
ts_utc.tz_convert('Asia/Shanghai')????????????? # 輸出省略
ts_utc.tz_convert('America/New_York')?????????? # 輸出如下:
2012-03-09 04:30:00-05:00?? -0.604688
2012-03-10 04:30:00-05:00?? -0.824233
2012-03-11 05:30:00-04:00?? -1.376939
2012-03-12 05:30:00-04:00??? 0.660257
2012-03-13 05:30:00-04:00?? -0.362623
2012-03-14 05:30:00-04:00?? -1.885881
Freq: D, dtype: float64
對于上?這種時間序列(它跨越了美國東部時區的夏令時轉變期),我們可以將其本地化到EST,然后轉換為UTC或柏林時間:
ts_eastern = ts.tz_localize('America/New_York')????? # tz_localize()從本地轉換到指定時區
ts_eastern.tz_convert('UTC')???????????????????? # 輸出如下:轉換為UTC時間
2012-03-09 14:30:00+00:00?? -0.604688
2012-03-10 14:30:00+00:00?? -0.824233
2012-03-11 13:30:00+00:00?? -1.376939
2012-03-12 13:30:00+00:00??? 0.660257
2012-03-13 13:30:00+00:00?? -0.362623
2012-03-14 13:30:00+00:00?? -1.885881
Freq: D, dtype: float64
ts_eastern.tz_convert('Europe/Berlin')????????? # 輸出如下:轉換為柏林時間
2012-03-09 15:30:00+01:00?? -0.604688
2012-03-10 15:30:00+01:00?? -0.824233
2012-03-11 14:30:00+01:00?? -1.376939
2012-03-12 14:30:00+01:00??? 0.660257
2012-03-13 14:30:00+01:00?? -0.362623
2012-03-14 14:30:00+01:00?? -1.885881
Freq: D, dtype: float64
tz_localize和tz_convert也是DatetimeIndex的實例?法:
ts.index.tz_localize('Asia/Shanghai')?????????? # 將ts.index的時間序列本地化為上海時間
DatetimeIndex(['2012-03-09 09:30:00+08:00', '2012-03-10 09:30:00+08:00',
?????????????????????????? '2012-03-11 09:30:00+08:00', '2012-03-12 09:30:00+08:00',
?????????????????????????? '2012-03-13 09:30:00+08:00', '2012-03-14 09:30:00+08:00'],
???????????????????????? dtype='datetime64[ns, Asia/Shanghai]', freq='D')
注意:對單純時間戳的本地化操作還會檢查夏令時轉變期附近容易混淆或不存在的時間。
2、操作時區意識型Timestamp對象(時區操作--已知時間戳對象)
跟時間序列和?期范圍差不多,獨?的Timestamp對象也能被從單純型(naive)本地化為已知時區(time zone-aware),并從?個時區轉換到另?個時區:
stamp = pd.Timestamp('2011-03-12 04:00')
stamp_utc = stamp.tz_localize('utc')??????????? # 本地化為已知時區
stamp_utc.tz_convert('America/New_York')???????? # 輸出如下:轉換為紐約時間
Timestamp('2011-03-11 23:00:00-0500', tz='America/New_York')
已知時區Timestamp對象在內部保存了?個UTC時間戳值(?UNIX紀元(1970年1?1?)算起的納秒數)。這個UTC值在時區轉換過程中是不會發?變化的:
stamp_utc.value???????? # 輸出:1299902400000000000
stamp_utc.tz_convert('America/New_York').value????????????? # 輸出:1299902400000000000
當使?pandas的DateOffset對象執?時間算術運算時,運算過程會?動關注是否存在夏令時轉變期。這?,我們創建了在DST轉變之前的時間戳。?先,來看夏令時轉變前的30分鐘:
from pandas.tseries.offsets import Hour
stamp = pd.Timestamp('2012-3-12 01:30', tz='US/Eastern')
stamp?????????????????? # 輸出:Timestamp('2012-03-12 01:30:00-0400', tz='US/Eastern')
stamp + Hour()????????? # 輸出如下:
Timestamp('2012-03-12 02:30:00-0400', tz='US/Eastern')
然后,夏令時轉變前90分鐘:
stamp = pd.Timestamp('2012-11-04 00:30', tz='US/Eastern')
stamp?????????????????? # 輸出如下:
Timestamp('2012-11-04 00:30:00-0400', tz='US/Eastern')
stamp + 2 * Hour()????? # 輸出如下:
Timestamp('2012-11-04 01:30:00-0500', tz='US/Eastern')
3、不同時區之間的運算
如果兩個時間序列的時區不同,在將它們合并到?起時,最終結果就會是UTC。由于時間戳其實是以UTC存儲的,所以這是?個很簡單的運算,并不需要發?任何轉換:
rng = pd.date_range('3/7/2012 9:30', periods=10, freq='B')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts????????????????????? # 輸出如下:
2012-03-07 09:30:00?? -2.376522
2012-03-08 09:30:00?? -0.666842
2012-03-09 09:30:00?? -0.261704
2012-03-12 09:30:00?? -0.552518
2012-03-13 09:30:00?? -0.595424
2012-03-14 09:30:00??? 0.055178
2012-03-15 09:30:00?? -0.147100
2012-03-16 09:30:00??? 0.150247
2012-03-19 09:30:00??? 1.349859
2012-03-20 09:30:00??? 0.235983
Freq: B, dtype: float64
ts1 = ts[:7].tz_localize('Europe/London')????? # 本地化時區為歐洲倫敦時區
ts2 = ts1[2:].tz_convert('Europe/Moscow')??? # 反轉為莫斯科時區
result = ts1 + ts2
result.index??????????? # 輸出如下:結果時區為UTC
DatetimeIndex(['2012-03-07 09:30:00+00:00', '2012-03-08 09:30:00+00:00',
?????????????????????????? '2012-03-09 09:30:00+00:00', '2012-03-12 09:30:00+00:00',
?????????????????????????? '2012-03-13 09:30:00+00:00', '2012-03-14 09:30:00+00:00',
?????????????????????????? '2012-03-15 09:30:00+00:00'],
???????????????????????? dtype='datetime64[ns, UTC]', freq='B')
五、時期及其算術運算
時期(period)表示的是時間區間,?如數?、數?、數季、數年等。Period類所表示的就是這種數據類型,其構造函數需要?到?個字符串或整數,以及表11-4中的頻率:
p = pd.Period(2007, freq='A-DEC')?????????????? # 參數A-DEC指向每年第12月的最后一天
p?????????? # 輸出:Period('2007', 'A-DEC')
這?,這個Period對象表示的是從2007年1?1?到2007年12?31?之間的整段時間。只需對Period對象加上或減去?個整數即可達到根據其頻率進?位移的效果:
p?????????? # 輸出:Period('2007', 'A-DEC')
p + 5?????? # 輸出:Period('2012', 'A-DEC'),加5年
p - 2??????? # 輸出:Period('2005', 'A-DEC'),減2年
如果兩個Period對象擁有相同的頻率,則它們的差就是它們之間的單位數量:
pd.Period('2014', freq='A-DEC') - p???????????? # 輸出:7,表示相差7年
period_range函數可?于創建規則的時期范圍:
rng = pd.period_range('2000-1-1', '2000-6-30', freq='M')
rng???????? # 輸出如下:
PeriodIndex(['2000-01', '2000-02', '2000-03', '2000-04', '2000-05', '2000-06'], dtype='period[M]', freq='M')
PeriodIndex類保存了?組Period,它可以在任何pandas數據結構中被?作軸索引:
pd.Series(np.random.randn(len(rng)), index=rng)???????????? # 輸出如下:
2000-01?? -0.301482
2000-02??? 0.410068
2000-03??? 1.628897
2000-04??? 0.555670
2000-05?? -1.277706
2000-06??? 0.424157
Freq: M, dtype: float64
如果你有?個字符串數組,你也可以使?PeriodIndex類:
values = ['2001Q3', '2002Q2', '2003Q1']
index = pd.PeriodIndex(values, freq='Q-DEC')?????? # 對字符串數組使用PeriodIndex類
index?????????????????? # 輸出如下:
PeriodIndex(['2001Q3', '2002Q2', '2003Q1'], dtype='period[Q-DEC]', freq='Q-DEC')
1、時期的頻率轉換
Period和PeriodIndex對象都可以通過其asfreq?法被轉換成別的頻率。假設我們有?個年度時期,希望將其轉換
為當年年初或年末的?個?度時期。該任務?常簡單:
p = pd.Period('2007', freq='A-DEC')
p?????????? # 輸出如下:Period('2007', 'A-DEC')
p.asfreq('M', how='start')????????? # 輸出:Period('2007-01', 'M')
p.asfreq('M', how='end')??????????? # 輸出:Period('2007-12', 'M')
你可以將Period('2007','A-DEC')看做?個被劃分為多個?度時期的時間段中的游標。圖11-1對此進?了說明。
??????????????????????????????????????????? 圖11-1? Period頻率轉換示例
對于?個不以12?結束的財政年度,?度?時期的歸屬情況就不?樣了:
p = pd.Period('2007', freq='A-JUN')
p?????????????????????? # 輸出:Period('2007', 'A-JUN')
p.asfreq('M', how='start')????????? # 輸出:Period('2006-07', 'M'),跨年
p.asfreq('M', how='end')??????????? # 輸出:Period('2007-06', 'M')
在將?頻率轉換為低頻率時,父時期(superperiod)是由?時期(subperiod)所屬的位置決定的。例如,在A-JUN頻率中,?份“2007年8?”實際上是屬于周期“2008年”的:
p = pd.Period('Aug-2007', 'M')
p.asfreq('A-JUN')?????????????????? # 輸出:Period('2008', 'A-JUN'),周期是2008年
完整的PeriodIndex或TimeSeries的頻率轉換?式也是如此:
rng = pd.period_range('2006', '2009', freq='A-DEC')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts????????????????????? # 輸出如下:(頻率是每年最后一個月)
2006?? -0.634701
2007?? -1.254044
2008?? -1.077110
2009??? 0.887097
Freq: A-DEC, dtype: float64
ts.asfreq('M', how='start')???????? # 輸出如下:(頻率是每年最第一個月)
2006-01?? -0.634701
2007-01?? -1.254044
2008-01?? -1.077110
2009-01??? 0.887097
Freq: M, dtype: float64
這?,根據年度時期的第?個?,每年的時期被取代為每?的時期。如果我們想要每年的最后?個?作?,我們可以使?“B”頻率,并指明想要該時期的末尾:
ts.asfreq('B', how='end')?????????????????????? # 輸出如下:
2006-12-29?? -0.634701
2007-12-31?? -1.254044
2008-12-31?? -1.077110
2009-12-31??? 0.887097
Freq: B, dtype: float64
2、按季度計算的時期頻率
季度型數據在會計、?融等領域中很常?。許多季度型數據都會涉及“財年末”的概念,通常是?年12個?中某?的最后?個?歷?或?作?。就這?點來說,時期"2012Q4"根據財年末的不同會有不同的含義。pandas?持12種可能的季度型頻率,即Q-JAN到Q-DEC:
p = pd.Period('2012Q4', freq='Q-JAN')?????????? # 財年末是1月的最后一天
p?????????? # 輸出:Period('2012Q4', 'Q-JAN')
在以1?結束的財年中,2012Q4是從11?到1?(將其轉換為?型頻率就明?了)。圖11-2對此進?了說明:
??????????????????????????????????????? 圖11-2? 不同季度型頻率之間的轉換
p.asfreq('D', 'start')????????????? # 輸出如下:財年的第一天(參數傳遞方式:位置參數)
Period('2011-11-01', 'D')
p.asfreq('D', 'end')??????????????? # 輸出如下:指向財年末的最后一天
Period('2012-01-31', 'D')
因此,Period之間的算術運算會?常簡單。例如,要獲取該季度倒數第?個?作?下午4點的時間戳,你可以這樣:
# 參數傳遞方式:簡寫的位置參數。asfreq('T', 's')的頻率是分,所以16*60指向下午的16點整
p4pm = (p.asfreq('B', 'e') -1).asfreq('T', 's') + 16*60
p4pm??????????????????? # 輸出:Period('2012-01-30 16:00', 'T')
p4pm.to_timestamp()???????????????? # 輸出:Timestamp('2012-01-30 16:00:00')
period_range可?于?成季度型范圍。季度型范圍的算術運算也跟上?是?樣的:
rng = pd.period_range('2011Q3', '2012Q4', freq='Q-JAN')
ts = pd.Series(np.arange(len(rng)), index=rng)
ts????????????????????? # 輸出如下:
2011Q3??? 0
2011Q4??? 1
2012Q1??? 2
2012Q2??? 3
2012Q3??? 4
2012Q4??? 5
Freq: Q-JAN, dtype: int32
new_rng = (rng.asfreq('B', 'e') - 1).asfreq('T', 's') + 16*60?????????? # 頻率轉換
ts.index = new_rng.to_timestamp()?? # 改變ts的索引
ts????????????????????? # 輸出如下:
2010-10-28 16:00:00??? 0
2011-01-28 16:00:00??? 1
2011-04-28 16:00:00??? 2
2011-07-28 16:00:00??? 3
2011-10-28 16:00:00??? 4
2012-01-30 16:00:00??? 5
dtype: int32
3、將Timestamp轉換為Period(及其反向過程)
通過使?to_period?法,可以將由時間戳索引的Series和DataFrame對象轉換為以時期索引:
rng = pd.date_range('2000-1-1', periods=3, freq='M')
ts = pd.Series(np.random.randn(3), index=rng)
ts????????????????????? # 輸出如下:
2000-01-31??? 0.620808
2000-02-29??? 0.242898
2000-03-31??? 0.480687
Freq: M, dtype: float64
pts = ts.to_period()??? # Timestamp轉換為Period
pts
2000-01??? 0.620808
2000-02??? 0.242898
2000-03??? 0.480687
Freq: M, dtype: float64
由于時期指的是?重疊時間區間,因此對于給定的頻率,?個時間戳只能屬于?個時期。新PeriodIndex的頻率默認是從時間戳推斷?來的,你也可以指定任何別的頻率。結果中允許存在重復時期:
rng = pd.date_range('1/29/2000', periods=6, freq='D')
ts2 = pd.Series(np.random.randn(6), index=rng)
ts2???????????????????? # 輸出如下:
2000-01-29?? -0.012140
2000-01-30?? -0.950665
2000-01-31?? -0.197126
2000-02-01??? 0.551863
2000-02-02??? 0.813741
2000-02-03??? 0.646920
Freq: D, dtype: float64
ts2.to_period('M')????????????????? # 輸出如下:通過to_period()方法將時間戳轉換為月
2000-01?? -0.012140
2000-01?? -0.950665
2000-01?? -0.197126
2000-02??? 0.551863
2000-02??? 0.813741
2000-02??? 0.646920
Freq: M, dtype: float64
要轉換回時間戳,使?to_timestamp即可:
pts = ts2.to_period()
pts???????????????????? # 輸出如下:
2000-01-29?? -0.012140
2000-01-30?? -0.950665
2000-01-31?? -0.197126
2000-02-01??? 0.551863
2000-02-02??? 0.813741
2000-02-03??? 0.646920
Freq: D, dtype: float64
pts.to_timestamp(how='end')???????? # 輸出如下:
2000-01-29?? -0.012140
2000-01-30?? -0.950665
2000-01-31?? -0.197126
2000-02-01??? 0.551863
2000-02-02??? 0.813741
2000-02-03??? 0.646920
Freq: D, dtype: float64
4、通過數組創建PeriodIndex
固定頻率的數據集通常會將時間信息分開存放在多個列中。例如,在下?這個宏觀經濟數據集中,年度和季度就
分別存放在不同的列中:
data = pd.read_csv('examples/macrodata.csv')
data.head()???????????? # 輸出如下:
???????? year? quarter?? realgdp? realcons?? realinv?? realgovt?? realdpi??? cpi??? \
0? 1959.0???????? 1.0? 2710.349??? 1707.4? 286.898?? 470.045?? 1886.9? 28.98
1? 1959.0???????? 2.0? 2778.801??? 1733.7? 310.859?? 481.301?? 1919.7? 29.15
2? 1959.0???????? 3.0? 2775.488??? 1751.8? 289.226?? 491.260?? 1916.4? 29.35
3? 1959.0???????? 4.0? 2785.204??? 1753.7? 299.356?? 484.052?? 1931.3? 29.37
4? 1960.0???????? 1.0? 2847.699??? 1770.5? 331.722?? 462.199?? 1955.5? 29.54
??????? m1? tbilrate? unemp??????? pop?? infl? realint
0? 139.7?????? 2.82??????? 5.8? 177.146? 0.00???? 0.00
1? 141.7?????? 3.08??????? 5.1? 177.830? 2.34???? 0.74
2? 140.5?????? 3.82??????? 5.3? 178.657? 2.74???? 1.09
3? 140.0?????? 4.33??????? 5.6? 179.386? 0.27???? 4.06
4? 139.6?????? 3.50??????? 5.2? 180.007? 2.31???? 1.19
data.year?????????????? # 輸出如下:
0????? 1959.0
1????? 1959.0
2????? 1959.0
3????? 1959.0
4????? 1960.0
???????? ...
198??? 2008.0
199??? 2008.0
200??? 2009.0
201??? 2009.0
202??? 2009.0
Name: year, Length: 203, dtype: float64
data.quarter??????????? # 輸出如下:
0????? 1.0
1????? 2.0
2????? 3.0
3????? 4.0
4????? 1.0
?????? ...
198??? 3.0
199??? 4.0
200??? 1.0
201??? 2.0
202??? 3.0
Name: quarter, Length: 203, dtype: float64
通過將這些數組以及?個頻率傳?PeriodIndex,就可以將它們合并成DataFrame的?個索引:
index = pd.PeriodIndex(year=data.year, quarter=data.quarter, freq='Q-DEC')
index?????????????????? # 輸出如下:
PeriodIndex(['1959Q1', '1959Q2', '1959Q3', '1959Q4', '1960Q1', '1960Q2',
?????????????????????? '1960Q3', '1960Q4', '1961Q1', '1961Q2',
???????????????????????????????????? ...
?????????????????????? '2007Q2', '2007Q3', '2007Q4', '2008Q1', '2008Q2', '2008Q3',
?????????????????????? '2008Q4', '2009Q1', '2009Q2', '2009Q3'],
????????????????????? dtype='period[Q-DEC]', length=203, freq='Q-DEC')
data.index = index
data.infl?????????????? # 輸出如下:(輸出data的infl列)
1959Q1??? 0.00
1959Q2??? 2.34
1959Q3??? 2.74
1959Q4??? 0.27
1960Q1??? 2.31
?????????? ...
2008Q3?? -3.16
2008Q4?? -8.79
2009Q1??? 0.94
2009Q2??? 3.37
2009Q3??? 3.56
Freq: Q-DEC, Name: infl, Length: 203, dtype: float64
六、重采樣及頻率轉換
重采樣(resampling)指的是將時間序列從?個頻率轉換到另?個頻率的處理過程。將?頻率數據聚合到低頻率稱為降采樣(downsampling),?將低頻率數據轉換到?頻率則稱為升采樣(upsampling)。并不是所有的重采樣都能被劃分到這兩個?類中。例如,將W-WED(每周三)轉換為W-FRI既不是降采樣也不是升采樣。
pandas對象都帶有?個resample?法,它是各種頻率轉換?作的主?函數。resample有?個類似于groupby的API,調?resample可以分組數據,然后會調??個聚合函數:
rng = pd.date_range('2000-1-1', periods=100, freq='D')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts????????????????????????????????? # 輸出如下:
2000-01-01?? -0.222942
2000-01-02??? 0.026890
2000-01-03?? -0.233215
2000-01-04?? -0.090225
2000-01-05?? -1.650894
???????????????? ...
2000-04-05??? 0.792029
2000-04-06??? 0.901992
2000-04-07?? -1.138330
2000-04-08??? 0.264210
2000-04-09?? -1.102930
Freq: D, Length: 100, dtype: float64
ts.resample('M').mean()???????????? # 按月重采樣,按月計算平均值,結果按月聚合
2000-01-31?? -0.170285
2000-02-29??? 0.122144
2000-03-31??? 0.025351
2000-04-30?? -0.129685
Freq: M, dtype: float64
ts.resample('M', kind='period').mean()????????? # 聚合到周期,輸出如下:
2000-01?? -0.170285
2000-02??? 0.122144
2000-03??? 0.025351
2000-04?? -0.129685
Freq: M, dtype: float64
resample是?個靈活?效的?法,可?于處理?常?的時間序列。后面將通過?系列的示例說明其?法。
表11-5總結它的?些選項。
表11-5? resample?法的參數
參數??????????????????? 說明
freq??????????????????? 表示重采樣頻率的字符串或Dateoffset,例如'M'、'5min'或Second(15)
axis??????????????????? 重采樣的軸,默認為 axis=0
fill_method??????? 升采樣如何插值,比如'ffill'或'bfill'。默認不插值
closed??????????????? 在降采樣中,各時間段的哪一端是閉合(即包含)的,right或left。默認是right
label?????????????????? 在降采樣中,如何設置聚合值得標簽,right或left(面元的右邊界或左邊界)。
?????????????????????????? 例如,9:30到9:35之間的這5分鐘會被標記為9:30或9:35。默認為right
loffset???????????????? 面元標簽的時間校正值,比如'-1s'/Second(-1)用于將聚合標簽調早1秒
limit??????????????????? 在前向或后向填充時,允許填充的最大時間數
kind??????????????????? 聚合到周期('period')或時間戳('timestamp'),默認聚合到時間序列的索引類型
convention???????? 當對周期進行重采樣,將低頻周期轉換為高頻的慣用法('start'或'end');默認是'end'
1、降采樣
將數據聚合到規律的低頻率是?件?常普通的時間序列處理任務。待聚合的數據不必擁有固定的頻率,期望的頻率會?動定義聚合的?元邊界,這些?元?于將時間序列拆分為多個?段。例如,要轉換到?度頻率('M'或'BM'),數據需要被劃分到多個單?時間段中。各時間段都是半開放的。?個數據點只能屬于?個時間段,所有時間段的并集必須能組成整個時間幀。在?resample對數據進?降采樣時,需要考慮兩點:
???????????? 各區間哪邊是閉合的。
???????????? 如何標記各個聚合?元,?區間的開頭還是末尾。
為了說明,我們來看?些“1分鐘”數據:
rng = pd.date_range('2000-1-1', periods=12, freq='T')
ts = pd.Series(np.arange(12), index=rng)
ts????????????????????? # 輸出如下:
2000-01-01 00:00:00???? 0
2000-01-01 00:01:00???? 1
2000-01-01 00:02:00???? 2
2000-01-01 00:03:00???? 3
2000-01-01 00:04:00???? 4
2000-01-01 00:05:00???? 5
2000-01-01 00:06:00???? 6
2000-01-01 00:07:00???? 7
2000-01-01 00:08:00???? 8
2000-01-01 00:09:00???? 9
2000-01-01 00:10:00??? 10
2000-01-01 00:11:00??? 11
Freq: T, dtype: int32
假設你想要通過求和的?式將這些數據聚合到“5分鐘”塊中:
ts.resample('5min', closed='right').sum()?????? # 輸出如下:
1999-12-31 23:55:00???? 0
2000-01-01 00:00:00??? 15
2000-01-01 00:05:00??? 40
2000-01-01 00:10:00??? 11
Freq: 5T, dtype: int32
傳?的頻率將會以“5分鐘”的增量定義?元邊界。默認情況下,?元的右邊界是包含的,因此00:00到00:05的區間中是包含00:05的。傳?closed='left'會讓區間以左邊界閉合:
ts.resample('5min', closed='left').sum()??????? # 輸出如下:
2000-01-01 00:00:00??? 10
2000-01-01 00:05:00??? 35
2000-01-01 00:10:00??? 21
Freq: 5T, dtype: int32
如你所?,最終的時間序列是以各?元左邊界的時間戳進?標記的。傳?label='right'即可??元的右邊界對其進?標記:
ts.resample('5min', closed='left', label='right').sum()???? # 輸出如下:右邊界進行標記,但數據不包含右邊界
2000-01-01 00:05:00??? 10
2000-01-01 00:10:00??? 35
2000-01-01 00:15:00??? 21
Freq: 5T, dtype: int32
圖11-3說明了“1分鐘”數據被轉換為“5分鐘”數據的處理過程。
???????????????????????????? 圖11-3? 各種closed、label約定的“5分鐘”重采樣演示
最后,你可能希望對結果索引做?些位移,?如從右邊界減去?秒以便更容易明?該時間戳到底表示的是哪個區間。只需通過loffset設置?個字符串或?期偏移量即可實現這個?的:
ts.resample('5min', closed='left', label='right', loffset='-1s').sum()
2000-01-01 00:04:59??? 10
2000-01-01 00:09:59??? 35
2000-01-01 00:14:59??? 21
Freq: 5T, dtype: int32
此外,也可以通過調?結果對象的shift?法來實現該?的,這樣就不需要設置loffset了。
2、OHLC重采樣
?融領域中有?種?所不在的時間序列聚合?式,即計算各?元的四個值:第?個值(open,開盤)、最后?個
值(close,收盤)、最?值(high,最?)以及最?值(low,最低)。傳?how='ohlc'即可得到?個含有這四
種聚合值的DataFrame。整個過程很?效,只需?次掃描即可計算出結果:
ts.resample('5min').ohlc()????????????????????? # 輸出如下:
????????????????????????????????? open? high? low? close
2000-01-01 00:00:00????? 0?????? 4????? 0??????? 4
2000-01-01 00:05:00????? 5?????? 9????? 5??????? 9
2000-01-01 00:10:00??? 10???? 11??? 10????? 11
3、升采樣和插值
在將數據從低頻率轉換到?頻率時,就不需要聚合了。來看?個帶有?些周型數據(weekly data)的DataFrame:
frame = pd.DataFrame(np.random.randn(2, 4),
?????????????????????????????????????? index=pd.date_range('1/1/2000', periods=2, freq='W-WED'),
?????????????????????????????????????? columns=['Colorado', 'Texas', 'New York', 'Ohio'])
frame?????????????????? # 輸出如下:
????????????????????? Colorado?????? Texas? New York???????? Ohio
2000-01-05? 1.454027 -0.827189 -1.434377 -0.714617
2000-01-12 -2.558629 -1.383027? 0.218594 -1.543188
當你對這個數據進?聚合,每組只有?個值,這樣就會引?缺失值。我們使?asfreq?法轉換成?頻,不經過聚合:
df_daily = frame.resample('D').asfreq()???????? # 會引入缺失值
df_daily??????????????? # 輸出如下:
????????????????????? Colorado?????? Texas? New York???????? Ohio
2000-01-05? 1.454027 -0.827189 -1.434377 -0.714617
2000-01-06???????? NaN????????? NaN????????? NaN???????? NaN
2000-01-07???????? NaN????????? NaN????????? NaN???????? NaN
2000-01-08???????? NaN????????? NaN????????? NaN???????? NaN
2000-01-09???????? NaN????????? NaN????????? NaN???????? NaN
2000-01-10???????? NaN????????? NaN????????? NaN???????? NaN
2000-01-11???????? NaN????????? NaN????????? NaN???????? NaN
2000-01-12 -2.558629 -1.383027? 0.218594 -1.543188
假設你想要?前?的周型值填充“?星期三”。resampling的填充和插值?式跟fillna和reindex的?樣:
frame.resample('D').ffill()???????????????????? # 輸出如下:按天重采樣填充
????????????????????? Colorado?????? Texas? New York???????? Ohio
2000-01-05? 1.454027 -0.827189 -1.434377 -0.714617
2000-01-06? 1.454027 -0.827189 -1.434377 -0.714617
2000-01-07? 1.454027 -0.827189 -1.434377 -0.714617
2000-01-08? 1.454027 -0.827189 -1.434377 -0.714617
2000-01-09? 1.454027 -0.827189 -1.434377 -0.714617
2000-01-10? 1.454027 -0.827189 -1.434377 -0.714617
2000-01-11? 1.454027 -0.827189 -1.434377 -0.714617
2000-01-12 -2.558629 -1.383027? 0.218594 -1.543188
同樣,這?也可以只填充指定的時期數(?的是限制前?的觀測值的持續使?距離):
frame.resample('D').ffill(limit=2)????????????? # 輸出如下:
????????????????????? Colorado?????? Texas? New York???????? Ohio
2000-01-05? 1.454027 -0.827189 -1.434377 -0.714617
2000-01-06? 1.454027 -0.827189 -1.434377 -0.714617
2000-01-07? 1.454027 -0.827189 -1.434377 -0.714617
2000-01-08???????? NaN????????? NaN????????? NaN????????? NaN
2000-01-09???????? NaN????????? NaN????????? NaN????????? NaN
2000-01-10???????? NaN????????? NaN????????? NaN????????? NaN
2000-01-11???????? NaN????????? NaN????????? NaN????????? NaN
2000-01-12 -2.558629 -1.383027? 0.218594 -1.543188
注意,新的?期索引完全沒必要跟舊的重疊:
frame.resample('W-THU').ffill()
????????????????????? Colorado?????? Texas? New York???????? Ohio
2000-01-06? 1.454027 -0.827189 -1.434377 -0.714617
2000-01-13 -2.558629 -1.383027? 0.218594 -1.543188
4、通過時期進?重采樣
對那些使?時期索引的數據進?重采樣與時間戳很像:
frame = pd.DataFrame(np.random.randn(24, 4),
?????????????????????????????????????? index=pd.period_range('1-2000', '12-2001', freq='M'),
?????????????????????????????????????? columns=['Colorado', 'Texas', 'New York', 'Ohio'])
frame[:5]?????????????? # 前5行輸出如下:([-5:]取最后5行),也可用head()和tail()方法
???????????????? Colorado??????? Texas? New York??????? Ohio
2000-01 -0.122366 -1.482307 -1.511748 -1.001796
2000-02 -0.309046 -0.433579? 0.641963 -0.845334
2000-03? 1.467931? 1.524688 -1.107858? 1.721680
2000-04 -0.007002? 1.601335? 0.366802? 1.904509
2000-05 -1.687389 -1.237108 -0.567321 -0.918862
以每年的最后一個月重采樣求平均值
annual_frame = frame.resample('A-DEC').mean()
annual_frame??????????????????????? # 輸出如下:
?????????? Colorado?????? Texas? New York??????? Ohio
2000? 0.293250 -0.001142? -0.25785? 0.007990
2001 -0.266541 -0.091771?? 0.56443 -0.783206
升采樣要稍微麻煩?些,因為你必須決定在新頻率中各區間的哪端?于放置原來的值,就像asfreq?法那樣。
convention參數默認為'start',可設置為'end':
# Q-DEC: Quarterly, year ending in December,按季度采樣,每年的最后一個月為邊界
annual_frame.resample('Q-DEC').ffill()????????? # convention參數默認為'start',升采樣
????????????? Colorado?????? Texas? New York??????? Ohio
2000Q1? 0.293250 -0.001142? -0.25785? 0.007990
2000Q2? 0.293250 -0.001142? -0.25785? 0.007990
2000Q3? 0.293250 -0.001142? -0.25785? 0.007990
2000Q4? 0.293250 -0.001142? -0.25785? 0.007990
2001Q1 -0.266541 -0.091771?? 0.56443 -0.783206
2001Q2 -0.266541 -0.091771?? 0.56443 -0.783206
2001Q3 -0.266541 -0.091771?? 0.56443 -0.783206
2001Q4 -0.266541 -0.091771?? 0.56443 -0.783206
將convention參數設置為'end':
annual_frame.resample('Q-DEC', convention='end').ffill()
??????????????? Colorado?????? Texas? New York??????? Ohio
2000Q4? 0.293250 -0.001142? -0.25785? 0.007990
2001Q1? 0.293250 -0.001142? -0.25785? 0.007990
2001Q2? 0.293250 -0.001142? -0.25785? 0.007990
2001Q3? 0.293250 -0.001142? -0.25785? 0.007990
2001Q4 -0.266541 -0.091771?? 0.56443 -0.783206
由于時期指的是時間區間,所以升采樣和降采樣的規則就?較嚴格:
???????????? 在降采樣中,?標頻率必須是源頻率的?時期(subperiod)。
???????????? 在升采樣中,?標頻率必須是源頻率的父時期(superperiod)。
如果不滿?這些條件,就會引發異常。這主要影響的是按季、年、周計算的頻率。例如,由Q-MAR定義的時間區間只能升采樣為A-MAR、A-JUN、A-SEP、A-DEC等:
annual_frame.resample('Q-MAR').ffill()????????? # 輸出如下:
??????????????? Colorado?????? Texas? New York??????? Ohio
2000Q4? 0.293250 -0.001142? -0.25785? 0.007990
2001Q1? 0.293250 -0.001142? -0.25785? 0.007990
2001Q2? 0.293250 -0.001142? -0.25785? 0.007990
2001Q3? 0.293250 -0.001142? -0.25785? 0.007990
2001Q4 -0.266541 -0.091771?? 0.56443 -0.783206
2002Q1 -0.266541 -0.091771?? 0.56443 -0.783206
2002Q2 -0.266541 -0.091771?? 0.56443 -0.783206
2002Q3 -0.266541 -0.091771?? 0.56443 -0.783206
七、移動窗?函數
在移動窗?(可以帶有指數衰減權數)上計算的各種統計函數也是?類常?于時間序列的數組變換。這樣可以圓滑噪?數據或斷裂數據。我將它們稱為移動窗?函數(moving window function),其中還包括那些窗?不定?的函數(如指數加權移動平均)。跟其他統計函數?樣,移動窗?函數也會?動排除缺失值。
首先加載?些時間序列數據,將其重采樣為?作?頻率:
close_px_all = pd.read_csv('examples/stock_px_2.csv',
??????????????????????????????????????????? parse_dates=True, index_col=0)
close_px = close_px_all[['AAPL', 'MSFT', 'XOM']]??????????? # 取指定列的數據
close_px = close_px.resample('B').ffill()?????? # 根據每工作日重采樣
現在引?rolling運算符,它與resample和groupby很像。可以在TimeSeries或DataFrame以及?個window(表示期數,?圖11-4)上調?它:
close_px.AAPL.plot()
<matplotlib.axes._subplots.AxesSubplot at 0x1a6ac2ab668>
close_px.AAPL.rolling(250).mean().plot()??????? # 輸出圖形11-4
Out[150]: <matplotlib.axes._subplots.AxesSubplot at 0x1a6ac2ab668>
???????????????????????????????????????????? 圖11-4? 蘋果公司股價的250?均線
表達式rolling(250)與groupby很像,但不是對其進行分組,而是創建一個按照250天分組的滑動窗口對象。然后,就得到了蘋果公司股價的250天的移動窗口。
默認情況下,rolling函數需要窗口中所有的值為非NA值。可以修改該行為以解決缺失數據的問題。其實,在時間序列開始處尚不足窗口期的那些數據就是個特例(見圖11-5)
appl_std250 = close_px.AAPL.rolling(250, min_periods=10).std()
appl_std250[5:12]?????????????????? # 輸出如下:
2003-01-09?????????? NaN
2003-01-10?????????? NaN
2003-01-13?????????? NaN
2003-01-14?????????? NaN
2003-01-15??? 0.077496
2003-01-16??? 0.074760
2003-01-17??? 0.112368
Freq: B, Name: AAPL, dtype: float64
appl_std250.plot()????????????????? # 輸出圖形11-5
????????????????????????????????????????? 圖11-5? 蘋果公司250?每?回報標準差
要計算擴展窗口平均(expanding window mean),可以使用expanding而不是rolling。“擴展”意味著,
從時間序列的起始處開始窗口,增加窗口直到它超過所有的序列。apple_std250時間序列的擴展窗口平均如
下所示:
expanding_mean = appl_std250.expanding().mean()
對DataFrame調?rolling_mean(以及與之類似的函數)會將轉換應?到所有的列上(?圖11-6):
close_px.rolling(60).mean().plot(logy=True)???? # 輸出圖形11-6
????????????????????????????????????????????? 圖11-6 各股價60?均線(對數Y軸)
rolling函數也可以接受一個指定固定大小時間補償字符串,而不是一組時期。這樣可以方便處理不規律的時間序
列。這些字符串也可以傳遞給resample。例如,我們可以計算20天的滾動均值,如下所示:
close_px.rolling('20D').mean()????????????????? # 輸出如下:
???????????????????????????? AAPL????????? MSFT????????? XOM
2003-01-02??? 7.400000? 21.110000? 29.220000
2003-01-03??? 7.425000? 21.125000? 29.230000
2003-01-06??? 7.433333? 21.256667? 29.473333
2003-01-07??? 7.432500? 21.425000? 29.342500
2003-01-08??? 7.402000? 21.402000? 29.240000
...??????????????????????????????? ...?????????????? ...???????????????? ...
2011-10-10? 389.351429? 25.602143? 72.527857
2011-10-11? 388.505000? 25.674286? 72.835000
2011-10-12? 388.531429? 25.810000? 73.400714
2011-10-13? 388.826429? 25.961429? 73.905000
2011-10-14? 391.038000? 26.048667? 74.185333
[2292 rows x 3 columns]
1、指數加權函數
另?種使?固定??窗?及相等權數觀測值的辦法是,定義?個衰減因?(decay factor)常量,以便使近期的觀測值擁有更?的權數。衰減因?的定義?式有很多,?較流?的是使?時間間隔(span),它可以使結果兼容于窗???等于時間間隔的簡單移動窗?(simple moving window)函數。
由于指數加權統計會賦予近期的觀測值更?的權數,因此相對于等權統計,它能“適應”更快的變化。
除了rolling和expanding,pandas還有ewm運算符。下?這個例?對?了蘋果公司股價的30?移動平均和span=30的指數加權移動平均(如圖11-7所示):
appl_px = close_px.AAPL['2006':'2007']
ma30 = appl_px.rolling(30, min_periods=30).mean()?????????? # 30日移動平均
ewma30 = appl_px.ewm(span=30).mean()??????????? # 30日移動加權平均
ma30.plot(style='r--', label='Simple MA')
ewma30.plot(style='b-', label='EW MA')
plt.legend()??????????? # 輸出圖形11-7
????????????????????????????????????????? 圖11-7? 簡單移動平均與指數加權移動平均
2、?元移動窗?函數
有些統計運算(如相關系數和協方差)需要在兩個時間序列上執行。例如,金融分析師常常對某只股票對某個參考指數(如標準普爾500指數)的相關系數感興趣。要進行說明,我們先計算我們感興趣的時間序列的百分數變化:
spx_px = close_px_all['SPX']
spx_rets = spx_px.pct_change()
returns = close_px.pct_change()
調?rolling之后,corr聚合函數開始計算與spx_rets滾動相關系數(結果?圖11-8):
corr = returns.AAPL.rolling(125, min_periods=100).corr(spx_rets)
corr.plot()???????????? # 輸出圖形11-8
???????????????????????????????? 圖11-8? AAPL 6個?的回報與標準普爾500指數的相關系數
假設你想要一次性計算多只股票與標準普爾500指數的相關系數。雖然編寫一個循環并新建一個DataFrame不是什么難事,但比較啰嗦。其實,只需傳入一個TimeSeries和一個DataFrame,rolling_corr就會自動計算TimeSeries(本例中就是spx_rets)與DataFrame各列的相關系數。結果如圖11-9所示:
corr = returns.rolling(125, min_periods=100).corr(spx_rets)
corr.plot()???????????? # 輸出圖形11-9
??????????????????????????????????? 圖11-9? 3只股票6個?的回報與標準普爾500指數的相關系數
3、?戶定義的移動窗?函數
rolling_apply函數使你能夠在移動窗?上應???設計的數組函數。唯?要求的就是:該函數要能從數組的各個?段中產?單個值(即約簡)。?如說,當我們?rolling(...).quantile(q)計算樣本分位數時,可能對樣本中特定值的百分等級感興趣。scipy.stats.percentileofscore函數就能達到這個?的(結果?圖11-10):
from scipy.stats import percentileofscore
score_at_2percent = lambda x: percentileofscore(x, 0.02)
result = returns.AAPL.rolling(250).apply(score_at_2percent)
result.plot()?????????? # 輸出圖形11-10
???????????????????????????????? 圖11-10? AAPL 2%回報率的百分等級(?年窗?期)
如果沒安裝SciPy,可以使?conda或pip安裝。
八、總結
與之前接觸到的數據相?,時間序列數據要求不同類型的分析和數據轉換?具。
轉載于:https://www.cnblogs.com/Micro0623/p/10190574.html
總結
- 上一篇: 金山WPS面试题
- 下一篇: 自制一个 简易jQuery 的 API