Datawhale组队-Pandas(下)时序数据(打卡)
Pandas可以處理任何領域的時序數據(time series),使用Numpy的datetime64?和timedelta64?類型,Pandas整合了來自其他Python庫的大量功能,如Scikits.TimeSeries,并為處理時間序列數據創建了大量新功能。
一、時序的創建
1.四類時間變量
| 名稱 | 描述 | 元素類型 | 創建方式 |
| Datetimes(時間點/時刻) | 描述特定日期或時間點 | Timestamp | to_datetime或date_range |
| Timespans(時間段/時期) | 由時間點定義的一段時期 | Period | Period或period_range |
| Dateoffsets(相對時間差) | 一段時間的相對大小 (與夏/冬令時無關) | Dateoffset | DateOffset |
| Timedeltas(絕對時間差) | 一段時間的絕對大小 (與夏/冬令時有關) | Timedelta | to_timedelta或 timedelta_range |
對于時間序列數據,傳統的做法是在Series或DataFrame索引中表示時間分量,這樣就可以對時間元素執行操作。但是,Series和DataFrame也可以直接支持作為數據本身的時間組件。當傳遞到這些構造函數時,Series和DataFrame擴展了對日期時間、時間增量和期間數據的數據類型支持和功能。然而,DateOffset數據將作為對象數據存儲。
#在index加入時間成分,dtype為int64 pd.Series(range(3), index=pd.date_range('2000', freq='D', periods=3)) #直接定義時間成分,dtype為datetime64[ns] pd.Series(pd.date_range('2000', freq='D', periods=3))2.時間點的創建
Timestamped是將值與時間點相關聯的最基本的時間序列數據類型。對于pandas objects來說,這意味著使用時間點。
(a)to_datetime方法
Pandas在時間點建立的輸入格式規定上給了很大的自由度,下面的語句都能正確建立同一時間點
print(pd.to_datetime('2020.1.1')) print(pd.to_datetime('2020 1.1')) print(pd.to_datetime('2020 1 1')) print(pd.to_datetime('2020 1-1')) print(pd.to_datetime('2020-1 1')) print(pd.to_datetime('2020-1-1')) print(pd.to_datetime('2020/1/1')) print(pd.to_datetime('1.1.2020')) print(pd.to_datetime('1.1 2020')) print(pd.to_datetime('1 1 2020')) print(pd.to_datetime('1 1-2020')) print(pd.to_datetime('1-1 2020')) print(pd.to_datetime('1-1-2020')) print(pd.to_datetime('1/1/2020')) print(pd.to_datetime('20200101')) print(pd.to_datetime('2020.0101'))#pd.to_datetime('2020\\1\\1') #報錯 #pd.to_datetime('2020`1`1') #報錯 #pd.to_datetime('2020.1 1') #報錯 #pd.to_datetime('1 1.2020') #報錯利用format參數強制匹配
print(pd.to_datetime('2020\\1\\1',format='%Y\\%m\\%d')) print(pd.to_datetime('2020`1`1',format='%Y`%m`%d')) print(pd.to_datetime('2020.1 1',format='%Y.%m %d')) print(pd.to_datetime('1 1.2020',format='%d %m.%Y'))也可使用列表將其轉為時間點索引
pd.Series(range(2),index=pd.to_datetime(['2020/1/1','2020/1/2']))查看類型
type(pd.to_datetime(['2020/1/1','2020/1/2']))對于DataFrame,如果列已經按照時間順序排好,則利用to_datetime可自動轉換
df = pd.DataFrame({'year': [2020, 2020],'month': [1, 1], 'day': [1, 2]}) pd.to_datetime(df)(b)時間精度與范圍限制
Timestamp的精度遠遠不止day,可以最小到納秒ns,同時它的范圍為
pd.to_datetime('2020/1/1 00:00:00.123456789')#最小范圍 print(pd.Timestamp.min) #output:Timestamp('1677-09-21 00:12:43.145225') #最大范圍 print(pd.Timestamp.min) #output:Timestamp('2262-04-11 23:47:16.854775807')(c)date_range方法
start/end/periods(時間點個數)/freq(間隔方法)是該方法最重要的參數,給定了其中的3個,剩下的一個就會被卻sing
freq參數如下:
| 符號 | D/B | W | M/Q/Y | BM/BQ/BY | MS/QS/YS | BMS/BQS/BYS | H | T | S |
| 描述 | 日/工作日 | 周 | 月末 | 月/季/年末日 | 月/季/年末工作日 | 月/季/年初日 | 時 | 分鐘 | 秒 |
3.Dateoffset對象
(a)DateOffset與Timedelta的區別
Timedelta絕對時間差的特點指無論是冬令時還是夏令時,增減1day都只計算24小時
DateOffset相對時間差指,無論一天是23/24/25小時,增減1day都與當天相同的時間保持一致
例如,英國當地時間 2020年03月29日,01:00:00 時鐘向前調整 1 小時 變為 2020年03月29日,02:00:00,開始夏令時
ts = pd.Timestamp('2020-3-29 01:00:00', tz='Europe/Helsinki') ts + pd.Timedelta(days=1) ts = pd.Timestamp('2020-3-29 01:00:00', tz='Europe/Helsinki') ts + pd.DateOffset(days=1)可去除tz屬性,就可使兩者保持一致。
(b)增減一段時間
pd.Timestamp('2020-01-01') + pd.DateOffset(minutes=20) - pd.DateOffset(weeks=2)(c)各類常用offset對象
pd.Timestamp('2020-01-01') + pd.offsets.Week(2) #增加兩星期 pd.Timestamp('2020-01-01') + pd.offsets.BQuarterBegin(1) #營業季度開始(d)序列的offset操作
利用apply函數
pd.Series(pd.offsets.BYearBegin(3).apply(i) for i in pd.date_range('20200101',periods=3,freq='Y'))直接使用對象加減
pd.date_range('20200101',periods=3,freq='Y') + pd.offsets.BYearBegin(3)定制offset,可以指定weekmask和holidays參數
pd.Series(pd.offsets.CDay(3,weekmask='Wed Fri',holidays='2020010').apply(i)for i in pd.date_range('20200105',periods=3,freq='D'))二、時序的索引及屬性
1.索引切片
rng = pd.date_range('2020','2021', freq='W') ts = pd.Series(np.random.randn(len(rng)), index=rng) ts['2020-01-26':'20200726'].head() #日期從01-26,到07-26,字符自己轉換成合理的2.子集索引
#只取7月份數據 ts['2020-7'].head() #支持混合形態索引 ts['2011-1':'20200726'].head()3.時間點的屬性
采用dt對象可以輕松獲得關于時間的信息
#2020年有52個星期 pd.Series(ts.index).dt.week #每星期是在幾號 pd.Series(ts.index).dt.day利用strftime修改時間格式
pd.Series(ts.index).dt.strftime('%Y-間隔1-%m-間隔2-%d').head()對于datetime對象可以直接通過屬性獲取信息
#每個星期所在的月份 pd.date_range('2020','2021', freq='W').month #每個星期所在的月份 pd.date_range('2020','2021', freq='W').weekday #The number of the day of the week with Monday=0, Sunday=6三、重采樣
重采樣,就是指resample函數,它可以看做時序版本的groupby函數
1.resample對象的基本操作
采樣頻率一般設置為上面提到的offset字符
df_r = pd.DataFrame(np.random.randn(1000, 3),index=pd.date_range('1/1/2020', freq='S', periods=1000),columns=['A', 'B', 'C']) r = df_r.resample('3min') r.sum()2.采樣聚合
df_r = pd.DataFrame(np.random.randn(1000, 3),index=pd.date_range('1/1/2020', freq='S', periods=1000),columns=['A', 'B', 'C']) r = df_r.resample('3T')#只求一個值 r['A'].mean() #表示多個 r['A'].agg([np.sum, np.mean, np.std]) #使用lambda r.agg({'A': np.sum,'B': lambda x: max(x)-min(x)})3.采樣組的迭代
采樣組的迭代和groupby迭代完全類似,對于每一個組都可以分別做相應操作
small = pd.Series(range(6),index=pd.to_datetime(['2020-01-01 00:00:00', '2020-01-01 00:30:00', '2020-01-01 00:31:00','2020-01-01 01:00:00','2020-01-01 03:00:00','2020-01-01 03:05:00'])) resampled = small.resample('H') for name, group in resampled:print("Group: ", name)print("-" * 27)print(group, end="\n\n")四、窗口函數
1.Rolling
(a)常用聚合
s = pd.Series(np.random.randn(1000),index=pd.date_range('1/1/2020', periods=1000)) # s.rolling(window=50) # s.rolling(window=50).mean() #min_periods是指需要的非缺失數據點數量閾值 s.rolling(window=50,min_periods=3).mean()此外,還有count/sum/mean/median/min/max/std/var/skew/kurt/quantile/cov/corr都是常用的聚合函數
(b)rolling的apply聚合
使用apply聚合時,只需記住傳入的是window大小的Series,輸出的必須是標量即可,
#計算變異系數 s.rolling(window=50,min_periods=3).apply(lambda x:x.std()/x.mean()).head()(c)基于時間的Rolling
可選closed='right'(默認)\'left'\'both'\'neither'參數,決定端點的包含情況
s.rolling('15D').mean().head() #添加closed s.rolling('15D', closed='right').sum().head()2.Expanding
(a)expanding函數
普通的expanding函數等價與rolling(window=len(s),min_periods=1),是對序列的累計計算,apply也適用
#rolling s.rolling(window=len(s),min_periods=1).sum().head() #expanding s.expanding().sum().head() #apply s.expanding().apply(lambda x:sum(x)).head()(b)幾個特別的Expanding類型函數
cumsum/cumprod/cummax/cummin都是特殊expanding累計計算方法
shift/diff/pct_change都是涉及到了元素關系
①shift是指序列索引不變,但值向后移動
②diff是指前后元素的差,period參數表示間隔,默認為1,并且可以為負
③pct_change是值前后元素的變化百分比,period參數與diff類似
總結
以上是生活随笔為你收集整理的Datawhale组队-Pandas(下)时序数据(打卡)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: STM32 Futaba SBUS协议解
- 下一篇: 初始化COM库