dataframe 众数的方法_pandas 第11篇:DataFrame-数据处理(分组、聚合、窗口、相关、统计)...
數據處理的目的是為了數據分析,下面分享常用的數據分析中會用到的函數。
一,分組和聚合
groupby用于對數據分組,分組之后可以直接調用聚合函數求值;agg()函數把分組和調用聚合函數集成到一個函數來實現:
DataFrame.groupby(self, by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, **kwargs)
DataFrame.agg(self, func, axis=0, *args, **kwargs)
二,窗口
rolling()是指按照窗口滾動求值,expanding()是指依次遞增1,計算累加;ewm指的是指數加權滾動平均:
DataFrame.rolling(self, window, min_periods=None, center=False, win_type=None, on=None, axis=0, closed=None)
DataFrame.expanding(self, min_periods=1, center=False, axis=0)
DataFrame.ewm(self, com=None, span=None, halflife=None, alpha=None, min_periods=0, adjust=True, ignore_na=False, axis=0)
三,相關
計算兩對列值之間的相關性:
DataFrame.corr(self, method='pearson', min_periods=1)
method:計算相關性的方法,有效值是?‘pearson’, ‘kendall’, ‘spearman’ 或 callable
min_periods:每對列必須具有有效結果的最小觀察數量,目前只適用于:Pearson 和 Spearman相關性。
四,統計函數
常用的統計函數:
min、max:最小值、最大值
mode:眾數
var:方差
std:標準差
sum:累加和
mean:均值
mad:絕對值的均值
median:中位數
quantile:百分位數
count:計數
cumsum:累加求和
cumprod:累積乘積
cummin、cummax:累積最小值、累積最大值
參考文檔:
總結
以上是生活随笔為你收集整理的dataframe 众数的方法_pandas 第11篇:DataFrame-数据处理(分组、聚合、窗口、相关、统计)...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Ubuntu 20.10安装docker
- 下一篇: opa847方波放大电路_电子设计竞赛教