當(dāng)前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

pandas series取值_【小学生级】pandas入门到精通备查表——AI未来系列3

發(fā)布時(shí)間：2025/3/12 ChatGpt 25 豆豆

生活随笔收集整理的這篇文章主要介紹了 pandas series取值_【小学生级】pandas入门到精通备查表——AI未来系列3 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

在未來面前，每個(gè)人都是學(xué)生

江海升月明，天涯共此時(shí)，關(guān)注江時(shí)！

引

子

篇為AI未來系列第三篇，中階部分開始。pandas的數(shù)據(jù)分析功能比excel強(qiáng)太多，基本上學(xué)會(huì)pandas，走遍天下都不怕。這是我的備查字典，是比較實(shí)用的一章。大概再介紹幾個(gè)庫就開始全面的實(shí)戰(zhàn)案例系列，且行且珍惜。

小學(xué)生級(jí)，阿姨也會(huì)，pandas入門到精通備查表。

正

文

Pandas是基于NumPy 的一種工具，其出現(xiàn)是為了解決數(shù)據(jù)分析任務(wù)。
Pandas吸納了大量庫和一些標(biāo)準(zhǔn)的數(shù)據(jù)模型，提供了高效操作大型數(shù)據(jù)集所需的工具。
Pandas中的函數(shù)和方法能夠使我們快速便捷地處理數(shù)據(jù)。
它是使Python成為強(qiáng)大而高效的數(shù)據(jù)分析環(huán)境的重要因素之一。http://pandas.pydata.org/pandas-docs/stable/api.html

http://pandas.pydata.org/

import numpy as np import pandas as pd # 首先導(dǎo)入pandas庫

一、序列Series

序列Series是一個(gè)一維數(shù)組結(jié)構(gòu)，可以存入任一種Python數(shù)據(jù)類型(integers, strings, floating point numbers, Python objects, 等等)
序列Series由兩部分構(gòu)成，一個(gè)是index，另一個(gè)是對應(yīng)的值，注意兩者的長度必須一樣。序列Series和數(shù)組array很類似，大多數(shù)numpy的函數(shù)都可以直接應(yīng)用與序列Series
序列Series也像一個(gè)固定大小的字典dict，可以通過index來賦值或者取值

1.1 序列Series生成

print('通過數(shù)組來生成序列Series') s_array = np.random.randn(5) s = pd.Series(s_array, index = ['a','b','c','d','e']) sprint('通過字典來生成序列Series') s_dict= {'a':11,'b':1000,'c':123213,'d':-1000} s = pd.Series(s_dict) s

1.2 序列Series性質(zhì)和計(jì)算

s = pd.Series(np.random.randn(5), index = ['a','b','c','d','e']) s# 可以通過index來查看序列Series中的元素 print('查看序列中index為a的元素：',s['a']) print('查看序列中index為a，c，e的元素：n',s[['a','c','e']])# 基于index 可以修改序列s中的元素 print('原序列：n',s) s['a'] = 1000000000 print('修改后的序列：n',s)s = pd.Series(np.random.randn(5), index = ['a','b','c','d','e']) print('原序列：n',s) # 大多數(shù)numpy的函數(shù)可以直接應(yīng)用于序列 Series print('序列相加：n',s+s) print('序列每個(gè)元素求指數(shù)：n',np.exp(s))s = pd.Series(np.random.randint(1,5,5), index = ['a','b','c','d','e']) print('查看序列s的index：',s.index) print('查看序列的值：',s.values) print('序列s的一階差分：n',s.diff())ss = pd.Series(np.random.randint(1,3,100)) print(ss[:10]) print('查看序列的唯一取值：',ss.unique())

二、數(shù)據(jù)框DataFrame

數(shù)據(jù)框DataFrame是一個(gè)二維數(shù)組結(jié)構(gòu)，可以存入任一種Python數(shù)據(jù)類型(integers, strings, floating point numbers, Python objects, 等等)
數(shù)據(jù)框DataFrame由三部分構(gòu)成，一個(gè)是行索引index，一個(gè)是列名，另一個(gè)則是取值。

2.1 數(shù)據(jù)框生成

print('由字典來產(chǎn)生數(shù)據(jù)框') data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],'year': [2000, 2001, 2002, 2001, 2002],'pop': [1.5, 1.7, 3.6, 2.4, 2.9]} frame = pd.DataFrame(data) frameprint('由列表來產(chǎn)生數(shù)據(jù)框') data = [['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],[2000, 2001, 2002, 2001, 2002],[1.5, 1.7, 3.6, 2.4, 2.9]] frame = pd.DataFrame(data,index=['state','year','pop']).T frame

2.2 數(shù)據(jù)框基本性質(zhì)

data = pd.DataFrame(np.random.randint(1,100,(10,4)),columns=['x1','x2','x3','x4']) print('首先查看數(shù)據(jù)框的形狀',data.shape) print('查看數(shù)據(jù)框的頭部：') print(data.head()) print('---------------------') print('查看數(shù)據(jù)框的尾部：') print(data.tail()) print('---------------------') print('查看數(shù)據(jù)框的索引index') print(data.index)print('查看數(shù)據(jù)框的列名') print(data.columns) print('---------------------') print('查看數(shù)據(jù)框的值，其格式為數(shù)組array') print(data.values) print('---------------------') print('查看數(shù)據(jù)框的基礎(chǔ)描述性統(tǒng)計(jì)') print(data.describe())# 在原有的數(shù)據(jù)框中新加入一列 data['新列'] = ['HAHA'] * len(data) data# 數(shù)據(jù)框的轉(zhuǎn)置 data.T

2.3 數(shù)據(jù)框截取

2.3.1 行截取

print('查看數(shù)據(jù)框data索引為1的行——方法一') print(data.ix[1]) print('---------------------') print('查看數(shù)據(jù)框data索引為1的行——方法二') print(data.loc[1,:]) print('---------------------') print('查看數(shù)據(jù)框data前3行') print(data[:3])

2.3.2 列截取

print('數(shù)據(jù)框data的x3列選取') print(data['x3']) print('---------------------') print('數(shù)據(jù)框data的x3,x4兩列同時(shí)選取') print(data[['x3','x4']])

2.3.3 數(shù)據(jù)框行列同時(shí)截取

print('截取數(shù)據(jù)框data的前4行的x3和x4列') data.loc[:3,['x3','x4']]

2.3.4 數(shù)據(jù)框條件截取

print('截取數(shù)據(jù)框x3大于等于50的記錄') print(data[data['x3']>=50]) print('---------------------') print('截取數(shù)據(jù)框x3大于20且x4小于50的記錄') print(data[(data['x3']>20)&(data['x4']<50)]) print('---------------------') print('截取數(shù)據(jù)框x3大于20的x1列') print(data[data['x3']>50]['x1'])

2.4 數(shù)據(jù)框缺失值處理

例如下面這個(gè)數(shù)據(jù)框data，其中就存在缺失值

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],'year': [2000, 2001, 2002, 2001, 2002],'pop': [1.5, 1.7, 3.6, 2.4, 2.9]} data = pd.DataFrame(data) data.loc[1,'pop'] = np.NaN data.loc[3,'state'] = None datadata.dropna() #刪除含有缺失的行data.dropna(how="all") #表示該行都為缺失的行才刪除注意是這一行中的每一個(gè)元素都為缺失才刪除這一行data.dropna(how="all", axis=1) #表示該列若都為缺失的列則刪除,注意是這一列的每個(gè)元素都為缺失才會(huì)刪除這一列data.dropna(thresh=3, axis=0) #表示保留至少存在3個(gè)非NaN的行，即如果某一行的非缺失值個(gè)數(shù)小于3個(gè)，則會(huì)被刪除data.dropna(thresh=3, axis=1) #表示保留至少存在3個(gè)非NaN的列，即如果某一列的非缺失值個(gè)數(shù)小于3個(gè)，則會(huì)被刪除

上面對缺失值的處理都是將缺失值剔除，下面介紹了填充缺失值的方法

dataprint('用0填充數(shù)據(jù)框中的缺失值,0是可選參數(shù)之一') data.fillna(value=0)data.fillna(method='ffill') #填充缺失值用缺失值所在列的前一個(gè)非NaN值來進(jìn)行填充 data.fillna(method="bfill") #用缺失值所在列的后一個(gè)非NaN來填充

2.5 數(shù)據(jù)框排序

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],'year': [2000, 2001, 2002, 2001, 2002],'pop': [1.5, 1.7, 3.6, 2.4, 2.9]} data = pd.DataFrame(data) dataprint('數(shù)據(jù)框data按列pop降序排序') data.sort(columns='pop',ascending=False)print('數(shù)據(jù)框data按列pop升序排序') data.sort(columns='pop',ascending=True)print('數(shù)據(jù)框data按行索引index降序排序') data.sort_index()

2.6 數(shù)據(jù)框的基本函數(shù)

print('按列求均值') data.mean() print('按行求均值') data.mean(axis=1)

函數(shù)匯總

下面的函數(shù)都是通過數(shù)據(jù)框.函數(shù)名(參數(shù)設(shè)置)來進(jìn)行調(diào)用，一般的參數(shù)是axis=0/1，選擇為0則是按行來實(shí)現(xiàn)函數(shù)，1則是按列來實(shí)現(xiàn)函數(shù)。

2.7 數(shù)據(jù)框拼接

下面介紹了三個(gè)函數(shù)來實(shí)現(xiàn)數(shù)據(jù)框的拼接功能——concat函數(shù)，merge函數(shù)和join函數(shù)

2.7.1 數(shù)據(jù)框拼接—pd.concat

data1 = pd.DataFrame(np.random.randn(4,3),index=['a','b','c','d'],columns=['x1','x2','x3']) data1data2 = pd.DataFrame(np.random.randn(4,3),index=['e','f','g','h'],columns=['x1','x2','x3']) data2print('按行拼接') pd.concat([data1,data2],axis=0) data1 = pd.DataFrame(np.random.randn(4,3),index=['a','b','c','d'],columns=['x1','x2','x3']) data1data2 = pd.DataFrame(np.random.randn(4,3),index=['a','b','c','e'],columns=['x1','x3','x4']) data2print('按列拼接') pd.concat([data1,data2],axis=1)

2.7.2 數(shù)據(jù)框拼接—pd.merge

pd.merge一般針對的是按列合并。

pd.merge( left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True, suffixes=('_x', '_y'), copy=True, indicator=False)

left: 一個(gè)dataframe對象
right: 另一個(gè)dataframe對象
how: 可以是'left', 'right', 'outer', 'inner'. 默認(rèn)為inner。
on: 列名，兩個(gè)dataframe都有的列。如果不傳參數(shù)，而且left_index和right_index也等于False，則默認(rèn)把兩者交叉/共有的列作為鏈接鍵（join keys）?？梢允且粋€(gè)列名，也可以是包含多個(gè)列名的list。
left_on: 左邊dataframe的列會(huì)用做keys。可以是列名，或者與dataframe長度相同的矩陣array。
right_on: 右邊同上。
left_index: 如果為Ture，用左側(cè)dataframe的index作為連接鍵。如果是多維索引，level數(shù)要跟右邊相同才行。
right_index: 右邊同上。
sort: 對合并后的數(shù)據(jù)框排序，以連接鍵。
suffixes: 一個(gè)tuple，包字符串后綴，用來加在重疊的列名后面。默認(rèn)是('_x','_y')。
copy: 默認(rèn)Ture，復(fù)制數(shù)據(jù)。
indicator: 布爾型（True/FALSE），或是字符串。如果為True，合并之后會(huì)增加一列叫做'_merge'。是分類數(shù)據(jù)，用left_only, right_only, both來標(biāo)記來自左邊，右邊和兩邊的數(shù)據(jù)。

left_data = pd.DataFrame({'time':['2017-09-11','2017-09-12','2017-09-13'],'x1':[1,2,3],'x2':[2,2,1]}) left_dataright_data = pd.DataFrame({'time':['2017-09-10','2017-09-11','2017-09-12'],'x3':[-1,-1,10],'x4':[2,-100,0]}) right_dataprint('按time拼接，只保留共同的部分') pd.merge(left_data,right_data,on='time')print('按time拼接，但所有的數(shù)據(jù)都保留下來') pd.merge(left_data,right_data,on='time',how='outer')print('按time拼接，但所有的數(shù)據(jù)都保留下來，且生成一列來表示數(shù)據(jù)的來源') pd.merge(left_data,right_data,on='time',how='outer',indicator='數(shù)據(jù)來源')

2.7.3 數(shù)據(jù)框拼接—.join

DataFrame.join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False)

other：一個(gè)DataFrame、Series（要有命名），或者DataFrame組成的list。
on：列名，包含列名的list或tuple，或矩陣樣子的列（如果是多列，必須有MultiIndex）。跟上面的幾種方法一樣，用來指明依據(jù)哪一列進(jìn)行合并。如果沒有賦值，則依據(jù)兩個(gè)數(shù)據(jù)框的index合并。
how：合并方式， {‘left’, ‘right’, ‘outer’, ‘inner’}, 默認(rèn)‘left‘。
lsuffix：字符串。用于左側(cè)數(shù)據(jù)框的重復(fù)列。把重復(fù)列重新命名，原來的列名+字符串。【如果有重復(fù)列，必須添加這個(gè)參數(shù)。】
rsuffix：同上。右側(cè)。
sort：布爾型，默認(rèn)False。如果為True，將鏈接鍵（on的那列）按字母排序。

2.8 數(shù)據(jù)框重復(fù)值剔除

有時(shí)候，希望能夠剔除掉數(shù)據(jù)框中的重復(fù)記錄

data = pd.concat([left_data,left_data],axis=0) dataprint('查看數(shù)據(jù)框中是否存在重復(fù)記錄，標(biāo)記為True的為重復(fù)記錄') data.duplicated()print('剔除數(shù)據(jù)框中的重復(fù)記錄') data.drop_duplicates()

2.9 基于pandas的文件操作

在進(jìn)行數(shù)據(jù)分析之前，可能需要讀寫自己的數(shù)據(jù)文件?；蛘咴谕瓿蓴?shù)據(jù)分析之后，想把結(jié)果輸出到外部的文件
在Python中，利用pandas模塊中的幾個(gè)函數(shù)，可以輕松實(shí)現(xiàn)這些功能，利用pandas讀取文件之后數(shù)據(jù)的格式為數(shù)據(jù)框，且如果想用pandas將數(shù)據(jù)輸出為外部文件，也要先確保要輸出的文件的格式為數(shù)據(jù)框
注意在運(yùn)行下面的程序之前，需要確保文件已經(jīng)在目錄下

2.9.1 讀取txt文件

text = pd.read_table('data/training/test2.txt',index_col=0,delimiter=' ') # 文件所在的路徑是必須輸入的 # index_col=0指定第一列為index # delimiter指定了數(shù)據(jù)間的分隔符，分隔符可以使空格，制表符，;等等 # 這個(gè)函數(shù)中還有很多參數(shù)可以定義 text

2.9.2 讀取excel/csv文件

import pandas as pd data_excel = pd.read_excel('data/training/test3.xlsx') # 文件所在的路徑是必須輸入的 data_excel.head()data_csv = pd.read_csv('data/training/test3_csv.csv',encoding='GBK') # 文件所在的路徑是必須輸入的 #這里要注意，encoding='GBK'一般是要加上，涉及到編譯解碼的問題 data_csv.head()

2.9.3 輸出為excel/csv文件

由于使用了pandas庫，我們在將想要的數(shù)據(jù)集輸出為外部的excel/csv文件時(shí)，首先要確保文件的格式為數(shù)據(jù)框

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],'year': [2000, 2001, 2002, 2001, 2002],'pop': [1.5, 1.7, 3.6, 2.4, 2.9]} frame = pd.DataFrame(data) frame# 將數(shù)據(jù)集frame輸出為外部文件 frame.to_excel('data/training/寫出為excel.xlsx') frame.to_csv('data/training/寫出為csv.csv')

2.10 數(shù)據(jù)框分組及透視表

2.10.1 分組——groupby函數(shù)

例如下面這個(gè)數(shù)據(jù)框data，希望根據(jù)地域或者性別來分組再進(jìn)行數(shù)據(jù)分析

data = {'地域': ['上海', '上海', '非上海', '非上海', '上海','非上海','上海','上海','上海'],'性別': ['男', '女', '男', '女', '男','女','女','男','男'],'x1': [1.5, 1.7, 3.6, 2.4, 2.9,2.2,100,2.0,0],'x2': np.random.randn(9)} data = pd.DataFrame(data) dataprint('按地域求x1和x2的均值') data.groupby('地域').mean()grouped = data.groupby('地域') #形成按地域分組后的數(shù)據(jù)集 grouped grouped.describe()

print('按地域和性別求x1，x2的均值') data.groupby(['地域','性別']).mean()grouped = data.groupby(['地域','性別']) functions = ['count','mean','max','min'] print('對按地域和性別分組后的數(shù)據(jù)框，可以進(jìn)行多個(gè)函數(shù)的同時(shí)操作') res = grouped['x1','x2'].agg(functions) resres.to_excel('data/training/agg.xlsx')print('對不同的列可以進(jìn)行不同的操作，例如對x2求均值，而對x1求和，最大值和最小值') grouped = data.groupby(['地域','性別']) grouped.agg({'x1': ['sum','max','min'], 'x2': 'mean'})

2.10.2 apply函數(shù)，可以對分組后的數(shù)據(jù)框進(jìn)行自定義的函數(shù)操作

def top(data_in, n=5, column='x2'):return data_in.sort(column)[-n:]print('對數(shù)據(jù)框data按地域進(jìn)行分組之后，且對于每一組，按x2排序，且輸出x2最小的二條記錄') data.groupby('地域').apply(top, n=2) print('對數(shù)據(jù)框data按地域進(jìn)行分組之后，且對于每一組，按x2排序，且輸出x2最小的二條記錄') data.groupby('地域').apply(top, n=2)

小例子——分組的線性回歸

import pandas as pd

例如我們有如下數(shù)據(jù)集，希望按年分組，利用每一年的y對x進(jìn)行回歸

data = pd.DataFrame([]) x = np.random.randn(2192) data['x'] = x data['y'] = 2 * x + 1 + np.random.randn(2192)*0.2 data.index = list(pd.date_range('2011-01-01','2016-12-31')) data['年份'] = data.index.year data.head()

先對數(shù)據(jù)框by_year按年份進(jìn)行分組

by_year = data.groupby('年份') #按年份分組

按年份分組后，求y和x之間的相關(guān)系數(shù)

by_year.apply(lambda g:g['y'].corr(g['x'])) #按年分組求y和x求相關(guān)系數(shù) 注意這里使用了lambda函數(shù)

按年份分組后，y對x進(jìn)行回歸

import statsmodels.api as smdef regression(data, y_name, x_name): #定義一個(gè)回歸的函數(shù)Y = data[y_name]X = data[x_name]X['intercept'] = 1.0result = sm.OLS(Y,X).fit()return result.paramsby_year.apply(regression,'y',['x']) #按年分組進(jìn)行回歸

2.10.3 數(shù)據(jù)透視表——pivot

data = {'地域': ['上海', '上海', '非上海', '非上海', '上海','非上海','上海','上海','上海'],'性別': ['男', '女', '男', '女', '男','女','女','男','男'],'x1': [1.5, 1.7, 3.6, 2.4, 2.9,2.2,100,2.0,0],'x2': np.random.randn(9)} data = pd.DataFrame(data) datadata.pivot_table(index='地域', columns='性別', values='x1',aggfunc='sum')

來源：我的印象筆記整理

ABO
MeJiangShi【ID：siteacher】
AI CREATE FURTURE
VALUE LAST LONG

總結(jié)

以上是生活随笔為你收集整理的pandas series取值_【小学生级】pandas入门到精通备查表——AI未来系列3的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：管理active directiory中
下一篇： html 超链接打开Excel,计算机打