python中的ix是啥_python ix
Pandas是Python的一個大數據處理模塊。Pandas使用一個二維的數據結構DataFrame來表示表格式的數據,相比較于Numpy,Pandas可以存儲混合的數據結構,同時使用NaN來表示缺失的數據,而不用像Numpy一樣要手工處理缺失的數據,并且Pandas使用軸標簽來表示行和列。
DataFrame類:
DataFrame有四個重要的屬性: index:行索引。 columns:列索引。 values:值的二維數組。 name:名字。
構建方法,DataFrame(sequence),通過序列構建,序列中的每個元素是一個字典。 frame=DateFrame構建完之后,假設frame中有’name’,’age’,’addr’三個屬性,可以使用fame[‘name’]查看屬性列內容,也可以fame.name這樣直接查看。 frame按照’屬性提取出來的每個列是一個Series類。 DataFrame類可以使用布爾型索引。 groupby(str|array…)函數:可以使用frame中對應屬性的str或者和frame行數相同的array作為參數還可以使用一個會返回和frame長度相同list的函數作為參數,如果使用函數做分組參數,這個用做分組的函數傳入的參數將會是fame的index,參數個數任意。使用了groupby函數之后配合,size()函數就可以對groupby結果進行統計。 groupby后可以使用: size():就是count sum():分組求和 apply(func,axis=0):在分組上單獨使用函數func返回frame,不groupby用在DataFrame會默認將func用在每個列上,如果axis=1表示將func用在行上。
reindex(index,column,method):用來重新命名索引,和插值。 size():會返回一個frame,這個frame是groupby后的結果。 sum(n).argsort():如果frame中的值是數字,可以使用sum函數計算frame中摸個屬性,各個因子分別求和,并返回一個Series,這個Series可以做為frame.take的參數,拿到frame中對應的行。 pivot_table(操作str1,index=str2,columns=str3,aggfunc=str4)透視圖函數: str1:是給函數str4作為參數的部分。 str2:是返回frame的行名。 str3:是返回frame的列名。 str4:是集合函數名,有’mean’,’sum’這些,按照str2,str3分組。 使用透視圖函數之后,可以使用.sum()這類型函數,使用后會按照index和columns的分組求和。 order_index(by,ascending): 返回一個根據by排序,asceding=True表示升序,False表示降序的frame concat(list):將一個列表的frame行數加起來。 ix[index]:就是行索引,DataFrame的普通下標是列索引。 take(index):作用和ix差不多,都是查詢行,但是ix傳入行號,take傳入行索引。 unstack():將行信息變成列信息。 apply(func,axis=0)和applymap(func):apply用在DataFrame會默認將func用在每個列上,如果axis=1表示將func用在行上。applymap表示func用在每個元素上。 combine_first(frame2):combine_first會把frame中的空值用frame1中對應位置的數據進行填充。Series方法也有相同的方法。 stack()函數,可以將DataFrame的列轉化成行,原來的列索引成為行的層次索引。(stack和unstack方法是兩個互逆的方法,可以用來進行Series和DataFrame之間的轉換) duplicated():返回一個布爾型Series,表示各行是否重復。 drop_duplicates():返回一個移除了重復行后的DataFrame pct_change():Series也有這個函數,這個函數用來計算同colnums兩個相鄰的數字之間的變化率。 corr():計算相關系數矩陣。 cov():計算協方差系數矩陣。 corrwith(Series|list,axis=0):axis=0時計算frame的每列和參數的相關系數。
數據框操作
df.head(1) 讀取頭幾條數據 df.tail(1) 讀取后幾條數據 df[‘date’] 獲取數據框的date列 df.head(1)[‘date’] 獲取第一行的date列 df.head(1)‘date’ 獲取第一行的date列的元素值 sum(df[‘ability’]) 計算整個列的和 df[df[‘date’] == ‘20161111’] 獲取符合這個條件的行 df[df[‘date’] == ‘20161111’].index[0] 獲取符合這個條件的行的行索引的值 df.iloc[1] 獲取第二行 df.iloc1 獲取第二行的test2值 10 mins to pandas df.index 獲取行的索引 df.index[0] 獲取第一個行索引 df.index[-1] 獲取最后一個行索引,只是獲取索引值 df.columns 獲取列標簽 df[0:2] 獲取第1到第2行,從0開始,不包含末端 df.loc[1] 獲取第二行 df.loc[:,’test1’] 獲取test1的那一列,這個冒號的意思是所有行,逗號表示行與列的區分 df.loc[:,[‘test1’,’test2’]] 獲取test1列和test2列的數據 df.loc[1,[‘test1’,’test2’]] 獲取第二行的test1和test2列的數據 df.at[1,’test1’] 表示取第二行,test1列的數據,和上面的方法類似 df.iloc[0] 獲取第一行 df.iloc[0:2,0:2] 獲取前兩行前兩列的數據 df.iloc[[1,2,4],[0,2]] 獲取第1,2,4行中的0,2列的數據 (df[2] > 1).any() 對于Series應用any()方法來判斷是否有符合條件的
總結
以上是生活随笔為你收集整理的python中的ix是啥_python ix的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 用户行为分析的指标体系
- 下一篇: U盘分区方法