python 依据某几列累加求和_Python数据分析(2)-pandas versus excel
上一篇還有一個知識點就是,相關系數
#得出表中列與列之間的相關性大小part4 多表聯合查詢(join)
1、多表聯合
excel中是用vlookup,pandas中是用merge和join,數據庫中用join。
#讀取第一張表如果,沒有on='ID'這一參數,也能得出結果,因為merge能自動去在兩張表查出相同的列名。
但如果這里把【ID】這一列設為index,就不存在共同的列(因為設置為index的列不是列)merge就不知道如何聯結。
#讀取第一張表,設置index可以用下面的代碼,加上left_on和right_on的參數
#讀取第一張表上面的情況如果用join的話,就可以自動找到index,代碼如下:
#讀取第一張表2、數據校驗,軸的概念
excel中的Score列有異常數值,如何查找異常值呢?
2.1運用assert函數
import可看出結果沒有對齊,可用't'這個橫向制表符
2.2運用if...else函數
def查出異常后,一般有兩種方法:清理數據或者數據更正
3、把一列數據分割成兩列
df分列成了一個list里有兩個元素
給spilt設置參數expand
dfdf字段Field的str除了spilt方法外還有很多其他的方法,比如對【LastName】這個Series也有string功能str.upper()
employeesPart 5 統計函數(sum和mean)
1、求和/平均值
student求和求平均值
student獲取子集
#獲取子集 col_mean如何將上面結果的Series加入到表中,append方法會把該Series當做一行加入表中
這里出錯的原因是:只能附加一列ignore_index = True或者如果該列有名稱
student2、定位、消除重復數據
2.1去除重復數據
student2.2定位重復數據
查看是否有重復的數據
student#有多少個重復數據找到5個重復數據
apart 6
1、讀取CSV/TSV/TXT文件
- csv文件是以comma逗號‘,’分隔開的;
- txt文件是以豎杠‘|’分隔開的;
- tsv文件是以制表位也就是Tab鍵分隔的
excel中文件的讀取這里不作展示。
#讀取csv文件2、分類和匯總:透視表/分組/聚合
2.1 方法一
salesimport2.2 方法二
使用DataFrame的group by功能手動制作pivot table
groups3、線性回歸,數據預測
import import預測2019年12月份的收入:
print4、條件格式化
4.1標記出不及格的分數
#定義函數4.2 標記每次考試的第一名
def主要是如何使用條件格式來改變數據區域的背景和字體顏色
4.3 色階
在excel中利用條件格式的色階進行操作,背景顏色的深淺來表分數的高低
在pandas中,代碼如下
import4.4 數據條
在excel中利用條件格式的數據條進行操作
在pandas中,代碼如下
student最后一部分應該是枯燥又乏味,但是都是基礎知識。
Part7 行/列操作
1、行操作集錦
表1
表2
1.1在表1尾部追加表2
#使用concat和append的結果一樣,但語法不同得添加index屬性
student#使用append1.2給表1手動增加一行
stu1.3 更改表中的數據
#方法一:直接在單元格中修改數據1.4 插入一行(切片功能)
利用切片功能在[ID]的19行和20行之間插入一行
stu1.5 刪除數據行
用drop函數刪除前三行
#可以用index=range(0,3)用切片來刪除0-9行的數據
student有條件的進行刪除,將表回復為原表,設置表中的Name列中5-14行的數據為空
刪除名字為空的行
missing#設置index2、列操作集錦
2.1 給表1增加表2的列(一般數據分析很少講兩張表并列)
這里得理解軸的概念,axis=1代表從左往右進行操作,axis=0(默認)代表從上往下進行操作
student2.2 增加列
#方法一 #設置序列2.3刪除列
#刪除列2.4 插入一列
不能像插入行一樣把DataFrame分成兩片,這里用insert
student2.5 修改列名
student2.6 去除空值
<Part8 鏈接SQL Sever數據庫
略
總結
以上是生活随笔為你收集整理的python 依据某几列累加求和_Python数据分析(2)-pandas versus excel的全部內容,希望文章能夠幫你解決所遇到的問題。

- 上一篇: android 8 多媒体,1-4月中控
- 下一篇: 选配高清监控设备(监控系统)交换机