python excel对比_Python处理Excel模块的对比分析
碼不理課堂開(kāi)課啦!
數(shù)據(jù)處理是 Python 的一大應(yīng)用場(chǎng)景,而 Excel 則是最流行的數(shù)據(jù)處理軟件。因此用 Python 進(jìn)行數(shù)據(jù)相關(guān)的工作時(shí),難免要和 Excel 打交道。如果僅僅是要以表單形式保存數(shù)據(jù),可以借助CSV 格式(一種以逗號(hào)分隔的表格數(shù)據(jù)格式)進(jìn)行處理,Excel 也支持此格式。但標(biāo)準(zhǔn)的 Excel文件(xls/xlsx)具有較復(fù)雜的格式,并不方便像普通文本文件一樣直接進(jìn)行讀寫(xiě),需要借助第三方庫(kù)來(lái)實(shí)現(xiàn)。
常用的庫(kù)是 python-excel 系列:xlrd、xlwt、xlutils
xlrd- 讀取 Excel 文件
xlwt- 寫(xiě)入 Excel 文件
xlutils- 操作 Excel 文件的實(shí)用工具,如復(fù)制、分割、篩選等
盡管這是目前被用得最多的 Excel 庫(kù),我還是很想吐槽為什么這三個(gè)包不能放在一個(gè)模塊里……另外它們有個(gè)缺陷,就是只能處理 xls 文件。如果你想用新版本的 xlsx,可以考慮 openpyxl 和 xlsxwriter。
不過(guò)今天只說(shuō)說(shuō)這三個(gè)
Part.1 安裝
安裝的方法沒(méi)啥特別的,只是得裝三遍可以下載安裝包、下載代碼壓縮包、或者通過(guò) pip 等。(可參考
Part.2 讀取
結(jié)合一段簡(jiǎn)單的代碼來(lái)看:
import xlrd
# 打開(kāi) xls 文件
book = xlrd.open_workbook("test.xls")
print "表單數(shù)量:", book.nsheets
print "表單名稱(chēng):", book.sheet_names()
# 獲取第1個(gè)表單
sh = book.sheet_by_index(0)
print u"表單 %s 共 %d 行 %d 列" % (sh.name, sh.nrows,sh.ncols)
print "第二行第三列:", sh.cell_value(1, 2)
# 遍歷所有表單
for s in book.sheets():
for r in range(s.nrows):
# 輸出指定行
print s.row(r)
測(cè)試文件:
輸出結(jié)果:
表單數(shù)量: 2
表單名稱(chēng): [u'Group.A', u'Group.B']
表單 Group.A 共 7 行 3 列
第二行第三列: 15.0
[text:u'Rank', text:u'Team', text:u'Points']
[number:1.0, text:u'Brazil', number:15.0]
[number:2.0, text:u'Russia', number:12.0]
...
常用的方法:
*open_workbook 打開(kāi)文件
*sheet_by_index 獲取某一個(gè)表單
*sheets 獲取所有表單
*cell_value 獲取指定單元格的數(shù)據(jù)
Part.3 寫(xiě)入
還是看代碼:
import xlwt
# 創(chuàng)建 xls 文件對(duì)象
wb = xlwt.Workbook()
# 新增一個(gè)表單
sh = wb.add_sheet('A Test Sheet')
# 按位置添加數(shù)據(jù)
sh.write(0, 0, 1234.56)
sh.write(1, 0, 8888)
sh.write(2, 0, 'hello')
sh.write(2, 1, 'world')
# 保存文件
wb.save('example.xls')
生成文件:
常用的方法:
*Workbook 創(chuàng)建文件對(duì)象
*add_sheet 新增一個(gè)表單
*write 在指定單元格寫(xiě)入數(shù)據(jù)
Part.4 修改
很遺憾,并沒(méi)有直接修改 xls 文件的方法。通常的做法是,讀取出文件,復(fù)制一份數(shù)據(jù),對(duì)其進(jìn)行修改,再保存。
在復(fù)制時(shí),需要用到 xlutils 中的方法:
from xlrd import open_workbook
from xlutils.copy import copy
# 打開(kāi)文件
rb = open_workbook("example.xls")
# 復(fù)制
wb = copy(rb)
# 選取表單
s = wb.get_sheet(0)
# 寫(xiě)入數(shù)據(jù)
s.write(0, 1, 'new data')
# 保存
wb.save('example.xls')
修改后文件:
特別要注意的是:選取讀取表單時(shí),要使用 sheet_by_index,而在選取寫(xiě)入表單時(shí),則要用 get_sheet。不要問(wèn)我為什么,我也很想知道這么設(shè)定的用意何在……Part.5時(shí)間轉(zhuǎn)換
如果表單中有時(shí)間格式的數(shù)據(jù),通過(guò)處理之后,你會(huì)發(fā)現(xiàn)時(shí)間數(shù)據(jù)出了差錯(cuò)
輸出單元格內(nèi)容:[number:8888.0, xldate:42613.0]
因?yàn)檫@里 xldate 有自己的格式定義。如果要使用正確的格式,必須轉(zhuǎn)換:
new_date = xlrd.xldate.xldate_as_datetime(date,book.datemode)date 是對(duì)應(yīng)單元格的數(shù)據(jù),book 是打開(kāi)的文件對(duì)象。
另外,在打開(kāi)文件時(shí),加上參數(shù) formatting_info=True,可以保證在時(shí)間數(shù)據(jù)在 copy 時(shí)保持原樣。
寫(xiě)入時(shí)間數(shù)據(jù),則可通過(guò)此方法創(chuàng)建 excel 的時(shí)間對(duì)象:xlrd.xldate.xldate_from_datetime_tuple
或者通過(guò) xlwt.easyxf 指定時(shí)間格式:
style = xlwt.easyxf(num_format_str='D-MMM-YY')
ws.write(1, 0, datetime.now(), style)
課堂拓展(資源篇)
處理excel的大量python包
網(wǎng)頁(yè)上爬下來(lái)的大量數(shù)據(jù)需要清洗?成堆的科學(xué)實(shí)驗(yàn)數(shù)據(jù)需要導(dǎo)入excel進(jìn)行分析?作為人生苦短的 Python 程序員,該如何優(yōu)雅地操作 Excel?
得益于前人的辛勤勞作,Python 處理 Excel 已有很多現(xiàn)成的輪子,使用較多的有:
xlwings:簡(jiǎn)單強(qiáng)大,可替代VBA
openpyxl:簡(jiǎn)單易用,功能廣泛
pandas:使用需要結(jié)合其他庫(kù),數(shù)據(jù)處理是pandas立身之本
win32com:不僅僅是excel,可以處理office;
Xlsxwriter:豐富多樣的特性,直接創(chuàng)造一份美觀大方的excel,代碼即一切;
DataNitro:作為插件內(nèi)嵌到excel中,可替代VBA,在excel中優(yōu)雅的使用python
xlutils:結(jié)合x(chóng)lrd/xlwt,老牌python包,需要注意的是你必須同時(shí)安裝這三個(gè)庫(kù)
課堂拓展(模塊對(duì)比)
各種模塊比較
從運(yùn)行環(huán)境、文檔操作、基本功能和性能等方面對(duì)以上模塊進(jìn)行一次粗淺的比較
1. 環(huán)境配置
再好的模塊,也需要在正確的 Python 版本以及 Excel 版本才可運(yùn)行。
提醒及注意:
xlutils 僅支持 xls 文件,即2003以下版本;
win32com 與 DataNitro 僅支持 windows 系統(tǒng);
xlwings 安裝成功后,如果運(yùn)行提示報(bào)錯(cuò)“ImportError: no module namedwin32api”,請(qǐng)?jiān)侔惭b pypiwin32 或者 pywin32 包;
win32com 不是獨(dú)立的擴(kuò)展庫(kù),而是集成在其他庫(kù)中,安裝 pypiwin32 或者pywin32 包即可使用;
DataNitro 是 Excel 的插件,安裝需到官網(wǎng)下載。
2. 文檔操作
雖然大家都是操作 Excel,但即使最基本的新建文件、修改文件、保存文件等功能,在不同的庫(kù)中也存在差異。比如 xlsxwriter 并不支持打開(kāi)或修改現(xiàn)有文件,xlwings 不支持對(duì)新建文件的命名,DataNitro 作為 Excel 插件需依托于軟件本身,pandas 新建文檔需要依賴(lài)其他庫(kù)等等。
3. 基本功能
由于設(shè)計(jì)目的不同,每個(gè)模塊通常著重于某一方面功能,各有所長(zhǎng)。
xlwings
可結(jié)合 VBA 實(shí)現(xiàn)對(duì) Excel 編程,強(qiáng)大的數(shù)據(jù)輸入分析能力,同時(shí)擁有豐富的接口,結(jié)合 pandas/numpy/matplotlib 輕松應(yīng)對(duì) Excel 數(shù)據(jù)處理工作。
openpyxl
簡(jiǎn)單易用,功能廣泛,單元格格式/圖片/表格/公式/篩選/批注/文件保護(hù)等等功能應(yīng)有盡有,圖表功能是其一大亮點(diǎn),缺點(diǎn)是對(duì) VBA 支持的不夠好。
pandas
數(shù)據(jù)處理是 pandas 的立身之本,Excel 作為 pandas 輸入/輸出數(shù)據(jù)的容器。
win32com
從命名上就可以看出,這是一個(gè)處理 windows 應(yīng)用的擴(kuò)展,Excel 只是該庫(kù)能實(shí)現(xiàn)的一小部分功能。該庫(kù)還支持 office 的眾多操作。需要注意的是,該庫(kù)不單獨(dú)存在,可通過(guò)安裝 pypiwin32 或者 pywin32 獲取。
xlsxwriter
擁有豐富的特性,支持圖片/表格/圖表/篩選/格式/公式等,功能與openpyxl相似,優(yōu)點(diǎn)是相比 openpyxl 還支持 VBA 文件導(dǎo)入,迷你圖等功能,缺點(diǎn)是不能打開(kāi)/修改已有文件,意味著使用 xlsxwriter 需要從零開(kāi)始。
DataNitro
作為插件內(nèi)嵌到 Excel 中,可完全替代 VBA,在 Excel 中使用 python 腳本。既然被稱(chēng)為 Excel 中的 python,協(xié)同其他 python 庫(kù)亦是小事一樁。然而,這是付費(fèi)插件...
xlutils
基于 xlrd/xlwt,老牌 python 包,算是該領(lǐng)域的先驅(qū),功能特點(diǎn)中規(guī)中矩,比較大的缺點(diǎn)是僅支持 xls 文件。
4.性能
我們對(duì)幾個(gè)庫(kù)做了最基本的寫(xiě)入和讀取測(cè)試,分別使用不同庫(kù)進(jìn)行添加及讀取1000行 * 700列 數(shù)據(jù)操作,得到所用時(shí)間,重復(fù)操作取平均值。另外在不同的電腦配置,不同的環(huán)境下結(jié)果肯定會(huì)有出入,數(shù)據(jù)僅供參考。
注:xlutils 最多只能寫(xiě)入 256 列,即 1000*256,用時(shí)3.8秒,表現(xiàn)不錯(cuò);DataNitro 與 xlsxwriter 不能打開(kāi) Excel 文件。
5. 小結(jié)
通過(guò)以上的分析,相信大家對(duì)幾個(gè)庫(kù)都有了簡(jiǎn)單的了解。在編寫(xiě)文章的過(guò)程中,筆者也在思考各個(gè)庫(kù)最適合的應(yīng)用場(chǎng)景。
不想使用GUI 而又希望賦予Excel 更多的功能,openpyxl 與xlsxwriter,你可二者選其一;
需要進(jìn)行科學(xué)計(jì)算,處理大量數(shù)據(jù),建議pandas+xlsxwriter或pandas+openpyxl;
想要寫(xiě) Excel 腳本,會(huì) Python 但不會(huì) VBA 的同學(xué),可考慮 xlwings 或DataNitro;
至于 win32com,不管是功能還是性能都很強(qiáng)大,有 windows 編程經(jīng)驗(yàn)的同學(xué)可以使用。不過(guò)它相當(dāng)于是 windows COM 的封裝,自身并沒(méi)有很完善的文檔,新手使用起來(lái)略有些痛苦。
你可根據(jù)自己的需求和生產(chǎn)環(huán)境,選擇合適的 Python-Excel 模塊。
課 堂 拓 展 ( 對(duì) 比 篇)
通過(guò)選中單元格并查看開(kāi)始菜單中的數(shù)值類(lèi)型來(lái)判斷數(shù)據(jù)的格式。
python與excel的功能對(duì)比1.生成數(shù)據(jù)表
EXCEL:生成數(shù)據(jù)表,常見(jiàn)的生成方法有兩種,第一種是導(dǎo)入外部數(shù)據(jù),第二種是直接寫(xiě)入數(shù)據(jù)。 Excel中的文件菜單中提供了獲取外部數(shù)據(jù)的功能,支持?jǐn)?shù)據(jù)庫(kù)和文本文件和頁(yè)面的多種數(shù)據(jù)源導(dǎo)入。
python:支持從多種類(lèi)型的數(shù)據(jù)導(dǎo)入。在開(kāi)始使用python進(jìn)行數(shù)據(jù)導(dǎo)入前需要先導(dǎo)入pandas庫(kù),為了方便起見(jiàn),我們也同時(shí)導(dǎo)入numpy庫(kù)。
2.查看數(shù)據(jù)格式
Excel:通過(guò)選中單元格并查看開(kāi)始菜單中的數(shù)值類(lèi)型來(lái)判斷數(shù)據(jù)的格式。
Python:中使用dtypes函數(shù)來(lái)返回?cái)?shù)據(jù)格式。
3.處理空值(刪除或填充)
我們?cè)趧?chuàng)建數(shù)據(jù)表的時(shí)候在price字段中故意設(shè)置了幾個(gè)NA值。對(duì)于空值的處理方式有很多種,可以直接刪除包含空值的數(shù)據(jù),也可以對(duì)空值進(jìn)行填充,比如用0填充或者用均值填充。還可以根據(jù)不同字段的邏輯對(duì)空值進(jìn)行推算。
Excel:中可以通過(guò)“查找和替換”功能對(duì)空值進(jìn)行處理,將空值統(tǒng)一替換為0或均值。也可以通過(guò)“定位”空值來(lái)實(shí)現(xiàn)。
Python:中處理空值的方法比較靈活,可以使用 Dropna函數(shù)用來(lái)刪除數(shù)據(jù)表中包含空值的數(shù)據(jù),也可以使用fillna函數(shù)對(duì)空值進(jìn)行填充。下面的代碼和結(jié)果中可以看到使用dropna函數(shù)后,包含NA值的兩個(gè)字段已經(jīng)不見(jiàn)了。返回的是一個(gè)不包含空值的數(shù)據(jù)表。
4.更改數(shù)據(jù)格式
Excel:中通過(guò)“設(shè)置單元格格式”功能可以修改數(shù)據(jù)格式。Python中通過(guò)astype函數(shù)用來(lái)修改數(shù)據(jù)格式。
Python:中dtype是查看數(shù)據(jù)格式的函數(shù),與之對(duì)應(yīng)的是astype函數(shù),用來(lái)更改數(shù)據(jù)格式。下面的代碼中將price字段的值修改為int格式。
課堂拓展(代碼示例)
6.1 xlwings基本代碼
import xlwings as xw
#連接到excel
workbook = xw.Book(r'path/myexcel.xlsx')#連接excel文件
#連接到指定單元格
data_range = workbook.sheets('Sheet1').range('A1')
#寫(xiě)入數(shù)據(jù)
data_range.value = [1,2,3]
#保存
workbook.save()
6.2 xlsxwriter基本代碼
import xlsxwriter as xw
#新建excel
workbook = xw.Workbook('myexcel.xlsx')
#新建工作薄
worksheet = workbook.add_worksheet()
#寫(xiě)入數(shù)據(jù)
worksheet.wirte('A1',1)
#關(guān)閉保存
workbook.close()
6.3 xlutils基本代碼
import xlrd #讀取數(shù)據(jù)
import xlwt #寫(xiě)入數(shù)據(jù)
import xlutils #操作excel
#----xlrd庫(kù)
#打開(kāi)excel文件
workbook = xlrd.open_workbook('myexcel.xls')
#獲取表單
worksheet = workbook.sheet_by_index(0)
#讀取數(shù)據(jù)
data = worksheet.cell_value(0,0)
#----xlwt庫(kù)
#新建excel
wb = xlwt.Workbook()
#添加工作薄
sh = wb.add_sheet('Sheet1')
#寫(xiě)入數(shù)據(jù)
sh.write(0,0,'data')
#保存文件
wb.save('myexcel.xls')
#----xlutils庫(kù)
#打開(kāi)excel文件
book = xlrd.open_workbook('myexcel.xls')
#復(fù)制一份
new_book = xlutils.copy(book)
#拿到工作薄
worksheet = new_book.getsheet(0)
#寫(xiě)入數(shù)據(jù)
worksheet.write(0,0,'new data')
#保存
new_book.save()
6.4 win32com基本代碼
import win32com.client as wc
#啟動(dòng)Excel應(yīng)用
excel_app = wc.Dispatch('Excel.Application')
#連接excel
workbook = excel_app.Workbooks.Open(r'e:/myexcel.xlsx' )
#寫(xiě)入數(shù)據(jù)
workbook.Worksheets('Sheet1').Cells(1,1).Value = 'data'
#關(guān)閉并保存
workbook.SaveAs('newexcel.xlsx')
excel_app.Application.Quit()
6.5 openpyxl基本代碼
import openpyxl
# 新建文件
workbook = openpyxl.Workbook()
# 寫(xiě)入文件
sheet = workbook.activesheet['A1']='data'
# 保存文件
workbook.save('test.xlsx')
6.6 DataNitro基本代碼
#單一單元格賦值
Cell('A1').value = 'data'
#單元區(qū)域賦值
CellRange('A1:B2').value = 'data'
課堂總結(jié)以上便是 Python 和 Excel 文件的一些基本方法和基礎(chǔ)知識(shí)。實(shí)際使用過(guò)程中遇到問(wèn)題或者需要了解更多功能,永遠(yuǎn)記住兩個(gè)詞:
RTFM、STFW
:)
總結(jié)
以上是生活随笔為你收集整理的python excel对比_Python处理Excel模块的对比分析的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: excel更新计算机,2007版Exce
- 下一篇: PowerShell: 如何使用powe