【Python】pdf2image模块+poppler将PDF转换为图片
有時我們需要將PDF轉換成圖片,今天我們主要說的是pdf2image+poppler對PDF轉換成圖片格式。
pdf2image是個包裝器,真正的轉換工具是poppler
GitHub地址:https://github.com/Belval/pdf2image ,上面也有相關的配置說明。
1、安裝pdf2image: pip install pdf2image
2、Windows安裝配置poppler(這里只介紹Windows,Mac和Linux去上面Github地址里面參考官網)
Windows用戶必須為Windows安裝poppler,然后將bin/文件夾添加到PATH(開始>輸入env>編輯系統環境變量>環境變量...>系統變量>Path)
Windows的poppler下載地址:http://blog.alivate.com.au/poppler-windows/
注意這里配置之后需要重啟一下電腦才會生效,不然會報如下錯誤:
下面是具體代碼:
convert_from_path()和convert_from_bytes()兩個方法,具體參數介紹:
pdf_path --> 要轉換的PDF文檔路徑
dpi -->DPI中的圖像質量(默認為200),Windows默認為96dpi
output_folder --> 將生成的圖像寫入文件夾(而不是直接寫入內存)若是path不做指定的話,path的默認地址是:C:\Users\pppp\AppData\Local\Temp\生成的uuid4。
first_page --> 從哪一頁開始轉換,默認是PDF的第一頁
last_page -->轉換到哪一頁,默認是PDF的最后一頁
fmt --> 輸出圖像格式默認格式是ppm,還可以設置為png和jpeg等
thread_count --> 允許生成多少個線程進行處理,一般不超過4個線程;
userpw --> PDF的密碼(若有密碼的話需要添加)
use_cropbox -->使用cropbox而不是mediabox
strict --> 參數允許您使用自定義類型PDFSyntaxError捕獲pdftoppm語法錯誤
transparent --> 參數允許生成沒有背景的圖像,而不是通常的白色圖像(為此需要pdftocairo)
single_file --> 使用pdftoppm / pdftocairo中的-singlefile選項
output_file --> 輸出文件名是什么
poppler_path --> 查找poppler二進制文件的路徑,允許用戶使用poppler_path指定poppler的安裝路徑;默認不指定的話需要將bin添加到系統PATH
統計了3種方法的耗時(轉換82頁的PDF):
pdf1_to_image() 耗時 6~8秒 pdf2_to_image() 耗時 5~8秒 pdf3_to_image() 耗時 10~15秒 pdf4_to_image() 耗時 11~15秒所以優先選擇pdf1_to_image()
另外還有一個模塊也可以將pdf轉換為圖片格式PyMuPDF
總結
以上是生活随笔為你收集整理的【Python】pdf2image模块+poppler将PDF转换为图片的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python 对json数据读取及保存与
- 下一篇: 【图片】图像基本知识以及三原色原理 (r