python成功将PDF文件转为图片,一次成功,不再踩坑!
生活随笔
收集整理的這篇文章主要介紹了
python成功将PDF文件转为图片,一次成功,不再踩坑!
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
網(wǎng)上有很多方法,但是包括PDF2image庫、PyMupdf庫等。
在摸索過程中我發(fā)現(xiàn)pdf的解析可以分為兩種:
1、標準的PDF文件
表現(xiàn)在字體清晰、無畸變。這類PDF文件是通過word等格式編輯好轉(zhuǎn)換的,可以通過某些包直接提取其中的表格、文字等。是一種比較好處理的。
2、非標準的PDF文件
表現(xiàn)在字體模糊、存在畸變。我懷疑這類PDF是通過圖片轉(zhuǎn)換得到的。它和標準PDF文件長得很像,但如果你要提取其中的信息,通過解析PDF文本會得到一片空白!!因為它本質(zhì)屬于PDF一張圖片,因此需要通過提取PDF中圖片的方式,而不是提取文本或表格。
今天主要解決pymupdf庫的問題。在pymupdf這個庫上我參考了很多人的代碼,但是無論如何都顯示缺少文件。
其實很很可能是pymupdf版本不同。
通常使用pip install pymupdf會下載最新的版本,我當前默認下載的版本是1.20.0。
import fitz后
運行會報錯。
我這里使用
pip install pymupdf==1.18.17 -i https://pypi.tuna.tsinghua.edu.cn/simple下載1.18.17版本的pymupdf,使用python3.8
運行如下代碼
可以正常提取pdf中的圖片
總結(jié)
以上是生活随笔為你收集整理的python成功将PDF文件转为图片,一次成功,不再踩坑!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 51 nod 1014 X^2
- 下一篇: 图像校正-仿射图像的畸变校正