Python第三方模块tesserocr安装
介紹
在爬蟲過程中,難免會遇到各種各樣的驗證碼,而大多數驗證碼還是圖形驗證碼,這時候我們可以直接用 OCR 來識別。
tesserocr?是 Python 的一個 OCR 識別庫 ,但其實是對 tesseract 做的一 層 Python API 封裝,所以它的核心是 tesseract。 因此,在安裝 tesserocr 之前,我們需要先安裝 tesseract 。
例如:對于下圖的驗證碼,我們可以通過 OCR 技術將其轉換成電子文本,然后爬蟲將識別的結果提交給服務器,便可以達到自動識別驗證碼的過程。
??
相關鏈接
tesserocr GitHub:?https://github.com/sirfz/tesserocr
tesserocr PyPI:?https://pypi.python.org/pypi/tesserocr
tesseract 下載地址:?http://digi.bib.uni-mannheim.de/tesseract
tesseract GitHub:?https://github.com/tesseract-ocr/tesseract
tesseract 語言包:?http://github.com/tesseract-ocr/tessdata
tesseract 文檔:?https://github.com/tesseract-ocr/tesseract/wiki/Documentation
Windows下的安裝
在 Windows 下,首先需要下載 tesseract,它為 tesserocr 提供了支持。
進入下載頁面,可以看到有各種 .exe 文件的下載列表,這里可以選擇下載 3.0 版本 。 如下圖所示為 3.05 版本 。
其中文件名中帶有 dev 的為開發版本,不帶 dev 的為穩定版本,可以選擇下載不帶 dev 的版本, 例如可以選擇下載 tesseract-ocr-setup-3 .05.01.exe。
下載完成后雙擊運行,安裝程序。需要注意的是,需要句選 Additional language data(download)選項來安裝 OCR 識別支持的語言包,這樣 OCR 便可以識別多國語言 。
給tesseract配置環境變量:
(1)將tesseract安裝路徑添加到path環境變量中
(2)將tesseract的語言包添加到環境變量中,在環境變量中新建一個系統變量,變量名稱為TESSDATA_PREFIX,tessdata是放置語言包的文件夾,一般在你安裝tesseract的目錄下,即tesseract的安裝目錄就是tessdata的父目錄,把TESSDATA_PREFIX的值設置為它即可
?
?
?
接下來 , 再安裝 tesserocr 即可:
#pip install tesserocr pillow驗證安裝
測試樣例:
圖片下載:http://images.cnblogs.com/cnblogs_com/Jimc/1316973/o_image.png
?(1)用 tesseract 命令測試:
tesseract image.png result -l eng?運行結果如下:
Tesseract Open Source OCR Engine v3.05.01 with Leptonica
(2)利用 Python 代碼測試:
# coding=utf-8import pytesseract
from PIL import Image
# open image
image = Image.open('./test.png')
code = pytesseract.image_to_string(image, lang='chi_sim')
print(code)
運行結果如下:
PythonWebSpider
另外,還可以直接調用?tesserocr 模塊的 file_to_text() 方法,可以達到同樣的效果:
import pytesseract print(pytesseract.file_to_text('image.png'))運行結果如下:
PythonWebSpider
如果成功輸出結果,則證明 tesseract 和 tesserocr 都已經安裝成功。
?
轉載于:https://www.cnblogs.com/winstonsias/p/11451866.html
總結
以上是生活随笔為你收集整理的Python第三方模块tesserocr安装的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: idea基于spring boot的依赖
- 下一篇: .net core独立发布文件过多的问题