Python:机器视觉与Tesseract介绍
機器視覺
從 Google 的無人駕駛汽車到可以識別假鈔的自動售賣機,機器視覺一直都是一個應用廣 泛且具有深遠的影響和雄偉的愿景的領域。
我們將重點介紹機器視覺的一個分支:文字識別,介紹如何用一些 Python庫來識別和使用在線圖片中的文字。
我們可以很輕松的閱讀圖片里的文字,但是機器閱讀這些圖片就會非常困難,利用這種人類用戶可以正常讀取但是大多數機器人都沒法讀取的圖片,驗證碼 (CAPTCHA)就出現了。驗證碼讀取的難易程度也大不相同,有些驗證碼比其他的更加難讀。
將圖像翻譯成文字一般被稱為光學文字識別(Optical Character Recognition, OCR)。可以實現OCR的底層庫并不多,目前很多庫都是使用共同的幾個底層 OCR 庫,或者是在上面 進行定制。
ORC庫概述
在讀取和處理圖像、圖像相關的機器學習以及創建圖像等任務中,Python 一直都是非常出色的語言。雖然有很多庫可以進行圖像處理,但在這里我們只重點介紹:Tesseract
Tesseract
Tesseract 是一個 OCR 庫,目前由 Google 贊助(Google 也是一家以 OCR 和機器學習技術聞名于世的公司)。Tesseract 是目前公認最優秀、最精確的開源 OCR 系統。 除了極高的精確度,Tesseract 也具有很高的靈活性。它可以通過訓練識別出任何字體,也可以識別出任何 Unicode 字符。
安裝Tesseract
Windows 系統
下載可執行安裝文件https://code.google.com/p/tesseract-ocr/downloads/list安裝。
Linux 系統
可以通過 apt-get 安裝:?$sudo apt-get tesseract-ocr
Mac OS X系統
用 Homebrew(http://brew.sh/)等第三方庫可以很方便地安裝?brew install tesseract
要使用 Tesseract 的功能,比如后面的示例中訓練程序識別字母,要先在系統中設置一 個新的環境變量?$TESSDATA_PREFIX,讓 Tesseract 知道訓練的數據文件存儲在哪里,然后搞一份tessdata數據文件,放到Tesseract目錄下。
-
在大多數 Linux 系統和 Mac OS X 系統上,你可以這么設置:?
$export TESSDATA_PREFIX=/usr/local/share/Tesseract -
在 Windows 系統上也類似,你可以通過下面這行命令設置環境變量:?
#setx TESSDATA_PREFIX C:\Program Files\Tesseract OCR\Tesseract
安裝pytesseract
Tesseract 是一個 Python 的命令行工具,不是通過 import 語句導入的庫。安裝之后,要用 tesseract 命令在 Python 的外面運行,但我們可以通過 pip 安裝支持Python 版本的 Tesseract庫:
pip install pytesseract
總結
以上是生活随笔為你收集整理的Python:机器视觉与Tesseract介绍的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python:模拟登录、点击和执行 Ja
- 下一篇: Python:尝试对知乎网验证码进行处理