ubuntu下tesseract 4.0安装及参数使用
生活随笔
收集整理的這篇文章主要介紹了
ubuntu下tesseract 4.0安装及参数使用
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
tesseract是一個開源的OCR引擎,最初是由惠普公司開發(fā)用來作為其平板掃描儀的OCR引擎,2005年惠普將其開源出來,之后google接手負(fù)責(zé)維護(hù)。目前穩(wěn)定的版本是3.0。4.0版本加入了基于LSTM的神經(jīng)網(wǎng)絡(luò)技術(shù),中文字符識別準(zhǔn)確率有所提高。
字庫下載
--psm命令
psm命令指明文本的模式,默認(rèn)為3:
ubuntu下tesseract 4.0安裝:
終端輸入以下命令:
sudo add-apt-repository ppa:alex-p/tesseract-ocr
測試安裝是否成功,同時檢查版本:
tesseract --version字庫下載
tesseract支持60多種語言的識別不同,使用之前需要先下載對應(yīng)語言的字庫,下載地址:https://github.com/tesseract-ocr/tessdata
下載完成之后把.traineddata字庫文件放到tessdata目錄下,默認(rèn)路徑是/usr/share/tesseract-ocr /4.0/tessdata
中文OCR識別測試
在終端中使用tesseract格式:
tesseract xx.jpg result --psm 7
執(zhí)行之后生成結(jié)果記錄在result里,--psm 7 指令表示內(nèi)容是一行文本
更多tesseract使用指令可以查看help
tesseract --help
查看已安裝字庫
tesseract --list-langs
--psm命令
psm命令指明文本的模式,默認(rèn)為3:
--oem命令
定義OCR引擎的模式:
轉(zhuǎn)載于:https://www.cnblogs.com/mtcnn/p/9411802.html
總結(jié)
以上是生活随笔為你收集整理的ubuntu下tesseract 4.0安装及参数使用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Kudu安装前的建议说明(博主推荐)
- 下一篇: JSP(1)—基础知识