图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别
簡介:
tesseract-ocr可以對圖像文字進行識別,為圖文轉換的工作時省去了大量時間。我們還可以通過不斷的訓練字庫,使圖像轉換文本的能力不斷增強,也可以調試模型使圖像文字進行程序的識別率更高,
一.tesseract4.0的安裝與配置環境變量:
1、安裝包地址:?http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe
2、下載完之后,直接執行.exe文件進行安裝,安裝步驟:
(1)選擇語言包:
除了默認已經打鉤的,再鉤上數字公式常用包和簡體中文包。
(2)選擇安裝路徑:(需要記住自己的安裝路徑,后面配置需要用到)
我的安裝路徑是:D:\Tesseract\tesseract-ocr--4.00.00dev\Tesseract-OCR
(3)目錄結構:
(4)配置環境變量:
第一步:在環境變量界面的系統變量中找到Path,點擊編輯,新建一個D:\Tesseract\tesseract-ocr--4.00.00dev\Tesseract-OCR(你的安裝目錄),然后確定。
第二步:在系統變量下面新建一個變量,然后確定。
變量名:TESSDATA_PREFIX
變量值:D:\Tesseract\tesseract-ocr--4.00.00dev\Tesseract-OCR\tessdata(安裝目錄下的tessdata文件夾)
(5)檢驗環境變量是否配置成功:打開cmd命令行,在任意路徑,輸入“tesseract”,出現下面信息則表示配置成功。
二、初步使用tesseract4.0進行簡單的圖片文字識別:
1、先準備一張圖片素材(圖片命名是wenzi.png),內容如下圖:
2、打開cmd命令行,進入素材圖片所在的目錄,輸入以下命令,就會生成一個test.txt文檔,該文檔的內容為圖片識別后的文字:
tesseract wenzi.png test -l chi_sim+equ+eng其中,wenzi.png是素材的名字,test是識別后生成的文檔的名字,-l是指定使用包(注意:是小寫英文字母l,不是阿拉伯數字1),chi_sim是中文識別包,equ是數字公式包,eng是英文包。
識別后的test.txt的文字內容:
3、至此,使用tesseract4.0進行簡單的文字識別就完成,雖然識別的成功不高,但是我們可以通過訓練字庫的方法提高tesseract的識別率,訓練tesseract字庫的方法在下篇博客再寫。
總結
以上是生活随笔為你收集整理的图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 解决mysql操作1045错误,1153
- 下一篇: 图像文字识别(二):java调用tess