Java OCR tesseract 图像智能字符识别技术
公司有需求啊,所以就得研究哈,最近公司需要讀驗證碼,于是就研究起了圖像識別,應該就是傳說中的(OCR:光學字符識別OCR),下面把今天的收獲整理一個給大家做個分享。
本人程序用的tesseract,官方地址:https://code.google.com/p/tesseract-ocr/,不為別的,誰讓它支持我們的天朝的文字呢~哈
下載好程序后解壓:
大概可以看到這樣一個目錄,別見怪樓主里面一堆測試文件。
然后就開始我們的測試之旅:
tesseract的用法:
參數1:需要識別的文件
參數2:輸出的文件名稱,輸出的是文本文件,里面保存了識別的信息
識別英文這兩個參數就可以了,下面做個實驗:
我們在命令行輸入:tesseract 5.jpg 6 ,可以看到程序生成了一個6.txt ,里面保存著識別后的文本,怎么樣簡單又給力~
上面說道tesseract 是支持中文的,所以么,接下來看看如何使用tesseract 實現我們中文的識別,下面繼續介紹其他參數
參數3:-l
參數4: 使用的語言庫
參數3 -l應該是知道參數4所使用的語言庫,默認英文,也就是為什么上面識別英文的例子,并沒有輸入參數3和參數4,也實現了識別。
下面繼續我們的實驗:
我們準備了一張圖片,然后使用tesseract zhongwen.jpg ?7 ?-l chi_sim 指明了中文語言,然后效果圖上,還是很不錯的,畢竟我們的中文是如此的博大精深,并且tesseract可以經過訓練,然后識字的能力就會大幅度提升。
好了,由于一行代碼沒寫,就不上傳代碼了,大家自己去官網下載。接下來我會使用Java帶大家實現這樣的小程序。
如果這篇文章對你有用,就贊一個~歡迎大家留言,多交流~
轉載于:https://www.cnblogs.com/oversea201405/p/3752034.html
總結
以上是生活随笔為你收集整理的Java OCR tesseract 图像智能字符识别技术的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: System.ComponentMode
- 下一篇: PhpStorm 超强语言模板的支持