myocr
安裝
1)安裝imageMagick.????? 該庫用于圖像格式轉換
2)安裝liblept.????????? 該庫不需要顯示的圖像轉換, 直接支持多種圖片格式
3)安裝tesseract.??????? 圖片文字內容提取
以上三庫在編譯過程中均 ./configure --enable-shared --enable-static
幫助:
1)http://www.huangshifu.net/2010/01/29/ocr-stuff.html
2)tessercat bug:
??? http://www.win.tue.nl/~aeb/linux/ocr/tesseract.html
??? patch5 可以解決某些png導致core掉的問題。
3)安裝 liblept。 安裝過程中出現z_compress什么的未定義, 在網上查詢得到其定義值為-1
??? #define z_compress,,,? (-1)
開發:
1)imageMagick支持多線程。 根據需求, 程序是基于convert.c修改而成的。
2)tesseract不支持多線程。(官方有說明。 其中用到全局、靜態變量)。 程序基于
重新configure tesseract, make, make install 得到其庫和config_auto.h
然后根據自己的需要修改是否定義HAVE_LIBTIFF或者HAVE_LIBLEPT
然后測試二者的效果和性能
性能和效果影響:
1) tesseract的詞庫對性能影響很大。 圖片中帶中文的, 使用英文詞庫比中文詞庫好許多。 當然中文提不出來。 (但數字能提出來, 我只需要數字)
2) scale 和 crop 和灰度等對性能和準確率有影響。
char *argv[15] = {"presudo", "-compress", "none",? "-colorspace", "Gray",
143???????????????????????? "-gravity", "SouthWest", "-crop", "70x70%"};
144???? //????????????????? "-scale",? "150%" };
初步結論, 使用imageMagick轉換到tiff再提取數字, 比直接使用支持多抓奶哥格式的lept要稍微快一些。? 但虛存占用略大。
error/constitute.c/ReadImage/532
出現此錯誤, 是ImageMagick的delegate的問題。 可以使用convert -list configure查看DELEGATE, 然后安裝對應的圖形lib、再重新安裝ImageMagick
========================================================================
#!/bin/bash
#http://hi.baidu.com/zzticzh/blog/item/b363a8cc64ff4e0401e9289d.html
#生成box文件
tesseract myeng.tif myeng -l chi_sim batch.nochop makebox
##tesseract myeng.tif myeng -l myeng batch.nochop makebox
#vi classify/ocrfeatures.cpp tess_fscanf -> fscnaf
#得到tr txt log文件。 注意查看log文件
tesseract myeng.tif myeng nobatch box.train
#得到unicharset文件
unicharset_extractor myeng.box
#得到inttemp pffmtable myeng.unicharset Microfeat
mftraining -U unicharset -O myeng.unicharset myeng.tr
mv -f inttemp myeng.inttemp
mv -f Microfeat myeng.Microfeat
mv -f pffmtable myeng.pffmtable
#多個的結果聚集
##mftraining -U unicharset -O myeng.unicharset myeng.tr
#得到normproto
cntraining myeng.tr
mv -f normproto myeng.normproto
touch normproto.unicharambigs
combine_tessdata myeng.
==========================================================================
ocr效果參數
char *argv[32] = {"presudo", "-compress", "none", "-trim", "-gravity", "NorthWest", "-crop", "100x100+0+0", "+repage",
154???????????????????????? "-normalize", "-level", "25%",
155???????????????????????? "-sigmoidal-contrast", "10,50%", "-monochrome",
156???????????????????????? NULL};
不壓縮、去邊緣空白 切割 、顏色歸一、對比度增強?? 再轉為二值化
=============
安裝圖形庫 png gif tiff jpeg
總結
- 上一篇: android 安装步骤
- 下一篇: warning: implicit de