如何对纸质文档进行数字化处理
紙質(zhì)文件雖然翻閱方便,但歸檔保存不方便,也不利于后續(xù)的查找使用。因此,一些有歷史價值、研究意義的紙質(zhì)文件,通常要進(jìn)行數(shù)字化處理,將其保存為電子文檔。
那么,該如何對紙質(zhì)文檔進(jìn)行數(shù)字化處理?本文會結(jié)合使用專業(yè)的文本識別軟件ABBYY FineReader PDF 15來詳細(xì)講解文檔數(shù)字化處理的技巧。
一、將紙質(zhì)文件轉(zhuǎn)換為文檔
ABBYY FineReader PDF 15為我們提供了兩種紙質(zhì)文檔數(shù)字化處理的方法,第一種是運(yùn)用掃描儀,將紙質(zhì)文檔掃描為所需的文件類型。
圖1:掃描功能
第二種是運(yùn)用拍攝的方法,將紙質(zhì)文件拍攝為圖像,然后再通過ABBYY FineReader PDF 15的智能OCR文本識別功能,識別圖像中的文本。
接下來,我們會重點介紹第二種方法。
圖2:OCR高級圖像識別功能
二、通過OCR識別圖像
我們將拍攝的紙質(zhì)文檔圖像導(dǎo)入到ABBYY FineReader PDF 15的OCR編輯器后,可先使用其“編輯圖像”功能,對文件的版式進(jìn)行處理。
圖3:編輯圖像功能
如圖4所示,編輯圖像功能是應(yīng)用ABBYY FineReader PDF 15的圖像編輯器對圖像進(jìn)行處理的功能。
建議先使用其中的“建議預(yù)處理”功能,對圖像進(jìn)行預(yù)處理。
圖4:預(yù)處理圖像
然后,再結(jié)合圖像的實際情況使用其他的處理功能。比如,當(dāng)前圖像的左邊出現(xiàn)一些書邊,可使用“修剪”功能,將書邊裁剪掉。
圖5:修剪圖像
然后,由于拍攝的失誤,圖像的左下角出現(xiàn)了相機(jī)的影子,在這種情況下,可使用“漂白背景”功能,讓書本的背景呈現(xiàn)為白色。同時,結(jié)合使用“消除運(yùn)動模糊”功能,糾正拍攝時的抖動模糊。
圖6:漂白背景
最后,書脊部分文本有一點歪曲,可使用“矯直文本行”功能,糾正歪曲。
圖7:矯直文本行
如圖8所示,我們已經(jīng)完成了圖像的處理。
圖8:完成文本行矯直
三、另存為文檔
完成圖像的處理后,我們就可以使用ABBYY FineReader PDF 15的另存為功能,將圖像保存為所需的電子文檔保存。
圖9:另存為文檔
四、小結(jié)
綜上所述,我們既可以應(yīng)用ABBYY FineReader PDF 15的掃描功能,將紙質(zhì)文件掃描為電子文件,也可以應(yīng)用ABBYY FineReader PDF 15的高級OCR文本識別功能,對拍攝的紙質(zhì)文件圖像進(jìn)行文本識別,然后再保存為電子文件格式。
總結(jié)
以上是生活随笔為你收集整理的如何对纸质文档进行数字化处理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: XPath:爬取百度贴吧图片,并保存本地
- 下一篇: 每天一个linux命令(70):objd