再降64%,3.5M超轻量中英文OCR模型开源,身量缩减效果提升v4.1
一、導(dǎo)讀
不得不說(shuō),2020年絕對(duì)是OCR開(kāi)源界的豐收年,各種開(kāi)源repo橫空出世,一次又一次的刷新開(kāi)源界的baseline,小編今天再次給大家種個(gè)草,介紹今年OCR開(kāi)源領(lǐng)域 “真.良心之作”百度飛槳PaddleOCR。
先看下飛槳文字識(shí)別套件PaddleOCR自今年年中開(kāi)源以來(lái),短短幾個(gè)月在GitHub上的表現(xiàn):
7月,8.6M超輕量模型發(fā)布,GitHub Trending 全球日榜榜單第一!
8月,開(kāi)源CVPR2020頂會(huì)SOTA算法,再上GitHub趨勢(shì)榜單!
9月,GitHub Star數(shù)量已超過(guò)3.2K, 近期又帶來(lái)哪些重磅更新?
果然,看9月最新更新,PaddleOCR再次誠(chéng)意滿滿為大家?guī)?lái)真干貨,直接看官方介紹:
數(shù)量上,這次PaddleOCR一口氣發(fā)布了三個(gè)系列模型,滿足移動(dòng)端、服務(wù)器端各種場(chǎng)景需求。而且,多語(yǔ)言也妥妥安排上了,全部訓(xùn)練代碼和模型毫無(wú)保留開(kāi)源。其中3.5M超輕量文字識(shí)別模型,堪稱目前業(yè)界開(kāi)源的最輕量OCR模型了。
質(zhì)量上,如此輕量的模型,效果有保障嗎?不看廣告,直接看療效。先看幾個(gè)常見(jiàn)的通用場(chǎng)景識(shí)別效果:3.5M的模型能達(dá)到這個(gè)識(shí)別精度,絕對(duì)是良心之作了!再看一個(gè)非正常顯示的圖片:文字倒著也能識(shí)別,沒(méi)毛病(此處可以豎起大拇哥)。想看更多效果?官方GitHub項(xiàng)目鏈接走起。
傳送門:Github:https://github.com/PaddlePaddle/Paddle
OCR論文下載鏈接:https://github.com/PaddlePaddle/PaddleOCR/raw/develop/doc/PPOCR.pdf
激動(dòng)的心,顫抖的手,相信有OCR玩家要問(wèn):有Demo可以動(dòng)手玩一玩嗎?
二、快速體驗(yàn)PaddleOCR的3.5M超輕量OCR模型
為了讓用戶快速上手,PaddleOCR也是做足了準(zhǔn)備。
PC端快速嘗試:(打開(kāi)網(wǎng)頁(yè),選一張圖片,即可實(shí)時(shí)看到結(jié)果)https://www.paddlepaddle.org.cn/hub/scene/ocr
手機(jī)端App安裝體驗(yàn)
PaddleOCR在百度大腦EasyEdge上開(kāi)放了文字識(shí)別APP demo。
安卓手機(jī)可直接掃碼下載:
iOS版本由于證書(shū)限制,需要登錄百度EasyEdge網(wǎng)頁(yè)掃碼體驗(yàn):https://ai.baidu.com/easyedge/app/openSource?from=paddlelite效果如下:
通過(guò)PIP安裝包快速體驗(yàn)PaddleOCR
# pip安裝
pip install paddleocr
# 快速使用
更多內(nèi)容,可以進(jìn)入https://github.com/PaddlePaddle/PaddleOCR 快速開(kāi)始
三、多個(gè)開(kāi)源repo測(cè)試對(duì)比
對(duì)于OCR方向的開(kāi)發(fā)者而言,開(kāi)源repo最吸引人的莫過(guò)于
①高質(zhì)量的預(yù)訓(xùn)練模型
②簡(jiǎn)單易上手的訓(xùn)練代碼
③好用無(wú)坑的部署能力
簡(jiǎn)單對(duì)比一下目前主流OCR方向開(kāi)源repo的核心能力:
從性能指標(biāo)來(lái)看:
針對(duì)OCR實(shí)際應(yīng)用場(chǎng)景,包括合同,車牌,銘牌,火車票,化驗(yàn)單,表格,證書(shū),街景文字,名片,數(shù)碼顯示屏等,收集的300張圖像,每張圖平均有17個(gè)文本框,PaddleOCR的F1-Score超過(guò)0.5,這個(gè)性能已經(jīng)很不錯(cuò)了。
從功能完備來(lái)看:
預(yù)訓(xùn)練模型大小:easyOCR目前暫無(wú)超輕量模型,chineseocr_lite最新的模型是4.7M左右,而PaddleOCR提供的3.5M無(wú)疑是目前業(yè)界已知最輕量的。
PIP安裝:目前僅PaddleOCR和easyOCR支持。
自定義訓(xùn)練:實(shí)際業(yè)務(wù)場(chǎng)景中,預(yù)訓(xùn)練模型往往不能滿足需求,對(duì)于自定義訓(xùn)練和模型Finetuning,目前只有PaddleOCR支持。
部署方面:easyOCR模型較大不適合端側(cè)部署,Chineseocr_lite和PaddleOCR都具備端側(cè)部署能力。
開(kāi)發(fā)者可以根據(jù)自己的實(shí)際需求,選擇適合自己的開(kāi)源方案。
對(duì)于PaddleOCR 3.5MB的超輕量模型,是如何做到的,repo中也給出了解釋。3.5M超輕量模型應(yīng)用了一套超輕量OCR系統(tǒng)PP-OCR,主要由DB文本檢測(cè)、檢測(cè)框矯正和CRNN文本識(shí)別三部分組成。該系統(tǒng)從骨干網(wǎng)絡(luò)選擇和調(diào)整、預(yù)測(cè)頭部的設(shè)計(jì)、數(shù)據(jù)增強(qiáng)、學(xué)習(xí)率變換策略、正則化參數(shù)選擇、預(yù)訓(xùn)練模型使用以及模型自動(dòng)裁剪量化8個(gè)方面,采用19個(gè)有效策略,對(duì)各個(gè)模塊的模型進(jìn)行效果調(diào)優(yōu)和瘦身,最終得到整體大小為3.5M的超輕量中英文OCR模型和2M的英文數(shù)字OCR模型。更多細(xì)節(jié)請(qǐng)參考文末PP-OCR技術(shù)文章。
其中,飛槳模型壓縮庫(kù)PaddleSlim為PaddleOCR超輕量化模型的實(shí)現(xiàn)提供了核心的技術(shù)支撐。PaddleSlim集成了模型剪枝、量化(包括量化訓(xùn)練和離線量化)、蒸餾和神經(jīng)網(wǎng)絡(luò)搜索等多種業(yè)界常用且領(lǐng)先的模型壓縮功能。通過(guò)PaddleSlim對(duì)PP-OCR中檢測(cè)、檢測(cè)框矯正和識(shí)別模型的壓縮,從超輕量模型8.1M的壓縮到3.5M,模型大小降低了56.79%,其中檢測(cè)模型速度提升21%,而且整體模型精度還有一定提升。
四、更多驚喜等著你
除了3.5M超輕量OCR模型,PaddleOCR還隱藏哪些驚喜,一睹為快:1、本次開(kāi)源的超輕量英文數(shù)字識(shí)別模型,不得不說(shuō),考慮的真周到,英文場(chǎng)景用起來(lái)更溜。
2、多語(yǔ)言支持,中、英、德、法、韓、日,據(jù)了解還在持續(xù)迭代更新并擴(kuò)充中,歡迎體驗(yàn)。PaddleOCR也提供了多語(yǔ)言的識(shí)別模型配置文件如下圖所示:用戶可以根據(jù)自己需求重新訓(xùn)練,也可以在預(yù)訓(xùn)練基礎(chǔ)上調(diào)優(yōu)。
3、文檔教程,絕對(duì)是開(kāi)源界的一股清流,對(duì)于OCR方向,能想到的內(nèi)容,PaddleOCR應(yīng)該都覆蓋了吧。其中的FAQ部分強(qiáng)烈推薦,面試OCR算法工程師崗位你應(yīng)該用的到。
五、支持自定義訓(xùn)練,豐富部署能力
開(kāi)發(fā)者如果想要使用自定義數(shù)據(jù)訓(xùn)練超輕量模型,也可以從PaddleOCR提供的基礎(chǔ)算法庫(kù)中選擇適合自己的文本檢測(cè)、識(shí)別算法,進(jìn)行自定義的訓(xùn)練。自定義訓(xùn)練的存在讓開(kāi)發(fā)者可以使用自己的數(shù)據(jù)集打造更為契合自身需求的產(chǎn)品,極大程度滿足了不同開(kāi)發(fā)者的需求。
除了貼心的自定義訓(xùn)練,滿足開(kāi)發(fā)者產(chǎn)業(yè)級(jí)訓(xùn)練的需求之外,百度PaddleOCR為了更好的方便開(kāi)發(fā)者和企業(yè)應(yīng)用,打造了一系列的模型部署組件,可以支持開(kāi)發(fā)者和企業(yè)在服務(wù)端、移動(dòng)端、嵌入式硬件,云端服務(wù)化等多個(gè)不同的硬件平臺(tái)部署,最大化地滿足OCR文字識(shí)別領(lǐng)域的企業(yè)應(yīng)用。
六、招募活動(dòng)預(yù)告
9月26日,飛槳將舉辦OCR方向的線下沙龍活動(dòng),歡迎北京OCR方向的開(kāi)發(fā)者們,我們相聚中關(guān)村。
(掃描海報(bào)中的二維碼即可報(bào)名獲取直播鏈接或現(xiàn)場(chǎng)門票)
更多飛槳的相關(guān)內(nèi)容,請(qǐng)參閱以下內(nèi)容。
官網(wǎng)地址:
https://www.paddlepaddle.org.cn
飛槳PaddleOCR項(xiàng)目地址:
GitHub: https://github.com/PaddlePaddle/PaddleOCR
Gitee: https://gitee.com/paddlepaddle/PaddleOCR
飛槳PaddleSlim項(xiàng)目地址:
GitHub: https://github.com/PaddlePaddle/PaddleSlim
Gitee: https://gitee.com/paddlepaddle/PaddleSlimPP-OCR
技術(shù)文章:https://github.com/PaddlePaddle/PaddleOCR/raw/develop/doc/PPOCR.pdf
總結(jié)
以上是生活随笔為你收集整理的再降64%,3.5M超轻量中英文OCR模型开源,身量缩减效果提升v4.1的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【Python基础】50个令人大开眼界的
- 下一篇: 【学术相关】博士新生应该懂得哪些道理?