Github Star 7.2K,来自百度飞桨超级好用的OCR数据合成与半自动标注工具,强烈推荐!
OCR 方向的工程師,一定需要知道這個 OCR 開源項目:PaddleOCR。短短幾個月,累計 Star 數量已超過 7.2K,頻頻登上 Github Trending 日榜月榜,稱它為 OCR 方向目前最火的 repo 絕對不為過。
12 月,它又帶來四大新發布與升級,核心內容先睹為快:
-
全新發布數據合成工具 Style-Text:可以批量合成大量與目標場景類似的圖像,在多個場景驗證,效果均提升 15% 以上。
-
全新發布半自動數據標注工具 PPOCRLabel:有了它數據標注工作事半功倍,相比 labelimg 標注效率提升 60% 以上,社區小規模測試,好評如潮。
-
多語言識別模型效果升級:中文、英文、韓語、法語、德語、日文識別效果均優于 EasyOCR。
-
PP-OCR 開發體驗再升級:支持動態圖開發(訓練調試更方便),靜態圖部署(預測效率更高),魚與熊掌可以兼得。
?
PaddleOCR 歷史表現回顧
先看下 PaddleOCR 自今年開源以來,短短幾個月在 GitHub 上的表現:
- 6 月,8.6M 超輕量模型發布,GitHub Trending 全球趨勢榜日榜第一。
-
8 月,開源 CVPR2020 頂會 SOTA 算法,再上 GitHub 趨勢榜單!
-
10 月,發布 PP-OCR 算法,開源 3.5M 超超輕量模型,再下 Paperswithcode 趨勢榜第一
?
?
這個含金量,廣大的 GitHub 開發者們自然懂,3.5M 超超輕量模型的效果圖大家直接看,絕對杠杠的。
?
?
火車票、表格、金屬銘牌、翻轉圖片、外語都是妥妥的,3.5M 的模型能達到這個識別精度,絕對是良心之作了!
?
傳送門:
https://github.com/PaddlePaddle/PaddleOCR
?
那么最近的 12 月份更新,又給大家帶來哪些驚喜呢?
?
全新發布 OCR 數據合成工具:Style-Text
相比于傳統的數據合成算法,Style-Text 可以實現特殊背景下的圖片風格遷移,只需要少許目標場景圖像,就可以合成大量數據,效果展示如下:
?
1、相同背景批量數據合成
?
?
2、相同文字批量數據合成
?
?
3、圖片分離前景背景
?
?
除了拉風的效果,采用這樣的合成數據和真實數據一起訓練,可以顯著提升特殊場景的性能指標,分別以兩個場景為例:
?
?
怎么樣,絕對是黑科技了吧。這項能力核心算法是基于百度自研的文本編輯算法《Editing Text in the Wild》。
?
論文地址:
https://arxiv.org/abs/1908.03047
?
不同于常用的基于 GAN 的數據合成工具,Style-Text 主要框架包括 ①文本前景風格遷移模塊 ②背景抽取模塊 ③融合模塊。經過這樣三步,就可以迅速實現圖片文字風格遷移啦。
?
?
超強 OCR 數據標注工具:PPOCRLabel
除了數據合成,數據標注也一直是深度學習開發者關注的重點,無論是從成本還是時間上面,提高標注效率,降低標注成本太重要了。PPOCRLabel 通過內置高質量的 PPOCR 中英文超輕量預訓練模型,可以實現 OCR 數據的高效標注。CPU 機器運行也是完全沒問題的。話不多說,直接看 PPOCRLabel 效果演示:
?
?
用法也是非常的簡單,標注效率提升 60%-80% 是妥妥的。只能說,真的太香了。
?
最好的多語言模型效果
簡單對比一下目前主流 OCR 方向開源 repo 的核心能力:
中英文模型性能及功能對比
?
其中,多語言識別模型準確率對比(僅 EasyOCR 提供)
?
測試數據及環境說明:
-
中英文場景:針對 OCR 實際應用場景,包括合同,車牌,銘牌,火車票,化驗單,表格,證書,街景文字,名片,數碼顯示屏等,收集的 300 張圖像,每張圖平均有 17 個文本框,PaddleOCR 的 F1-Score 超過 0.5,這個性能已經很不錯了。
-
多語言場景:PaddleOCR 選擇了開源數據 ICDAR2017 – MLT(多語言文本識別測試集),并抽取其中的法語、德語、日語、韓語數據作為評測集合。其中測試圖片大多來自于自然場景,例如廣告牌、路標、海報等。
?
PP-OCR 開發體驗再升級
動態圖和靜態圖是深度學習框架常用的兩種模式。在動態圖模式下,代碼編寫運行方式符合 Python 程序員的習慣,易于調試,但在性能方面, Python 執行開銷較大,與 C++ 有一定差距。
相比動態圖,靜態圖在部署方面更具有性能的優勢。靜態圖程序在編譯執行時,預先搭建好的神經網絡可以脫離 Python 依賴,在 C++ 端被重新解析執行,而且擁有整體網絡結構也能進行一些網絡結構的優化。
飛槳動態圖中新增了動態圖轉靜態圖的功能,支持用戶使用動態圖編寫組網代碼。預測部署時,飛槳會對用戶代碼進行分析,自動轉換為靜態圖網絡結構,兼顧了動態圖易用性和靜態圖部署性能兩方面優勢。
?
良心出品的中英文文檔教程
?
別的不需要多說了,大家訪問 GitHub 點過 star 之后自己體驗吧:
https://github.com/PaddlePaddle/PaddleOCR
?
?
微信掃描二維碼添加運營同學,并回復【OCR】,運營同學會邀請您加入官方交流群,獲得更高效的問題答疑。
?
?
如在使用過程中有問題,可加入飛槳官方QQ群進行交流:1108045677。
?
如果您想詳細了解更多飛槳的相關內容,請參閱以下文檔。
?
·PaddleOCR 項目地址·
GitHub:?
https://github.com/PaddlePaddle/PaddleOCR?
Gitee:?
https://gitee.com/paddlepaddle/PaddleOCR
?
總結
以上是生活随笔為你收集整理的Github Star 7.2K,来自百度飞桨超级好用的OCR数据合成与半自动标注工具,强烈推荐!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: r语言熵权法求权重(真实案例完整流程)
- 下一篇: 收货地址组件封装