當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

PaddleOCR 手写识别模型:标注到训练

發布時間：2023/12/9 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了 PaddleOCR 手写识别模型:标注到训练小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

版本數據

Python == 3.8
Paddlepaddle >=2.0
PaddleOCR >= 2.0

這里數據使用的是中科院手寫數據集及網上開數據；整合后處理尺寸最大為640*32；訓練24w，測試1.7w；可直接用于paddleOCR的訓練。

數據下載鏈接：
https://aistudio.baidu.com/aistudio/datasetdetail/102884

流程

首先使用PPOCRLabel工具標注。

數據合成工具Style-Text（看需求使用）。

編寫腳本變更訓練所需要的數據格式。

修改訓練cfg，下載預訓練模型，開始訓練。

模型轉換，推理測試。

標注

這里需要先安裝PyQt5等其他依賴項

cd ./PPOCRLabel python PPOCRLabel.py --lang ch

標注后會在圖片路徑下保存一個label.txt,格式如圖：

實際train.txt需要將以上格式轉化為SimpleDataSet格式(并且對應需要將圖片切出 320*32 大小):
注意路徑與標簽的分隔需要使用 \t 分割

訓練

下載預訓練模型

修改配置文件cfg，附：配置文件參數表

主要修改數據路徑，添加預訓練模型，epoch，batch等

所有路徑的 ‘：’ 后面需要先加一個空格，否則會報錯。

開始訓練：

python tools/train.py -c ./configs/rec/ch_ppocr_v2.0/rec_chinese_lite_train_v2.0.yml 2>&1 | tee train_rec.log

轉換

訓練好的模型文件不能直接使用，需要經過轉換

python ./tools/export_model.py -c ./configs/rec/ch_ppocr_v2.0/rec_chinese_lite_train_v2.0.yml -o Global.pretrained_model=./ch/best_accuracy Global.load_static_weights=False Global.save_inference_dir=./out/

推理

python tools/infer/predict_system.py --image_dir="./doc/imgs/11.jpg" --det_model_dir="./inference/ch_ppocr_mobile_v2.0_det_infer/" --rec_model_dir="./inference/ch_ppocr_mobile_v2.0_rec_infer/" --cls_model_dir="./inference/ch_ppocr_mobile_v2.0_cls_infer/" --use_angle_cls=True --use_space_char=True

我這里訓練的手寫體數據，原來的打印體精度變差很多。。。

遇到報錯

win10下報錯 OMP: Error****************** ；需在代碼前加上一下代碼：

import os os.environ['KMP_DUPLICATE_LIB_OK'] = 'TRUE'

配置文件下，所有路徑的 ‘：’ 后面需要先加一個空格，否則會報錯。

參考

https://github.com/PaddlePaddle/PaddleOCR
http://www.nlpr.ia.ac.cn/databases/handwriting/Download.html

總結

以上是生活随笔為你收集整理的PaddleOCR 手写识别模型:标注到训练的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：前端学习（2887）：如何短时间内实现v
下一篇： H264视频压缩算法简析

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

生活随笔