艺赛旗RPA离线识别普通验证码
前言
以下方法適用于簡易的驗證碼識別,需要根據自身情況進行調整。
一、配置環境
安裝pytesseract庫
首先我們需要檢查是否已經安裝了pytesseract庫,經過檢查8.0以上版本的設計器,都是已內置了pytesseract庫的,所以可以不用再安裝。
想練練手也可以再重新安裝一遍。
安裝:cd 至Python\Scripts,運行命令pip3 install pytesseract
安裝失敗可參考:【 https://support.i-search.com.cn/article/1594016938814】
安裝Tesseract-OCR
我這里使用的是4.1版本(64位):tesseractocrw64setupv41020190314.exe
另外提供32位的安裝包:tesseractocrw32setupv400beta120180414.exe
也可自行去官網下載所需版本:https://digi.bib.uni-mannheim.de/tesseract/
記住使用對應位數的安裝包進行安裝,安裝時全部next即可。
找到pytesseract.py配置tesseract_cmd
(1)我使用的是8.0版本的設計器,pytesseract.py的路徑如圖,一般是在Python\Lib\site-packages\pytesseract下:
(2)打開pytesseract.py配置tesseract_cmd,配置路徑為第二步安裝的Tesseract-OCR下的tesseract.exe的路徑,默認路徑為C:\Program Files\Tesseract-OCR\tesseract.exe,根據自身安裝情況進行配置,記住路徑前加r,防止字符轉義。
二、對圖片進行處理
- 1.保存驗證碼圖片,對圖片進行二值化處理
我們對驗證碼圖片進行截圖保存,注意截圖的位置需要自己進行調整,根據自身情況調整為最佳位置。
處理后的圖片如下:
三、識別驗證碼
import pytesseract from PIL import Image #路徑前加r防止轉義 path = r'C:\yzm.jpg' img = Image.open(path) yzm= pytesseract.image_to_string(img) print(yzm)四、總結
我在第二值化處理之后發現處理后的圖片幾乎沒有噪點,所以我這里并沒有對圖片進行降噪,便可直接進行識別。
如果圖片噪點比較多是要對圖片進行降噪再識別,可以自己在網上搜索降噪的代碼。
大家要根據自身情況對圖片進行處理。
總結
以上是生活随笔為你收集整理的艺赛旗RPA离线识别普通验证码的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 测试工程师简历编写指南
- 下一篇: vtl模板语言