这项技术竟然一个字也不放过!
歡迎大家前往騰訊云+社區,獲取更多騰訊海量技術實踐干貨哦~
本文由騰訊云AI中心發表于云+社區專欄
摘要:在日常生活工作中,我們難免會遇到一些問題,比如自己辛辛苦苦寫完的資料,好不容易打印出來卻發現源文件丟了;收集了一些名片,卻要一個一個地錄入信息,很麻煩;快遞公司的業務越來越好,但每天需要花費很多時間登記錄入運單,效率非常的低。
那么,有沒有什么技術能幫助我們解決這些難題呢?有的,那就是OCR文字識別技術。今天我們請到了騰訊云大數據AI產品中心的AI科學家冀永楠、產品經理Florali、陳英恬,高級工程師肖西華為咱們分享一下騰訊云近年來在這一領域的探索情況。
前面顯示:讓你把這個世界看得清清楚楚,真真切切
文︱Flora
什么是OCR?
OCR 是實時高效的定位與識別圖片中的所有文字信息,返回文字框位置與文字內容。支持多場景、任意版面下整圖文字的識別,以及中英文、字母、數字的識別。簡單來說,就是將圖片上的文字內容,智能識別成為可編輯的文本,例如:
OCR的技術原理是什么?
OCR本質是圖像識別。其原理也和其他的圖像識別問題基本一樣。包含兩大關鍵技術:文本檢測和文字識別。先將圖像中的特征進行提取并檢測目標區域,之后對目標區域的字符進行分割和分類。
以深度學習興起的時間為分割點,直至近五年之前,業界最為廣泛使用的仍然是傳統的OCR識別技術框架,而隨著深度學習的崛起,基于這一技術的OCR識別框架以另外一種新的思路迅速突破了原有的技術瓶頸(如文字定位、二值化和文字分割等),并已在工業界得到廣泛應用。
首先文本定位,接著進行傾斜文本矯正,之后分割出單字后,并對單字識別,最后基于統計模型(如隱馬爾科夫鏈,HMM)進行語義糾錯。
OCR技術的難點是什么?
復雜背景、藝術字體、低分辨率、非均勻光照、圖像退化、字符形變、多語言混合、文本復雜版式、檢測框字符殘缺,等等。
如何克服這些難點?
從幾個方面入手。一是使用場景,另一方面是從技術上進行改進。騰訊優圖實驗室在文本檢測技術方進行了深度優化,提出了Compact Inception,通過設計合理的網絡結構來提升各尺度的文字檢測/提取能力。同時引入RNN多層自適應網絡和Refinement結構來提升檢測完整性和準確性。
騰訊云OCR目前支持什么功能?
基于騰訊優圖實驗室世界領先的深度學習技術,目前我們已支持:身份證識別,銀行卡識別,名片識別,營業執照識別,行駛證駕駛證識別,車牌號識別,通用印刷體識別,手寫體識別。
通用印刷體的技術難點,使用場景
我們知道身份證識別可廣泛應用在金融行業中,在身份認證中,可以減少用戶的信息輸入,提升效率,提高用戶體驗,營業執照的識別完全省去了手工錄入的繁瑣,還可以為企業省去大量的人力資源成本,這些場景大家都已經比較熟悉。
對于通用印刷體,騰訊優圖實驗室自主設計一整套全方位多尺度文字識別引擎,可攻破模糊,散焦,透視,文字部分遮擋的問題,識別準確率高達90%以上,處于業界領先水平。使用場景廣泛,例如對任意版面上圖像的文字識別,可廣泛應用在印刷文檔、廣告圖、醫療、物流等行業中的識別。
對于通用印刷體有沒有什么好的例子?
例如這個廣告,內容多字體多,中英文與數字混合,背景也比較隨意。咱們的OCR通過透視矯正、去模糊等,能大幅還原圖像真實度,極大提升算法的精確性。
再例如識別文字密集、行間距小,透視畸變等的海報。人工識別需要不僅耗費時間,肉眼也比較難識別。但騰訊云OCR設計了小而精的特征提取網絡,配合先進的預處理技術,識別準確率高達93%以上。
有時候也會遇到識別率不理想的情況,如何可以提高識別準確率?
首先會確認下當前的場景,造成準確度不高的原因。評估可提高的空間設計,之后做出相應的修改,列入預處理等等。
關于騰訊云手寫體識別這塊有沒有什么案例?
騰訊是國內首家將手寫體識別應用在復雜場景下的服務商,數字識別準確率高達90%以上,單字識別速度在15ms以內,復雜漢字準確率超過80%。
騰訊云手寫體OCR已運用到運單識別場景,解決了物流行業每日快遞單人工輸入工作量極大且極易出錯,非常低效等問題。
運單識別與傳統人工識別有什么區別呢?
如果傳統人工識別按照3min/單,1000單需要6.25個人/天,保證運單時效則需要耗費大量人力,考慮人力成本則影響運單及時性,成本和服務難兩全。
我們的運單識別速度可以達到毫秒級/單,并支持24小時識別服務 ,業務增長時只需要投入計算用服務器資源即可,彈性較大。
與傳統識別相比,不僅成本可以降低,提高準確性,還可以保護用戶的隱私泄露風險。
目前OCR應用現實中有很廣泛的應用場景,騰訊云OCR有什么優勢?
咱們的OCR文字識別技術,目前支持中文簡繁體、英文、數字、標點共10000+標簽,覆蓋上百種字體,生僻字版本更支持2W+標簽 。
那咱們在行業中也有不少落地客戶了吧?
新版手Q就用到了咱們的技術,在掃一掃、聊天窗口和空間圖片大圖預覽共三個入口上支持了提取圖片中文字的功能。
方便用戶閱讀、編輯、保存圖片上的文字,從而可以對提取出的文字進行翻譯、搜索。在多種場景下可以極大提升用戶對圖片上文字的閱讀和記錄效率。
企業微信中的名片識別也用到了咱們OCR技術。用戶只需拍照或選擇名片圖片,就能準確快速地識別出名片中的文字,并自動提取為對應的字段,極大簡化了名片錄入流程,也避免了手動錄入過程可能出現的錯誤。
問答
文字識別在格式上有什么要求?
相關閱讀
多個場景中的AI落地實踐
“猜畫小歌”的一些細節和思考
低于0.01%的極致Crash率是怎么做到的?
云學院 · 課程推薦 | 知乎KOL,與你分享機器學習中如何做選擇
此文已由作者授權騰訊云+社區發布,更多原文請點擊
搜索關注公眾號「云加社區」,第一時間獲取技術干貨,關注后回復1024 送你一份技術課程大禮包!
海量技術實踐經驗,盡在云加社區!
轉載于:https://www.cnblogs.com/qcloud1001/p/9531105.html
總結
以上是生活随笔為你收集整理的这项技术竟然一个字也不放过!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Median(二分+二分)
- 下一篇: 关于梦想(二)