腾讯数平团队 荣获第15届国际文档分析与识别竞赛七项冠军
生活随笔
收集整理的這篇文章主要介紹了
腾讯数平团队 荣获第15届国际文档分析与识别竞赛七项冠军
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
導語:在剛剛結束的第15屆國際文檔分析與識別大會(澳大利亞悉尼)上,騰訊數據平臺部(下稱“數平”)團隊獲頒7項冠軍證書,并受邀在會議上做技術分享。9.20 - 9.25,作為全球OCR領域標桿性盛會,第15屆國際文檔分析與識別大會(ICDAR 2019)在澳大利亞悉尼召開,同時也揭曉了本年度ICDAR競賽的結果并為冠軍團隊頒發獲獎證書。
騰訊數平圖像團隊(Tencent-DPPR Team)依靠領先的文字檢測與識別技術能力,在本次競賽的三個大項比賽中(MLT19,LSVT,ReCTS, 共10個子任務)獲得了7項第一,2項第二的優異成績,并受邀在會議上做技術報告分享。這也是團隊自2017年獲得4項OCR冠軍之后,再次代表騰訊在OCR領域最權威國際賽場中折桂。MLT-文本檢測 冠軍MLT-語種識別 冠軍
MLT-端到端語種識別 冠軍
MLT-端到端文字識別 冠軍
LSVT-文本檢測 冠軍
LSVT-端到端文字識別 冠軍
ReCTS-端到端文字識別 冠軍ICDAR 2019 群英薈萃文檔分析與識別大會 (ICDAR,International Conference on Document Analysis and Recognition) 是由國際模式識別協會 (IAPR, International Association of Pattern Recognition) 舉辦,專注于文本識別領域的技術研究與應用。會議每兩年舉辦一次,自1991年第一屆開始,至今已經成功舉辦了十五屆。自從2003年大會開始設立“Robust Reading Competitions”以來,該競賽已成為評估自然場景/網絡圖片/復雜視頻文本檢測與識別新技術進展的最權威國際賽事及國際評測標準,在國際模式識別、文檔分析與識別等領域具有重要的影響力。同時該競賽由于其較高技術難度、貼合各類實際應用場景,多年來一直是各大科研院校、科技公司關注競逐的焦點。截止目前,已經有128個國家的11000多支隊伍在ICDAR競賽中參加過競逐。其中Google、微軟、騰訊、阿里巴巴、百度、三星、商湯、曠視、海康等國內外科技公司都取得過不錯的成績,競賽中涌現出的許多方法都對OCR技術的發展起到了強大的推動作用。目前,ICDAR競賽已經成為業界影響力最大、參賽隊伍最多、水平最高、覆蓋面最廣的文字識別競賽。
本次ICDAR競賽更加貼合實際業務場景,針對中英文的識別任務更多、圖片數量更大、測評標準更符合中英文,同時中國團隊的影響力越發強大。百度、美團點評、中科院、華南理工、上海交通大學、華中科技大學等公司和高校積極參與了競賽組織工作。同時更多的團隊參與了競賽角逐,據賽后不完全統計,僅中國團隊就有過百支隊伍隊伍參賽, 其中包括:(1)企業團隊:騰訊、阿里、百度、華為、聯想、平安、商湯、曠視、美團點評、科大訊飛、VIVO、北大方正、搜狗、第四范式、合合信息等;(2)學校團隊:清華、北大、中科院、華中科大、復旦、上海交大、中科大、北航、南京大學、南京航空、華南理工、同濟大學、哈工大、山東大學、四川大學、天津大學等。
這也標志著在文字識別技術領域,中國團隊當前已經走在了世界前列。
騰訊數平圖像團隊騰訊數平圖像團隊(參賽隊名Tencent-DPPR Team)基于自研算法,共參加了三大項目比賽共10項子任務,獲得了其中的7項冠軍:
LSVT項目(大規模弱標注街景文字識別):?包攬全部兩項冠軍 MLT-19項目(多語言自然場景文字識別):包攬全部四項冠軍 ReCTS項目(中文招牌文字識別):端到端文字識別Task獲得冠軍
三大比賽任務均源自于實際應用場景,具有較大的技術難點,且各自側重點不一。LSVT側重中英文街景拍攝圖,MLT-19側重多語言的自然場景和文檔,而ReCTS側重商戶拍攝的招牌圖片。LSVT 文本檢測官方排名(Top-10)官方結果:?https://rrc.cvc.uab.es/?ch=16&com=evaluation&task=1LSVT 端到端文字識別官方排名(Top-10)官方結果:?https://rrc.cvc.uab.es/?ch=16&com=evaluation&task=2
MLT-19 文本檢測官方排名(Top-10)官方結果:https://rrc.cvc.uab.es/?ch=15&com=evaluation&task=1
MLT-19 詞條語種識別官方排名(Top-10)官方結果:https://rrc.cvc.uab.es/?ch=15&com=evaluation&task=2
MLT-19 端到端文本檢測和語種識別官方排名(Top-10)官方結果:https://rrc.cvc.uab.es/?ch=15&com=evaluation&task=3
MLT-19 端到端多語種文字識別官方排名(Top-10)官方結果:https://rrc.cvc.uab.es/?ch=15&com=evaluation&task=4
ReCTS 端到端文字識別官方排名(Top-10)官方結果:https://rrc.cvc.uab.es/?ch=12&com=evaluation&task=4
騰訊數平圖像團隊本次參賽
在Mask-RCNN基礎上我們改進了諸多技術點,包括:增加采用了困難樣本挖掘策略的Cascade級聯回歸,更準確地預測檢測框;同時增加可變形卷積以及Anchor學習機制等諸多模塊;由于自然場景非常復雜,很多時候根據候選框本身去判定是否為文字區域比較困難,我們還在Mask-RCNN中引入了全局的語義信息監督,去輔助判定。針對任意角度的文本候選框,我們采用多邊形Soft NMS來得到最后的文本位置。我們充分結合Mask-RCNN和FCN兩種算法的優勢,發揮在不同場景下方法的互補性。檢測算法流程圖
在識別算法方面,相比于我們在2017年獲勝所用的CNN+LSTM結構的識別算法,本屆比賽中我們采用了更多樣、更強力的網絡結構。我們在原有的VGGNet+BiRNN的編碼網絡的基礎上進行改進,使用了更具表達能力的SE_ResNeXt卷積模塊和Multi-Head Self-Attention時序編碼模塊。CNN+BiRNN使用的基于CTC的解碼網絡能夠很好地捕獲局部特征,但在全局語義信息的理解上有所不足,為此我們引入了基于Attention的解碼網絡形成互補。使用這些模塊,我們設計了多個不同的網絡結構,之后采用集成方法將不同模型的識別結果進行基于置信度的整合。整體流程圖如下所示:識別算法流程圖
騰訊數平圖像團隊專注于OCR技術領域的研究,多年的研究與應用實踐經驗積累起了豐富的OCR能力矩陣,形成了自己的技術特色:多平臺:支持GPU、CPU、FPGA、iOS、Android等多個系統平臺, 支持在線、離線識別; 多語言:支持中文簡體、中文繁體、英文、各類符號、以及日文、韓文、拉丁文、斯拉夫文、印地語等超過20個語種; 高精度:在廣告圖片、文檔圖片、自然場景圖片等多個具有較大難度的數據集上識別精度超過92%,遠超行業內競品; 高性能:平均每張圖片時耗<100ms,且支持高并發; 高魯棒:對于垂直文本、傾斜文本、超長文本、復雜排版、超大尺寸、手寫體、藝術字體、低分辨率、透視畸變、超密集等各類場景可有效識別; 多功能:除了支持字符識別,也支持段落合并、文字面積占比、字體識別、置信度過濾等各項實用功能; 高可靠:團隊OCR技術能夠兼容各類異常圖片請求,具備企業級服務的可靠性,并提供云端部署、私有化本地加密部署等多類可靠方案; 快接入:提供快速接入系統,小批量業務可10分鐘內極速接入,大批量業務可一天內接入,為各業務帶來方便快捷的OCR服務; 除OCR技術外,團隊也積極研發了20多項計算機視覺AI能力, 包括 清晰度識別、品牌識別、物體識別、場景識別、色彩分析、風格識別、服裝標簽、布局分析、商品分割、顯著性檢測、人臉屬性、美學度量、二維碼檢測、智能裁剪,視頻跟蹤、深度估計、光流計算、全景分割、字幕識別、明星識別等,涵蓋了圖像與視頻中重要的技術點。相關技術在公司內部50多個重要業務團隊中得到使用,例如:騰訊廣告、QQ、微信、微視、翻譯君等。尤其是在騰訊廣告場景中,團隊結合大數據處理能力、實時精準推薦能力,為廣告智能審核、廣告精準推薦、廣告智能制圖等提供了大量圖像AI技術能力,極大提升了騰訊廣告的效率與效果。此次ICDAR 2019國際競賽,是一場工業界與學術界技術碰撞與學術交流的盛會,將國際文字識別技術的研究和應用推到一個新高度,同時也進一步加強了騰訊技術的國際影響力。未來團隊將繼續堅持“一切以用戶價值為依歸”和“科技向善”的理念,持續打造核心技術,為用戶創造價值,為人類生活品質的提升貢獻技術力量!
騰訊數平圖像團隊(Tencent-DPPR Team)依靠領先的文字檢測與識別技術能力,在本次競賽的三個大項比賽中(MLT19,LSVT,ReCTS, 共10個子任務)獲得了7項第一,2項第二的優異成績,并受邀在會議上做技術報告分享。這也是團隊自2017年獲得4項OCR冠軍之后,再次代表騰訊在OCR領域最權威國際賽場中折桂。MLT-文本檢測 冠軍MLT-語種識別 冠軍
MLT-端到端語種識別 冠軍
MLT-端到端文字識別 冠軍
LSVT-文本檢測 冠軍
LSVT-端到端文字識別 冠軍
ReCTS-端到端文字識別 冠軍ICDAR 2019 群英薈萃文檔分析與識別大會 (ICDAR,International Conference on Document Analysis and Recognition) 是由國際模式識別協會 (IAPR, International Association of Pattern Recognition) 舉辦,專注于文本識別領域的技術研究與應用。會議每兩年舉辦一次,自1991年第一屆開始,至今已經成功舉辦了十五屆。自從2003年大會開始設立“Robust Reading Competitions”以來,該競賽已成為評估自然場景/網絡圖片/復雜視頻文本檢測與識別新技術進展的最權威國際賽事及國際評測標準,在國際模式識別、文檔分析與識別等領域具有重要的影響力。同時該競賽由于其較高技術難度、貼合各類實際應用場景,多年來一直是各大科研院校、科技公司關注競逐的焦點。截止目前,已經有128個國家的11000多支隊伍在ICDAR競賽中參加過競逐。其中Google、微軟、騰訊、阿里巴巴、百度、三星、商湯、曠視、海康等國內外科技公司都取得過不錯的成績,競賽中涌現出的許多方法都對OCR技術的發展起到了強大的推動作用。目前,ICDAR競賽已經成為業界影響力最大、參賽隊伍最多、水平最高、覆蓋面最廣的文字識別競賽。
本次ICDAR競賽更加貼合實際業務場景,針對中英文的識別任務更多、圖片數量更大、測評標準更符合中英文,同時中國團隊的影響力越發強大。百度、美團點評、中科院、華南理工、上海交通大學、華中科技大學等公司和高校積極參與了競賽組織工作。同時更多的團隊參與了競賽角逐,據賽后不完全統計,僅中國團隊就有過百支隊伍隊伍參賽, 其中包括:(1)企業團隊:騰訊、阿里、百度、華為、聯想、平安、商湯、曠視、美團點評、科大訊飛、VIVO、北大方正、搜狗、第四范式、合合信息等;(2)學校團隊:清華、北大、中科院、華中科大、復旦、上海交大、中科大、北航、南京大學、南京航空、華南理工、同濟大學、哈工大、山東大學、四川大學、天津大學等。
這也標志著在文字識別技術領域,中國團隊當前已經走在了世界前列。
騰訊數平圖像團隊騰訊數平圖像團隊(參賽隊名Tencent-DPPR Team)基于自研算法,共參加了三大項目比賽共10項子任務,獲得了其中的7項冠軍:
三大比賽任務均源自于實際應用場景,具有較大的技術難點,且各自側重點不一。LSVT側重中英文街景拍攝圖,MLT-19側重多語言的自然場景和文檔,而ReCTS側重商戶拍攝的招牌圖片。LSVT 文本檢測官方排名(Top-10)官方結果:?https://rrc.cvc.uab.es/?ch=16&com=evaluation&task=1LSVT 端到端文字識別官方排名(Top-10)官方結果:?https://rrc.cvc.uab.es/?ch=16&com=evaluation&task=2
MLT-19 文本檢測官方排名(Top-10)官方結果:https://rrc.cvc.uab.es/?ch=15&com=evaluation&task=1
MLT-19 詞條語種識別官方排名(Top-10)官方結果:https://rrc.cvc.uab.es/?ch=15&com=evaluation&task=2
MLT-19 端到端文本檢測和語種識別官方排名(Top-10)官方結果:https://rrc.cvc.uab.es/?ch=15&com=evaluation&task=3
MLT-19 端到端多語種文字識別官方排名(Top-10)官方結果:https://rrc.cvc.uab.es/?ch=15&com=evaluation&task=4
ReCTS 端到端文字識別官方排名(Top-10)官方結果:https://rrc.cvc.uab.es/?ch=12&com=evaluation&task=4
騰訊數平圖像團隊本次參賽
OCR算法概要介紹
在檢測算法上,此次ICDAR2019比賽中,我們的基礎模型從2017年的基于Faster R-CNN升級到了Mask R-CNN改進版,并且增加了基于FCN的實例分割算法模型。在Mask-RCNN基礎上我們改進了諸多技術點,包括:增加采用了困難樣本挖掘策略的Cascade級聯回歸,更準確地預測檢測框;同時增加可變形卷積以及Anchor學習機制等諸多模塊;由于自然場景非常復雜,很多時候根據候選框本身去判定是否為文字區域比較困難,我們還在Mask-RCNN中引入了全局的語義信息監督,去輔助判定。針對任意角度的文本候選框,我們采用多邊形Soft NMS來得到最后的文本位置。我們充分結合Mask-RCNN和FCN兩種算法的優勢,發揮在不同場景下方法的互補性。檢測算法流程圖
在識別算法方面,相比于我們在2017年獲勝所用的CNN+LSTM結構的識別算法,本屆比賽中我們采用了更多樣、更強力的網絡結構。我們在原有的VGGNet+BiRNN的編碼網絡的基礎上進行改進,使用了更具表達能力的SE_ResNeXt卷積模塊和Multi-Head Self-Attention時序編碼模塊。CNN+BiRNN使用的基于CTC的解碼網絡能夠很好地捕獲局部特征,但在全局語義信息的理解上有所不足,為此我們引入了基于Attention的解碼網絡形成互補。使用這些模塊,我們設計了多個不同的網絡結構,之后采用集成方法將不同模型的識別結果進行基于置信度的整合。整體流程圖如下所示:識別算法流程圖
騰訊數平圖像團隊專注于OCR技術領域的研究,多年的研究與應用實踐經驗積累起了豐富的OCR能力矩陣,形成了自己的技術特色:
總結
以上是生活随笔為你收集整理的腾讯数平团队 荣获第15届国际文档分析与识别竞赛七项冠军的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Google: 如何做code revi
- 下一篇: 你尽管“口嗨”,不打脸算我输