人工智能助力古彝文识别,推动传统文化传承
人工智能助力古彝文識別,推動傳統文化傳承
- 0. 前言
- 1. 古彝文
- 1.1 古彝文介紹
- 1.2 古彝文識別的重要意義
- 1.3 古彝文識別的挑戰
- 2. 古彝文識別國內外研究進展
- 3. 基于深度學習的古彝文識別
- 3.1 深度學習簡介
- 3.2 基于深度學習的古彝文識別模型架構
- 4. 古彝文識別進展與展望
- 小結
- 相關鏈接
0. 前言
古彝文作為世界上最古老的文字之一,記錄了人類幾千年來的發展歷史。古彝文識別研究能夠將珍貴的古彝文文本文獻轉換為電子文件,更加便于其保存和傳承。但由于歷史發展、區域限制等諸多要素,針對古彝文識別的研究工作一直進展緩慢。本文介紹了如何將新穎的深度學習技術應用于古老文字的識別上,介紹了合合信息如何解決古彝文識別中的困難與挑戰。依托于合合信息在古文字識別領域的積累,相對于傳統古彝文識別模型,合合信息攜手上海大學提出的基于深度學習的古彝文識別模型能夠以更高的精度識別古彝文手寫體,極大的提高了古彝文識別的準確率。
1. 古彝文
1.1 古彝文介紹
彝族有著古老燦爛的文化,它記錄并保存了卷帙浩繁的典籍,是中華傳統文化寶庫中的重要組成部分。
據 1980 年發布的四川規范彝文共有 819 字,2012 年發布的滇川黔桂通用彝文共有 5598 字,而與這些演化到現代的規范彝文不同,古彝文是指民間流通使用的原生態彝文,據《滇川黔桂彝文字集》統計,這些古彝文多達 87046 字。由于古彝文典籍通常記錄于石刻、巖畫、木牘和紙書之上,由于年代久遠,通常較為模糊甚至有所殘缺,這為古彝文的識別帶來了極大的挑戰。
| 古埃及象形文字(約 3200 BC—AD 400) | |||||
| 象形文基礎上演化的古埃及僧侶體草書 | |||||
| 象形文基礎上演化的古埃及僧侶體草書 | |||||
| 古彝文字義 | 魚 | 鳥 | 月 | 馬 | 首 |
| 古彝文字 |
1.2 古彝文識別的重要意義
隨著時間的流逝,許多古文字都漸漸消失在歷史的長河中,而古彝文是少有仍在使用的文字。對古彝文高效的識別對于古彝文的整理和翻譯工作而言都有著重要意義,不僅能夠幫助理解尚未被翻譯為漢文或者并不規范的古籍,而且能夠更實際的保護傳統文化。目前,古彝文的相關整理工作仍然主要依靠手工進行,不僅會占用大量的人力成本,且效率較低、成果的重復利用存在困難,例如,對《西南彝志》的整理與漢譯,羅國義、王興友等人耗費了 10 年時間才完成,為了對初版譯本進行完善和修正,王運權、王仕舉等又耗時 17 年才完成再版。
隨著人工智能,特別是深度學習的發展,可以為古彝文識別提供更加高效工具,為其保存和傳播提供了強有力的支撐。古彝文識別不僅僅是人類知識的延續和傳承,同時也是推動知識發展的關鍵,合合信息攜手上海大學的“原生態古彝文”研究項目將成為搶救、整理、保存、傳播和利用彝文古籍的有效途徑。
1.3 古彝文識別的挑戰
相對于其他更具標準化的文字,古彝文的書寫更為隨意,并無通用的統一性規范標準,因此其識別難度也隨之增加。盡管目前文本識別技術已經有了突破性進展,例如合合信息自研的文字識別技術,覆蓋文字、文檔、表格、印章、二維碼、公式等多種通用場景,能夠進行快速、精準的檢測和識別,支持中文、英文等超過 50 種語言,同時支持印刷體、手寫體、傾斜、折疊、旋轉等,但由于版式的多樣性、字符集的龐大性和圖像質量差等原因,當前對于古彝文識別的研究仍然寥寥無幾,并且現存的古彝文大多為手寫體,這進一步加深了古彝文識別的難度,總結而言,古彝文識別的挑戰性主要集中于以下幾個方面:
- 缺乏完善的手寫古彝文數據集:數據集通常是訓練神經網絡最為關鍵的因素之一,數據集的質量直接決定了模型的效果。當前對古彝文的研究多集中在文獻整理上,而尚未有完善的古彝文手寫數據集,并且在傳承過程中通曉古彝文文字的人越來越少,導致數據集標注工作量大而人手少,數據集樣本嚴重不足,這是古彝文識別最為關鍵的挑戰之一。合合信息研究人員通過與古彝文傳承人建立良好的關系,獲取大量典籍,彌補了古彝文識別項目訓練樣本不足的情況
- 版式多樣性:古彝文典籍排版風格具有多樣性,字符間距、行距等有較大差異,且存在加字、替字、整句倒置等現象,這種情況對文字定位與識別造成了諸多干擾。而依托合合信息在智能文字識別領域的領先技術,包括圖像復雜版式識別、圖像扭曲矯正等優秀成果,為古彝文識別奠定了技術基礎
- 圖像質量較差:除了數據集在樣本上的不足外,在數據質量上也存在諸多問題,多數古彝文典籍都因歷史保護的原因,出現了或多或少的缺失或污跡,嚴重影響了數據集的質量,增加了文字識別的難度。得益于合合信息智能文字識別技術,通過利用圖像增強技術可以顯著提高圖像質量,進而提高古彝文文字識別的精度和效率
- 字符集龐大:古彝文擁有龐大的字符集,在上文中,我們已經提到僅僅是 2004 年出版的《滇川黔桂彝文字集》就包含 87000 多個字。對如此龐大的字符集進行分類是一項十分艱巨的任務。借助合合信息在甲骨文、金文等古文中的研究經驗,文字間的識別有相通之處,為古彝文識別打下了堅實基礎
- 字形變化較多:古彝文字體、字形的變化較多,沒有統一的手寫規范,且不同地區書寫規則不同,存在大量的變形字和異體字,例如,如下圖所示,表示“種類”的古彝文就有四種不同的寫法,并且存在大量字形相似,甚至在視覺上沒有太大差別的字,在意義上毫無聯系,這為古彝文的識別增加了難度。針對這一問題,上海大學的古彝文研究人員提出了四字節編碼方案,用于描述每個變體和形近字符之間的細微差別,根據這種編碼方案能夠更好的建立深度學習數據集
2. 古彝文識別國內外研究進展
在古彝文識別領域,研究的主力仍然是民族類高校和研究所,且研究成果的應用和轉換率較低。王嘉梅等利用圖像分割技術實現古彝文識別,首先通過預處理對彝文字符應用細分、歸一化、二值化等經典圖像處理技術,然后對預處理后的圖像使用模板匹配方法進行識別。朱華龍等人提出了基于特征提取的分類方法,是經典的傳統機器學習方法,利用人工對古彝文提取方向線素特征、筆畫密度特征和投影特征等然后利用多分類投票法確定文字的最終類別。
除此之外,也有許多其他國內外學者對多種不同古文進行研究,例如北京大學的“識典古籍”項目利用文字識別、自動標點和命名實體識別等技術對古籍進行識別;阿里巴巴的“漢典重光”項目利用人工智能技術數字化了一批珍藏在加州大學伯克利分校的中文古籍。
3. 基于深度學習的古彝文識別
3.1 深度學習簡介
近年來,深度學習 (Deep Learning, DL) 在多個領域中都取得了突破性進展,尤其是在圖像識別、目標檢測以及自然語言處理等領域。神經網絡由具有權重和偏置的人工神經元組成,這些權重和偏置會在模型訓練過程中進行調整,以得到一個性能優異的學習模型。每個神經元可以接收一組輸入,以某種方式對其進行處理后,輸出一個或多個值。如果我們通過堆疊多層的神經網絡,它就被稱為深度神經網絡,處理這些深度神經網絡的人工智能分支稱為深度學習。
傳統全連接神經網絡的主要缺點之一是它們忽略了輸入數據的結構,所有數據在輸入網絡之前都被轉換為一維數組。這對于簡單的數字數據而言,可能并沒有什么問題,但當我們處理圖像數據時,全連接網絡就表現出不足之處。以灰度圖像為例,這些圖像是二維結構,同時像素的空間排列包含很多隱藏信息。如果我們忽略這些信息,而將圖片轉換為一維結構,我們將失去很多潛在信息。而這也正是卷積神經網絡 (Convolutional Neural Network, CNN) 的優勢所在,CNN 在處理圖像時會考慮圖像的 2D 結構。
CNN 也是由權重和偏差組成的神經元組成,這些神經元接受輸入數據,進行處理后,輸出處理后的值。網絡的目標是從輸入層的原始圖像數據到得到輸出層的正確結果,不同任務中,網絡的目標并不相同:在圖像分類中,網絡的目標是得到圖片類別;在目標檢測中,網絡的目標是定位目標的位置。普通全連接神經網絡和 CNN 之間的區別在于使用的神經網絡層類型以及我們如何處理輸入數據,假設 CNN 的輸入是圖像,那么可以使用 CNN 提取圖像的特征。除此之外,CNN 的輸入并不僅限于圖像,也可以為文本等數據。
CNN 是一種經典的深度學習網絡,它通常用于圖像識別等任務。與任何其他神經網絡一樣,為圖像中的元素分配權重和偏置,并能夠將這些元素彼此區分開來。與其他分類模型相比,CNN 中所需使用的數據預處理較少。
CNN 架構的基本形式可以比作人腦中的神經元和樹突,它的靈感來自視覺皮層。單個神經元只對視野受限區域的刺激作出反應,這個視野區域被稱為感受野 (Receptive Field),這些感受野相互重疊后,覆蓋了整個視野范圍。
循環神經網絡 (Recurrent Neural Network, RNN) 是另一種經典的神經網絡架構,可以將 RNN 視為一種內存保存的機制,如果網絡能夠提供一個單獨的內存變量,每次提取詞向量的特征并刷新內存變量,直至最后一個輸入完成,此時的內存變量即存儲了所有序列的語義特征,并且由于輸入序列之間的先后順序,使得內存變量內容與序列順序緊密關聯。RNN 架構可視化如下:
右側的網絡是左側的網絡的展開后的結果。右側的網絡在每個時刻接受當前時刻輸入以及上一時刻網絡狀態,并在每個時刻提取一個輸出。
在每個時刻 ttt,網絡層接受當前時刻的輸入 xtx_txt? 和上一個時刻的網絡狀態向量 ht?1h_{t?1}ht?1?,根據網絡內部運算邏輯 ht=fθ(ht?1,xt)h_t=f_{\theta}(h_{t-1},x_t)ht?=fθ?(ht?1?,xt?) 計算得到當前時刻的新狀態向量 hth_tht?,并寫入內存狀態中。在每個時刻,網絡層均有輸出 oto_tot?,ot=gΦ(t)o_t = g_{\Phi}(t)ot?=gΦ?(t),即根據網絡的當前時刻狀態向量計算后輸出。
網絡循環接受序列的每個特征向量 xtx_txt?,并刷新內部狀態向量 hth_tht?,同時形成輸出 oto_tot?。這種網絡結構就是循環神經網絡 (Recurrent Neural Network, RNN) 結構。
3.2 基于深度學習的古彝文識別模型架構
手寫文字識別已經成為人機交互最便捷的手段之一,擁有廣泛的應用前景。在識別圖像中手寫文字的問題中,我們需要同時處理圖像數據和順序數據。在傳統的古彝文字識別方法中,設計的解決方案通常需要人工參與。例如:在圖像上使用滑動窗口,窗口大小是字符的平均大小,以便可以檢測每個字符,然后輸出它檢測到的具有較高置信度的字符。然而,窗口的大小或滑動窗口數量需要進行人工確認。因此,這本質上屬于一個特征工程問題。
為了降低人工時間成本,可以通過卷積神經網絡 (Convolutional Neural Networks, CNN) 提取圖像特征,然后將這些特征作為輸入傳遞給循環神經網絡 (Recurrent Neural Network, RNN) 的各個時間戳,以便在各個時間戳提取輸出。因此,我們將組合使用 CNN 和 RNN,通過這種方式解決手寫文字識別問題,我們不必人工構建特征,只需要優化模型得到 CNN 和 RNN 的最佳參數。經典的文字識別架構如下所示:
相對于傳統古彝文識別模型,基于深度學習的方法對古彝文手寫體的識別精度更高,且具有更高的效率。
4. 古彝文識別進展與展望
在 2022 年 12 月,合合信息與上海大學社會學院簽署了校企合作協議,其將以完成“貴州古彝文圖像識別及數字化校對項目”為目標,結合合合信息在智能文字識別領域的雄厚基礎與上海大學在古彝文研究的豐富經驗,賦能海量古彝文原籍數字化的道路,對于民族傳統文化的保護與傳承具有重要意義。
合合信息是行業領先的人工智能集大數據科技企業,智能文字識別技術更是合合信息的核心技術之一,先后在 ICDAR、ICPR 等人工智能國際競賽中斬獲 15 項冠軍,在 CVPR、AAAI 等頂會上均有學術成果發表,合合信息的智能文字識別技術主要包括智能圖像處理、復雜場景文字識別、自然語言處理三大核心模塊,通過在智能文字識別和商業大數據領域的積累的優勢,通過智能圖像處理技術解決了影像采集不規范問題,能夠極大的優化影像質量,為項目后續的文字信息提取與識別奠定基礎,復雜文字識別適用于多語言、多版式、多樣式等多種復雜場景,結合自然語言處理技術,能夠獲取識別結果的語義信息。
盡管古彝文識別研究仍處于起步階段,但基于合合信息前期在甲骨文、金文等古文研究中的積累,通過引入強大的智能文字識別技術建立規范統一的數據庫,能夠極大的增強古彝文研究的可用性與連續性,減少繁瑣的人工檢索工作,合合信息聯合上海大學推進的“原生態古彝文”研究項目將填補國內外在古彝文數字化研究領域的空白。
建立起古彝文數據庫與翻譯系統后,將能夠顯著提高古彝文識別的效率和準確率,對于小語種保護與古文化傳承具有重要的里程碑意義。
小結
目前,針對古彝文識別的研究仍處于起步階段,且大多數研究僅針對書寫規范的古彝文,受限于字符庫的匱乏,大部分模型僅能對常見的古彝文進行處理,因此可以說針對古彝文是別的研究非常稀少。合合信息基于深度學習的古彝文識別項目將填補當前國內外研究的空白,將深度學習技術引入古彝文識別將對文化保護和發展做出更多有益探索,讓傳統文化綻放更加絢麗之花。
相關鏈接
圖像智能處理黑科技,讓圖像處理信手拈來
總結
以上是生活随笔為你收集整理的人工智能助力古彝文识别,推动传统文化传承的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 屏幕标记软件pointfix的下载和安装
- 下一篇: 搭建WAMP5环境,连接SQL Serv