NLP浅谈语料库
NLP淺談語料庫
1. 淺談語料庫
1.1 語料和語料庫
? 語料通常指在統計自然語言處理中實際上不可能觀測到大規模的語言實例。所以人們簡單地用文本作為替代,并把文本中的上下文關系作為現實世界中語言的上下文關系的替代品。
? 語料庫一詞在語言學上意指大量的文本,通常經過整理,具有既定格式與標記。其具備三個顯著的特點:
- 語料庫中存放的是在語言的實際使用中真實出現過的語言材料。
- 語料庫以電子計算機為載體承載語言知識的基礎資源,但并不等于語言知識。
- 真實材料需要經過加工(分析和處理),才能成為有用的資源
1.2 語料庫語言學
? 語料庫語言學的研究范疇:主要研究機器可讀自然語言文本的采集、存儲、檢索、統計、語法標注、句法語義分析,以及具有上述功能的語料庫在語言教學、語言定量分析、詞匯研究、詞語搭配研究、詞典編制、語法研究、語言文化研究、法律語言研究、作品風格分析、自然語言理解、機器翻譯等方面的應用。
1.3 建立語料庫的意義
? 語料庫是為一個或者多個應用目標而專門收集的,有一定結構的、有代表的、可被計算機程序檢索的、具有一定規模的語料集合。本質上講,語料庫實際上是通過對自然語言運用的隨機抽樣,以一定大小的語言樣本來代表某一研究中所確定的語言運用的總體。
2. 語料庫深入了解
2.1 語料庫劃分與種類
馮志偉教授語料庫劃分比較有影響力且在學術上認可度比較高:
- 按語料選取的時間劃分:可分為歷時語料庫(diachronic corpus)和共時語料庫(syn-chronic corpus)。
- 按語料的加工深度劃分,可分為標注語料庫(annotated corpus)和非標注語料庫(non- annotated corpus)。
- 按語料庫的結構劃分,可分為平衡結構語料庫(balance structure corpus)和自然隨機結構的語料庫(random structure corpus)。
- 按語料庫的用途劃分,可分為通用語料庫(general corpus)和專用語料庫(specialized corpus)。
- 按語料庫的表達形式劃分,可分為口語語料庫(spoken corpus)和文本語料庫(textcorpus)。
- 按語料庫中語料的語種劃分,可分為單語種語料庫(monolingual corpora)和多語種語料庫(multilingual corpora)。多語種語料庫又可以再分為比較語料庫(comparable corpora)和平行語料庫(parallel corpora)。比較語料庫的目的側重于特定語言現象的對比,而平行語料庫的目的側重于獲取對應的翻譯實例。
- 按語料庫的動態更新程度劃分,可分為參考語料庫(reference corpus)和監控語料庫(monitor corpus)。參考語料庫原則上不做動態更新,而監控語料庫則需要不斷地進行動態更新。
2.2 語料庫構建原則
語料庫應該具有代表性、結構性、平衡性、規模性、元數據,各個原則具體介紹如下:
- 代表性:在應用領域中,不是根據量而劃分是否是語料庫,而是在一定的抽樣框架范圍內采集而來的,并且能在特定的抽樣框架內做到代表性和普遍性。
- 結構性:有目的地收集語料的集合,必須以電子形式存在,計算機可讀的語料集合結構性體現在語料庫中語料記錄的代碼、元數據項、數據類型、數據寬度、取值范圍、完整性約束。
- 平衡性:主要體現在平緩因子——學科、年代、文體、地域、登載語料的媒體、使用者的年齡、性別、文化背景、閱歷、預料用途(私信/廣告等),根據實際情況選擇其中一個或者幾個重要的指標作為平衡因子,最常見的平衡因子有學科、年代、文體、地域等。
- 規模性:大規模的語料對語言研究特別是對自然語言研究處理很有用,但是隨著語料庫的增大,垃圾語料越來越多,語料達到一定規模以后,語料庫功能不能隨之增長,語料庫規模應根據實際情況而定。
- 元數據:元數據對于研究語料庫有著重要的意義,我們可以通過元數據了解語料的時間、地域、作者、文本信息等;構建不同的子語料庫;對不同的子語料對比;記錄語料知識版權、加工信息、管理信息等。
注意:漢語詞與詞之間沒有空隙,不便于計算機處理,一般需要進行切詞和詞性標注。
2.3 語料標注的優缺點
- 優點:研究方便。可重用、功能多樣、分析清晰。
- 缺點:語料不客觀(手工標注準確率高而一致性差,自動或者半自動標注一致性高而準確率差)、標注不一致、準確率低。
3. 自然語言處理工具包:NLTK
3.1 了解NLTK
? NLTK(Natural language Toolkit):自然語言工具包,Python 編程語言實現的統計自然語言處理工具。它是由賓夕法尼亞大學計算機和信息科學的史蒂芬·伯德和愛德華·洛珀編寫的。NLTK 支持NLP 研究和教學相關的領域,其收集的大量公開數據集、模型上提供了全面易用的接口,涵蓋了分詞、詞性標注(Part-of-Speech tag,POS-tag)、命名實體識別(NamedEntity Recognition,NER)、句法分析(Syntactic Parse) 等各項NLP 領域的功能。廣泛應用在經驗語言學、認知科學、人工智能、信息檢索和機器學習。
3.2 獲取NLTK
? 執行exe 文件,會自動匹配到Python 安裝路徑,如果沒有找到路徑則說明NLTK 版本不正確,去官網選擇正確版本號下載.
? 獲取NLTK鏈接:https://pypi.org/project/nltk/3.2.1/#files
? 說明:NLTK 核心包主要包括如下:
? ? NLTK-Data:分析和處理語言的語料庫。
? ? NumPy:科學計算庫。
? ? Matplotlib:數據可視化2D 繪圖庫。
? ? NetworkX:存儲和操作由節點和邊組成的網絡結構函數庫。
4. 獲取語料庫
4.1 國內外著名語料庫
- 賓州大學語料庫: https://www.ldc.upenn.edu/
4.2 英文語料庫
- 古滕堡語料庫:http://www.gutenberg.org/
- 語料庫在線: http://www.aihanyu.org/cncorpus/index.aspx#P0
4.3 中文語料庫
- 搜狗實驗室新聞| 互聯網數據: http://www.sogou.com/labs/
- 北京大學語言研究中心:http://ccl.pku.edu.cn/term.asp
- 數據堂: http://www.datatang.com/
- 中央研究院平衡語料庫(https://www.sinica.edu.tw/SinicaCorpus):專門針對語言分析而設計的,每個文句都依詞斷開并標示詞類。語料的搜集也盡量做到現代漢語分配在不同的主題和語式上,是現代漢語無窮多的語句中一個代表性的樣本。現有語料庫主要針對語言分析而設計,由中央研究院信息所、語言所詞庫小組完成,內含有簡介、使用說明。
- LIVAC 漢語共時語料庫:http://www.livac.org/index.php?lang=tc
- 蘭開斯特大學漢語平衡語料庫: http://www.lancaster.ac.uk/fass/projects/corpus/
- 蘭開斯特——洛杉磯漢語口語語料庫 :http://www.lancaster.ac.uk/fass/projects/corpus/
- 語料庫語言學在線:https://www.corpus4u.org/
- 北京森林工作室漢語句義結構標注語料庫:http://www.isclab.org.cn/csa/bfs-ctc.htm
- 國家語委現代漢語語料庫(http://corpus.zhonghuayuwen.org/index.aspx)
現代漢語通用平衡語料庫現在重新開放網絡查詢了。重開后的在線檢索速度更快,功能更強,同時提供檢索結果下載。現代漢語語料庫在線提供免費檢索的語料約2000 萬字,為分詞和詞性標注語料。 - 古代漢語語料庫(http://corpus.zhonghuayuwen.org/):網站現在增加了一億字的古代漢語生語料,研究古代漢語的也可以去查詢和下載。網站同時還提供了分詞、詞性標注軟件,詞頻統計、字頻統計軟件。基于國家語委語料庫的字頻詞頻統計結果和發布
的詞表等進行建庫,以供學習研究語言文字的同學和老師使用。 - 《人民日報》標注語料庫(https://blog.csdn.net/eaglet/article/details/1778995):《人民日報》標注語料庫中一半的語料(1998 年上半年)共1300 萬字,已經通過《人民日報》新聞信息中心公開并提供許可使用權。其中一個月的語料(1998 年1 月)近200 萬字在互聯網上公布,可自由下載。
- 古漢語語料庫(https://www.sinica.edu.tw/ch):古漢語語料庫包含以下五個語料庫—— 上古漢語、中古漢語(含大藏經)、近代漢語、出土文獻、其他。部分數據取自史語所漢籍全文數據庫,故兩者間內容略有重疊。此語料庫之出土文獻語料庫,全部取自史語所漢簡小組所制作的數據庫。
- 近代漢語標記語料庫(https://www.sinica.edu.tw/Early_Mandarin):為應對漢語史研究需
求而建構的語料庫。目前語料庫所搜集的語料已涵蓋上古漢語(先秦至西漢)、中古漢語(東漢魏晉南北朝)、近代漢語(唐五代以后)大部分的重要語料,并陸續開放使用;在標記語料庫方面,上古漢語及近代漢語都已有部分語料完成標注的工作,并視結果逐步提供上線檢索。 - 樹圖數據庫(http://treebank.sinica.edu.tw/)
- 搜文解字(http://words.sinica.edu.tw/):包含「搜詞尋字」、「文學之美」、「游戲解惑」、「古文字的世界」四個單元,可由部件、部首、字、音、詞互查,并可查詢在四書、老、莊、唐詩中的出處,以及直接鏈接到出處并閱讀原文。
- 文國尋寶記(https://www.sinica.edu.tw/wen):在搜文解字的基礎之上,以華語文學習者為對象,進一步將字、詞、音的檢索功能與國編、華康、南一等三種版本的國小國語課本結合。與唐詩三百首、宋詞三百首、紅樓夢、水滸傳等文學典籍結合,提供網絡上國語文學習的素材。
- 漢籍電子文獻(https://www.sinica.edu.tw/ch):包含整部25 史整部阮刻13經、超過2000 萬字的臺灣史料、1000 萬字的大正藏及其他典籍。
- 中國傳媒大學文本語料庫檢索系統(http://ling.cuc.edu.cn/RawPub/)
- 新詞語研究資源庫(http://ling.cuc.edu.cn/newword/)
- 哈工大信息檢索研究室對外共享語料庫資源 :http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm
該語料庫為漢英雙語語料庫,10 萬對齊雙語句對,文本書件格式,同義詞詞林擴展版,77343 條詞語,秉承《同義詞詞林》的編撰風格。同時采用五級編碼體系,多文檔自動文摘語料庫,40 個主題,文本書件格式,同一主題下是同一事件的不同報道。漢語依存樹庫,不帶關系5 萬句,帶關系1 萬句;LTML 化,分詞、詞性、句法部分人工標注,可以圖形化查看,問答系統問題集,6264 句;已標注問題類型,LTML 化,分詞、詞性、句法、詞義、淺層語義等程序處理得到,單文檔自動文摘語料庫共211 篇。
參考鏈接
【自然語言處理】淺談語料庫
NLP語料庫
總結
- 上一篇: 参数等效模型可以用于_干货分享电池单体产
- 下一篇: exception日志 php_PHP