生活随笔
收集整理的這篇文章主要介紹了
nlp4-语料库
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
文章目錄
1. 語料庫
- 語料庫(corpus)
- 語料庫(corpus) 就是存放語言材料的倉庫 (語言數據庫)。
- 基于語料庫進行語言學研究-語料庫語言學(corpus linguistics)
- 根據篇章材料對語言的研究稱為語料庫語言學
- 不是新術語:利用語料庫對語言的某個方面進行研究,或者發現某些規律性知識。
- 是新術語:對現行語言學理論進行批評,提出新的理論。
- 研究內容:
- 語料庫的建設與編纂
- 語料庫的加工和管理技術
- 語料庫的使用
- 類型
- 異質的:不同類的
- 同質的:某一類的
- 系統的
- 充分考慮語料的動態和靜態問題、代表性和平衡問題以及語料庫的規模等問題
- 專用的
- 按語言種類劃分
- 按是否標注
- 生語料/熟語料
- 平衡語料庫
- 考慮代表性和平衡性
- 原則
- 語料的真實性、可靠性、科學性、代表性、權威性、分布性和流通性。其中,語料的分布性還要考慮語料的科學領域分布、地域分布、時間分布和語體分布等
- 平行語料庫
- 多語種平行
- 同一種語言的多種語料(不同國家的英語不一樣,地方語)
- 共時語料庫與
- 是為了對語言進行共時(同一時段)研究而建立的語料庫。研究大樹的橫斷面所見的細胞和細胞關系,即研究一個共時平面中的元素與元素的關系
- 歷時語料庫
- 是為了對語言進行歷時研究而建立的語料庫。研究大樹的縱剖面所見的每個細胞和細胞關系的演變,即研究一個歷時切面中元素與元素關系的演化
- 判斷原則
- 是否動態(必須是開放的,動態的)
- 文本是否具有量化的流通度屬性
- 所有的語料都應來源于大眾傳媒,具有與傳媒特色相應的流通度屬性。其量化的屬性值也是動態的。
- 深加工是否基于動態的加工方法:隨語料的動態變化采集,并進行動態地加工。
- 是否取得動態的加工結果:語料的加工結果也應是動態的和歷時的。
2.建設中的問題
- 靜態與動態
- 一種主張認為,應建立動態的或監督語料庫(monitor corpus):文本集的收集通常是隨遇的,而不是平衡的。
- 而另一種主張認為,應該建立相對靜態的、平衡的。其實每種主張均與研究或應用目的密 切相關
- 代表性與平衡性
- 一個語料庫具有代表性,是指在該語料庫上獲得的分析結果可以概括成為這種語言整體或其指定部分的特性。
- 規模
- 語料庫的管理和維護
- 錯誤修正或改善
- 版本升級
- 語料庫的檢索系統、分析和處理工具的維護
- 漢語語料庫開發中存在的問題
- 語料庫建設的規范問題——無統一規范,只有建議性的
- 產權保護和國家語料庫建設問題——所以沒人做
3.典型語料庫介紹
- 布朗語料庫 (Brown Corpus)
- LLC口語語料庫(London-Lund Corpus of Spoken English )
- 朗文語料庫 (Longman Corpus)–多領域
- 賓夕法尼亞大學(UPenn)樹庫(Tree Bank)
- 2000年第一版漢語樹庫
- 擴展
- PropBank
- NomBank (Nominalization Bank)
- UPenn語篇樹庫
- 北京大學開發的CLKB
- 臺灣中研院平衡語料庫(Sinica Corpus)
- 布拉格依存樹庫 (Prague Dependency Treebank, PDT)
- CASIA-CASSIL 語料庫
- 詞匯知識庫
- WordNet (http://wordnet.princeton.edu/ )–按語義關系組織
- 知網(HowNet)
- 概念層次網絡 (HNC)(符號復雜)
總結
以上是生活随笔為你收集整理的nlp4-语料库的全部內容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。