NLP复习资料(2)-三~五章:形式语言、语料库、语言模型
NLP復習資料-三~五章
- 1.第三章:形式語言
- 2.第四章:語料庫
- 3.第五章:語言模型
國科大,宗老師《自然語言處理》課程復習筆記,個人整理,僅供參考。
1.第三章:形式語言
1.語言描述的三種途徑:窮舉法、語法描述(形式語言)、自動機
2.形式語言四元組表示,最左推導,最右推導,例3-1
3.p27. L(G0)>=L(G1)>=L(G2)>=L(G3)
4.p30上下文無關文法產生語言的句子派生樹、文法的二義性:有不止一棵以上的派生樹(關于 魯迅的文章-關于魯迅 的 文章)
5.有限自動機五元組表示,P39狀態變換圖
6.例3.8 正則文法與有限自動機之間的轉換
7p59 例3.9下推自動機的處理步驟
8.有限自動機用于英語的單詞拼寫檢查,采用深度優先算法在自動機選擇編輯距離最小路徑。P64編輯距離,P69 X截取范圍的確定 P
9有限狀態轉換機用于英語單詞形態分析(不僅有狀態轉換還有輸出:補全單詞和一個+)
2.第四章:語料庫
1.語料庫發展的三個階段:
20世紀50年代中期:早期、
1957-20世紀80年代:沉積時期、
20世紀80年代后:復蘇發展時期(主要特征:第二代語料庫相繼建成、基于語料庫的研究項目增多)語料庫復蘇的原因P15計算機迅速發展、轉換生成語言學派對語料庫語言的批判不都正確。
2.語料庫的類型:P21同質/異質,系統/專用,單語/多語,平衡語料庫(語料的代表性和平衡性),平行語料庫(雙語平行語料庫,機器翻譯),共時語料庫/歷時語料庫
3.語料庫建設中的問題:
設計時問題:靜態與動態,代表性與平衡性,規模,管理與維護
開發中為題:規范問題,產權問題p36
4.典型語料庫和:(記一兩個吧)
賓夕法尼亞大學的中文樹庫,詞性33類,句法23類P42
北京大學開發的CLKBp61
詞匯知識庫:
普林斯頓大學WordNet p78
知網HowNet p85
3.第五章:語言模型
1.基于大規模語料庫,出現了自然語言的統計處理方法,那么如何計算一個句子的概率呢?依據組成句子的詞語的聯合概率計算?詞之間不獨立,不行!那就考慮在歷史詞的基礎上考慮當前詞的概率,然后連乘。參數空間太大,不行!那就只考慮前n個歷史詞匯。OK呀~
2.p11 n元文法,n個鄰近的詞構成一個詞序列。P12句子n元次序列劃分的例子。
3.N元文法的兩個應用-音字轉換、漢語分詞,選擇概率最大的那個作為輸出就對了。
4.參數估計–n元文法中連乘的每個概率的計算,訓練語料庫中歷史一共出現的次數為分母,歷史與當前一同出現的為分子,一除,搞定。P27計算題
5.n元文法最主要的一個問題:數據稀疏,要計算語料庫中沒見到的情況,怎么辦?–數據平滑呀,基本思想–劫富濟貧。加1法p37計算題。減值法good-turingP41公式推導。Back-off方法P47基本思想。絕對減值法和線性減值法的思想。刪除價值法,低階代替高階,線性插值
5.模型自適應:前兩種方法都是線性插值多個模型:(1)緩存模型p62(2)不同類型模型p67 (3)最大熵模型p69
6.應用舉例:漢語分詞,
p77以詞序列為基本單位,效果不好,改成詞類序列為基本單位。P81語言模型和生成模型。P87的訓練步驟
p93分詞與詞性標注一體化的方法
總結
以上是生活随笔為你收集整理的NLP复习资料(2)-三~五章:形式语言、语料库、语言模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《机器学习实战》笔记(03):决策树
- 下一篇: Python模块(2)-Numpy 简易