當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NLP复习资料(2)-三~五章：形式语言、语料库、语言模型

發布時間：2023/12/13 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了 NLP复习资料(2)-三~五章：形式语言、语料库、语言模型小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

國科大，宗老師《自然語言處理》課程復習筆記，個人整理，僅供參考。

1.語言描述的三種途徑：窮舉法、語法描述（形式語言）、自動機

2.形式語言四元組表示，最左推導，最右推導，例3-1

3.p27. L(G0)>=L(G1)>=L(G2)>=L(G3)

4.p30上下文無關文法產生語言的句子派生樹、文法的二義性：有不止一棵以上的派生樹（關于魯迅的文章-關于魯迅的文章）

5.有限自動機五元組表示，P39狀態變換圖

6.例3.8 正則文法與有限自動機之間的轉換

7p59 例3.9下推自動機的處理步驟

8.有限自動機用于英語的單詞拼寫檢查，采用深度優先算法在自動機選擇編輯距離最小路徑。P64編輯距離，P69 X截取范圍的確定 P

9有限狀態轉換機用于英語單詞形態分析（不僅有狀態轉換還有輸出：補全單詞和一個+）

1.語料庫發展的三個階段：
20世紀50年代中期：早期、
1957-20世紀80年代：沉積時期、
20世紀80年代后：復蘇發展時期（主要特征：第二代語料庫相繼建成、基于語料庫的研究項目增多）語料庫復蘇的原因P15計算機迅速發展、轉換生成語言學派對語料庫語言的批判不都正確。

2.語料庫的類型：P21同質/異質，系統/專用，單語/多語，平衡語料庫（語料的代表性和平衡性），平行語料庫（雙語平行語料庫，機器翻譯），共時語料庫/歷時語料庫

3.語料庫建設中的問題：
設計時問題：靜態與動態，代表性與平衡性，規模，管理與維護
開發中為題：規范問題，產權問題p36

4.典型語料庫和：（記一兩個吧）
賓夕法尼亞大學的中文樹庫，詞性33類，句法23類P42
北京大學開發的CLKBp61
詞匯知識庫:
普林斯頓大學WordNet p78
知網HowNet p85

1．基于大規模語料庫，出現了自然語言的統計處理方法，那么如何計算一個句子的概率呢？依據組成句子的詞語的聯合概率計算？詞之間不獨立，不行！那就考慮在歷史詞的基礎上考慮當前詞的概率，然后連乘。參數空間太大，不行！那就只考慮前n個歷史詞匯。OK呀~

2.p11 n元文法，n個鄰近的詞構成一個詞序列。P12句子n元次序列劃分的例子。

3.N元文法的兩個應用-音字轉換、漢語分詞，選擇概率最大的那個作為輸出就對了。

4.參數估計–n元文法中連乘的每個概率的計算，訓練語料庫中歷史一共出現的次數為分母，歷史與當前一同出現的為分子，一除，搞定。P27計算題

5.n元文法最主要的一個問題：數據稀疏，要計算語料庫中沒見到的情況，怎么辦？–數據平滑呀，基本思想–劫富濟貧。加1法p37計算題。減值法good-turingP41公式推導。Back-off方法P47基本思想。絕對減值法和線性減值法的思想。刪除價值法，低階代替高階，線性插值

5.模型自適應：前兩種方法都是線性插值多個模型：（1）緩存模型p62（2）不同類型模型p67 （3）最大熵模型p69

6.應用舉例：漢語分詞，
p77以詞序列為基本單位，效果不好，改成詞類序列為基本單位。P81語言模型和生成模型。P87的訓練步驟
p93分詞與詞性標注一體化的方法

以上是生活随笔為你收集整理的NLP复习资料(2)-三~五章：形式语言、语料库、语言模型的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。