第二节 数学基础与语言学基础
數學基礎與語言學基礎內容:
數學基礎:概率論,(從大規模預料中統計較小的語言單位的相關的統計信息,然后運用統計推理技術計算更高一級的語言單位出現的概率)
語言學基礎
實用知識
統計自然語言處理的步驟:
收集自然語言詞匯的分布情況;
根據這些分布情況進行統計推導。(最典型的例子:構造統計語言模型)
數學基礎:理論基礎才--->上層建筑
概率論是研究隨機現象的分支,隨機現象指當人們觀察它時,所得到的觀察結果不是確定的,而是許許多多可能結果中的一種。
概率(Probability)是衡量該事件發生的可能性的量度。
漢字的信息熵(香農1948,選擇概率論為數學工具,提出用不確定的量度來計算信息量的數學公式):漢字是當今世界上信息量最大的文字符號系統;漢字是世界上碩果僅存的象形文字,對漢文化的傳承和發展作出了巨大的貢獻。既有固有的缺點,也有優越性,將式一種長期的客觀存在。
條件概率(Condition probability):已知B為真的條件下A為真的概率可以表示文P(A|B)。——后驗概率(posterior probability),與此相反,非條件概率被稱為先驗概率(prior probability)。
聯合概率:P(A,B)=P(A)P(B|A)=P(B)P(A|B);聯合概率的鏈式規則P(A,B,C,D,...)=P(A)P(B|A)P(C|A,B)P(D|A,B,C)...
獨立:兩個時間A與B相互對立,當且僅當P(A)=P(A|B)<-->P(A,B)=P(A)*P(B)存在。
貝葉斯定理:貝葉斯公式使我們能夠交換事件之間條件依賴的順序。應用實例:音字轉換
隨機變量:離散型隨機變量、連續型隨機變量
數學期望和方差:
閾值:(越少越好,有閾值的方法都比較復雜)
?
構造語言模型P(T)的兩類方法:
基于頻度的統計:事件μ發生的次數與所有事件總次數的比率f(μ)=C(μ)/N,常用分布有:二元分布(Binomial distribution)、泊松分布(Poisson distribution)、正態/高斯分布(Normal distribution)
貝葉斯統計:實質是可信度的數量化
?
語言學基礎:
朱德熙(1920-1992)語言、語法學家,著有《語法講義》
面向信息處理的詞語分類體系:實詞(分為體詞、謂詞)、虛詞(包括介詞、連詞、助詞、語氣詞)、擬聲詞、嘆詞、其他類
各類詞語的特點:
實詞的主要特點:開放類、單獨充當某種句法成分、位置不固定、具有較強的構詞力、有比較具體的詞義;體詞(主語、賓語)和謂詞(主要是做謂語、可做主賓)
名詞主要特點:典型的體詞、一般不受副詞的修飾、可以受數量詞的修飾、名詞可以修飾名詞、名詞不能帶表示時態的助詞、名詞不能做狀語(這些特點都有例外,也正說明里語言的不確定性)
動詞主要特點:最典型最主要的謂詞、動名兼類、能愿動詞有形態變化;
形容詞:一類重要的謂詞、能直接受“很”一類程度副詞修飾、形容詞可以帶準賓語、絕大多數形容詞可以接受否定副詞“不”修飾、名形兼類、形動兼類、具有形態變化
虛詞的主要特點:封閉類、不能充當句法成分、粘著性(實詞的輔助作用)、位置比較固定、沒有具體的詞義、經常可以被省略;(虛詞可以作為漢語語言分析的一個線索)
?
漢語句法分析的特點:(語言學分類角度可劃分為:孤立語、屈折語、黏著語)
特殊性(孤立語的代表)、同一詞類可擔任多種句法成分且無形態變化、漢語句子的構造規則與短語的構造規則基本一致
漢語的語序特點:
短語內部語序嚴格固定、短語間語序比較靈活、
?
語言知識庫:
北大計算語言研究所的相關工作:現代漢語語法信息詞典、大規模現代漢語基本標注語料庫、面向漢英機器翻譯的現代漢語語義詞典、英漢、日漢對照雙語語料庫、(各個)專業領域術語庫、現代漢語短語結構規則庫、中國古代詩詞語料庫;
音字轉換系統語言知識庫:如:機器ji1qi4、激起ji1qi3、吉期ji2qi1、及其ji2qi2等
在語言處理中發揮作用的知識庫:現代漢語語義詞典:安樂/形 D378、安理會/名 L16、安謐/形 D405、……(后面的編號為語義分類編號)
Ontology:不僅包含概念的集合,它還含某一領域里的公理體系,特別包含某一特定領域里面概念和概念之間的關系;可以理解為關于詞匯的語義知識庫。不同領域有不同的ontology
Hownet--知網(語義知識庫):目前,作為從事中文詞匯語義學研究的大型語義詞典,董振東先生和他的兒子歷經10年、創作了以漢語和英語的詞語所代表的概念為對象,以揭示概念和概念以及概念所具有的屬性的關系為基本內容的常識知識庫;其中每一個詞匯都給出了豐富的語法和語義的定義,如下:(Hownet是一個Ontology)
其中上述內容為:NO.:詞號、W_C:詞形、G_C:中文詞性、E_C:中文語義舉例、W_E:英語翻譯、G_E:英語詞性、E_E:英文語義舉例,進一步下面義素分析法才可以真正說明Hownet是一個Ontology、
Hownet靠目標詞匯,通過義原以及定義該義原與該詞匯分關系,來說明一個詞匯,如:人為一個義原。
知網可以告訴我們:
詞匯的同義、反義、對義集合,上下位的概念
?
語義相似度計算:
基于語言知識庫的語義相似度計算:(兩個詞匯之間的語義有一個通路,其通路越短,語義相似度越高);
基于統計的語義相似度計算:兩個詞匯具有一定的相似程度,當且僅當它們出現在相似的語言環境中,上下文出現的情況越接近,語義的相似度就越高。
?
如何構造比較專業的語言知識庫:
機器可讀詞典(Machine readable dictionary、Lexicon:特指應用于自然語言處理的應用中的詞表,只是關于詞匯的讀音等等這方面的信息)
構造lexicon的方法:文本文件方式(該方式太顯而易見了,不利于知識產權的保護)、數據庫方式(保密性高,存儲效率高)、二進制文件方式(比較好)
二進制文件庫的讀取:fread
二進制文件庫的更新:內存指針操作
二進制文件庫的訪問:Binary Search、Hash
?
?
?
?
轉載于:https://www.cnblogs.com/han-bky/p/10088692.html
總結
以上是生活随笔為你收集整理的第二节 数学基础与语言学基础的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 求一个明星一般用的个性签名!
- 下一篇: 深入理解Java的接口和抽象类