读宗成庆老师著统计自然语言处理书笔记整理(1)
自然語言處理(natural language processing,NLP)。
(一)研究的內容:
1、機器翻譯:實現一種語言到另一種語言的自動翻譯。
2、自動文摘:將原文檔的主要內容和含義自動歸納、提煉出來,形成摘要或縮寫。
3、信息檢索:也稱情報檢索,就是利用計算機系統從海量文檔中找到符合用戶需要的相關文檔。
4、文檔分類:也稱文本分類或信息分類,就是利用計算機系用對大量的文檔按照一定的分類標準(例如根據主題或內容劃分等)實現自動歸類。近年來情感分類技術成為本領域研究的熱點,公司可以利用該技術了解客戶對產品的評價,政府部門可以通過分析網民對某一事件、政策法規或社會現象的評論,實時了解百姓的態度
5、問答系統:通過計算機系統對用戶提出的問題的理解,利用自動推理的手段,在有關知識資源仲自動求解答案并作出相應的問答。問答技術有時與語音技術和多模態輸入輸出技術以及人機交互技術等技術相結合,構成人機對話系統。
6、信息過濾:通過計算機系統自動識別和過濾那些滿足特定條件的文檔信息,通常指網絡有害信息的自動識別和過濾,主要用于信息安全和防護、網絡內容管理等。
7、信息抽取:指從文本中抽取特定的時間或事實信息,有時候又稱事件抽取,例如從時事新聞報道中抽取出某一恐怖事件的基本信息等。信息抽取與信息檢索不同,信息抽取直接從自然語言文本中抽取信息框架,一般是用戶感興趣的事實信息,而信息檢索主要是從海量文檔集合中找到與用戶需求相關的文檔列表。
8、文本挖掘:又稱數據挖掘,從文本(多指網絡文本)中獲取高質量信息的過程。文本挖掘技術一般涉及文本分類、文本聚類、概念或實體抽取、粒度分類、情感分析、自動文摘和實體關系建模等多種技術。
9、輿情分析:由于網上的信息量巨大,僅僅依靠人工的方法難以應對海量信息的收集和處理,需要加強相關信息技術的研究,形成一套自動化的網絡輿情分析系統,及時應對網絡輿情。
10、隱喻計算:隱喻就是用乙事物或其某些特征來描述甲事物的語言現象
11、文字編輯和自動校對:對文字拼寫、用詞、甚至語法、文檔格式等進行自動檢查、校對和編排。
12、作文自動評分、光讀字符識別、語音識別、文語轉換、說話人識別/認證/驗證等。
(二)預備知識
1、概率論
1.1概率
1.2最大似然估計
1.3條件概率
1.4貝葉斯法則
1.5隨機變量
1.6二項式分布
1.7聯合概率分布和條件概率分布
1.8貝葉斯決策理論
1.9期望和方差
2、信息論基本概念
2.1熵
又稱為自信息,可以視為描述一個隨機變量的不確定性的數量,它表示信源X每發一個符號(不論發什么符號)所提供的平均信息量,一個隨機變量的熵越大,他的不確定性越大,那么正確估計其值的可能性就越小。越不確定的隨機變量越需要大的信息量用以確定其值。
2.2聯合熵和條件熵
聯合熵H(X,Y)實際上是描述一對隨機變量平均所需要的信息量
給定隨機變量X的情況下,隨艦變量Y的條件熵H(Y|X)
熵的連鎖反應:
H(X|Y) = H(X)+H(Y|X)
2.3互信息
根據熵的連鎖規則
H(X|Y) = H(X)+H(Y|X) = H(Y)+H(X|Y)
因此
H(X)-H(X|Y)=H(Y)-H(Y|X)
這個差叫做X和Y的互信息,極坐I(X;Y),或者定義為
如果(X,Y)~p(x,y),則X,Y直接的互信息
I(X;Y) = H(X)-H(X|Y)
I(X;Y)反映的是在知道了Y的值以后X的不確定性的減少的確定量,可以理解為Y的值透露了多少關于X的信息量。
兩個完全相互依賴的變量之間的互信息不是一個常量,而取決于他們的熵。如果I(X;Y)大于等于0,表明X和Y是高度相關的,I(X;Y)等于0,表明X和Y是相互獨立的,如果小于0,表明Y的出現不但沒有使得X的不確定性減少,反而增大了X的不確定性,平均互信息量是非負的。
2.4相對熵
又稱kullback-Leibler差異,簡稱kl距離,是衡量相同時間空間里兩個概率分布相對差距的測度。顯然,當兩個隨機分布完全相同時,其相對熵為0.當兩個隨機分布的差別增加時,其相對熵期望值也增大。
互信息實際上就是衡量一個聯合分布與獨立性差距多大的測度
2.5交叉熵
用來衡量估計模型與真實概率分布之間差異情況的。交叉熵與模型在測試語料中分配給每個單詞的平均概率所表達的含義正好相反,模型的交叉熵越小,模型的表現越好。
2.6困惑度
在設計語言模型時,我們通常用困惑度來代替交叉熵衡量語言模型好壞。
語言模型設計任務就是尋找困惑度最小的模型,使其最接近真實語言的情況,在自然語言處理中,我們所說的語言模型的困惑度通常是指語言模型對于測試數據的困惑度,一般情況下把所有數據分成兩部分,一部分作為訓練數據,用于估計模型的參數,另一部分數據作為測試數據,用于評估語言模型的質量。
2.7噪聲信道模型
信息熵可以定量地估計信源每發出一個符號所提供的平均信息量,但對于通信系統來說,最根本的問題還是在于如何定量地估算從信道輸出中獲取多少信息量。
噪聲信道模型的目標是優化在噪聲信道中信號傳輸的吞吐量和準確率,其基本假設是一個信道的輸出以一定概率依賴于輸入
。
3、支持向量機
支持向量機(support vector machine,SVM)是在高維特征空間使用線性函數假設空間的學習系統,在分類方面具有良好的性能。
在感知器模型中,我們可以找到多個可以分類的超平面將數據分開,并且優化時希望所有的點都離超平面盡可能的遠,但是實際上離超平面足夠遠的點基本上都是被正確分類的,所以這個是沒有意義的;反而比較關心那些離超平面很近的點,這些點比較容易分錯。所以說我們只要讓離超平面比較近的點盡可能的遠離這個超平面,那么我們的模型分類效果應該就會比較不錯。SVM其實就是這個思想。
支持向量(Support Vector):離分割超平面最近的那些點叫做支持向量。
3.1線性分類
在數據集中,如果可以找出一個超平面,將兩組數據分開,那么這個數據集叫做線性可分數據。
3.2線性不可分
在數據集中,沒法找出一個超平面,能夠將兩組數據分開,那么這個數據集就叫做線性不可分數據。
3.3構造核函數
核函數是特征轉換函數。
1、線性核函數:這是最簡單的核函數,它直接計算兩個輸入特征向量的內積。
- 優點:簡單高效,結果易解釋,總能生成一個最簡潔的線性分割超平面
- 缺點:只適用線性可分的數據集
2、多項式核函數:通過多項式來作為特征映射函數 - 優點:可以擬合出復雜的分割超平面。
- 缺點:參數太多。有γ,c,nγ,c,n三個參數要選擇,選擇起來比較困難;另外多項式的階數不宜太高否則會給模型求解帶來困難。
3、高斯核函數:
- 優點:可以把特征映射到無限多維,并且沒有多項式計算那么困難,參數也比較好選擇。
- 缺點:不容易解釋,計算速度比較慢,容易過擬合。
總結
以上是生活随笔為你收集整理的读宗成庆老师著统计自然语言处理书笔记整理(1)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java里面的 |运算符_Java 中
- 下一篇: c 向html页面传值,html页面之间