论文学习9-Bidirectional LSTM-CRF Models for Sequence Tagging(LSTM,BILSTM,LSTM-CRF,BILSTM-CRF
生活随笔
收集整理的這篇文章主要介紹了
论文学习9-Bidirectional LSTM-CRF Models for Sequence Tagging(LSTM,BILSTM,LSTM-CRF,BILSTM-CRF
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
文章目錄
- 1.Introduction
- 2 model
- 2.1 LSTM
- 2.2BI-LSTM
- BPTT
- 2.3 CRF
- 2.4 LSTM-CRF
- 參考文獻
本篇論文介紹了LSTM網絡、BI-LSTM網絡、CRF網絡、LSTM-CRF網絡、BI-LSTM-CRF網絡,比較將它們用于自然語言處理的性能與準確率。重點介紹了BI-LSTM-CRF網絡。
1.Introduction
- 序列標記
- 包括詞性標記(POS)、
- 分塊標記和
- 命名實體識別(NER)
- 本文以前
- 統計模型
- Hidden Markov Models (HMM),
- Maximum entropy Markov models (MEMMs) (McCallum et al.,2000), and
- Conditional Random Fields (CRF)(Lafferty et al., 2001)。
- 神經網絡
- 基于卷積網絡的模型(Collobert et al., 2011)
- Conv-CRF等模型,因為它包含一個卷積網絡和CRF層輸出(這個詞的句子級別loglikelihood (SSL)是用于原始論文)。
- Conv-CRF模型產生了有前景的結果序列標記任務。
- 在演講語言理解社區,
- 遞歸神經網絡(Mesnil et al ., 2013;Yao et al ., 2014)和
- 基于卷積網(Xu and Sarikaya, 2013)最近提出的模型。
- 其他相關工作包括(Graves et al ., 2005;Graves et al ., 2013)提出了一個雙向遞歸神經網絡語音識別。
- 基于卷積網絡的模型(Collobert et al., 2011)
- 統計模型
- 貢獻
- 1)系統比較了上述模型在NLP標記數據集上的性能;
- 2)首次將雙向LSTM CRF (BI-LSTM-CRF)模型應用于NLP基準序列標記數據集。
- 由于具有雙向LSTM組件,該模型可以使用過去和未來的輸入特性。
- 此外,由于有一個CRF層,該模型可以使用句子級標記信息。
- 我們的模型可以在POS、chunking和NER數據集上產生最先進(或接近)的精度;
- 3)與之前的觀察結果相比,我們發現BI-LSTMCRF模型具有較強的魯棒性,對嵌入字的依賴性較小(Collobert et al., 2011)。它可以產生準確的標簽性能,而不必借助于文字嵌入。
2 model
2.1 LSTM
- 長期短期內存網絡LSTM與RNN是一樣的,只是隱藏層更新被專門構建的內存單元所取代。因此,他們可能更善于發現和利用數據中的長期依賴關系。
2.2BI-LSTM
BPTT
對展開網絡隨時間的前向和后向傳遞與常規網絡前向和后向傳遞的方式類似,不同之處在于我們需要對所有時間步長展開隱藏狀態。我們還需要在數據點的開始和結束處進行特殊處理。在我們的實現中,我們對整個句子執行前向和后向操作,只需要在每個句子的請求處將隱藏狀態重置為0。我們有批處理實現,可以同時處理多個句子。
2.3 CRF
- 精度高
- 利用相鄰標簽信息預測當前標簽有兩種不同的方法。
- 第一種方法是預測每次標記的分布,然后使用類波束解碼來尋找最優的標簽序列。
- 最大熵分類器(Ratnaparkhi, 1996)和
- 最大熵馬爾可夫模型(MEMMs) (McCallum等,2000)的工作屬于這一類
- 第二個是關注句子水平不是個人的位置,從而導致條件隨機域(CRF)模型(Lafferty et al., 2001)(圖5)。請注意,輸入和輸出直接連接,而不是LSTM和雙向LSTM網絡記憶細胞/復發性組件使用
- 這兩種使用標記信息的方法之間的關系與使用輸入特性的兩種方法相似
- 第一種方法是預測每次標記的分布,然后使用類波束解碼來尋找最優的標簽序列。
2.4 LSTM-CRF
- CRF層由連接連續輸出層的線表示。
- CRF的傳遞函數(傳輸矩陣)是參數
- 有了這樣一個層(CRF層),我們可以有效地使用過去和未來的標簽來預測當前的標簽,與通過雙向LSTM網絡使用過去和未來的輸入特性相似
- 動態規劃(Rabiner, 1989)可以有效地用于計算[A]i,j(轉移矩陣)和推理的最佳標簽序列。詳見(Lafferty et al., 2001)。
- BILSTM-CRF模型
- 可以有效地使用過去和未來的輸入特性,這得益于雙向LSTM組件。
- CRF層:使得它還可以使用句子級標記信息。
- 較強的魯棒性,
- 對嵌入字的依賴性較小。
- BI-LSTMCRF模型可以在POS、分塊和NER數據集上產生最先進(或接近)的準確性。此外,與之前的觀察結果相比,該算法具有
- 輸入:單詞、拼寫、上下文特征
- 由于刪除了拼寫和上下文特征,CRF模型的性能顯著下降。CRF模型嚴重依賴工程特性來獲得良好的性能
- 另一方面,基于LSTM的模型,特別是BI-LSTM和BI-LSTM-CRF模型具有更強的魯棒性,并且受工程特性去除的影響更小。
參考文獻
Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF Models for Sequence Tagging[J]. Computer Science, 2015.
https://blog.csdn.net/u012485480/article/details/80425445
總結
以上是生活随笔為你收集整理的论文学习9-Bidirectional LSTM-CRF Models for Sequence Tagging(LSTM,BILSTM,LSTM-CRF,BILSTM-CRF的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: JavaWeb笔记:JDBC总结
- 下一篇: 【搜索/推荐排序】总结