Hierarchical Attention Networks for Document Classification 阅读笔记
之前存在的問題:當所要處理的序列較長時,就會導致網絡容易忘記之前的東西
解決辦法:提出了“注意力”機制,使得網絡工作過程中可以像人一樣將注意力放在不同部位。這篇論文就針對文本分類問題提出了層級注意力模型結合雙向RNN實現對文本的分類,其效果明顯好于其他方法。
?
模型結構:
層級“注意力”網絡的網絡結構下圖所示,網絡可以被看作為兩部分:
第一部分為詞“注意”部分,
另一部分為句“注意”部分。
整個網絡通過將一個句子分割為幾部分,對于每部分,都使用雙向RNN結合“注意力”機制將小句子映射為一個向量,然后對于映射得到的一組序列向量,我們再通過一層雙向RNN結合“注意力”機制實現對文本的分類
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
詞層面的“注意力”機制
本文針對的是任務是文檔分類任務,即認為每個要分類的文檔都可以分為多個句子。因此層級“注意力”模型的第一部分是來處理每一個分句。對于第一個雙向RNN輸入是每句話的每個單詞,其計算公式如下所示
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
但是對于一句話中的單詞,并不是每一個單詞對分類任務都是有用的,比如在做文本的情緒分類時,可能我們就會比較關注“很好”、“傷感”這些詞。為了能使循環神經網絡也能自動將“注意力”放在這些詞匯上,作者設計了基于單詞的注意力模型,其計算公式如下:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
首先,通過一個線性層對雙向RNN的輸出進行變換,然后通過softmax公式計算出每個單詞的重要性,最后通過對雙向RNN的輸出進行加權平均得到每個句子的表示。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
句層面的“注意力”機制
句層面的“注意力”模型和詞層面的“注意力”模型有異曲同工之妙。其計算公式如下所示
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
最后就是使用最常用的softmax分類器對整個文本進行分類
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
損失函數
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
參考連接:
https://blog.csdn.net/qq_24305433/article/details/80427159
https://blog.csdn.net/liuchonge/article/details/73610734
https://blog.csdn.net/liuchonge/article/details/74092014
?
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的Hierarchical Attention Networks for Document Classification 阅读笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: A Self-Attention Set
- 下一篇: Bandit算法