论文浅尝 | 从树结构的长短期记忆网络改进语义表示
論文筆記整理:竇春柳,天津大學碩士,方向:自然語言處理
鏈接:https://arxiv.org/pdf/1503.00075.pdf
動機
由于長短期記憶網絡(LSTM)這種具有復雜單元的循環神經網絡具有良好的表示序列信息的能力,其在多種序列模型任務中都取得了非常好的結果。到目前為止一直被使用的LSTM是一個線性結構。然而,自然語言表現一種將單詞組合在一起形成短語的句法結構。本文引入了Tree-LSTM,將LSTM推廣到樹狀的網絡拓撲結構。在兩個任務的baseline上,Tree-LSTMs都要優于現有的系統:預測兩個句子的語義相關性和情感分類。
亮點
本文的亮點主要包括:
(1)將LSTM推廣到樹狀的網絡拓撲結構,并且它展示出比序列LSTM更好的性能。標準LSTM可以看作是Tree-LSTM的一種特殊情況。
(2)利用實驗驗證了Tree-LSTM作為句子的表示模型,具有很好的效果。主要在兩個任務上去評估Tree-LSTM結構:句子對間的語義相關性的預測以及來自于電影影評的句子情感分類。
概念及模型
本文提出了由基本LSTM擴展出的兩種結構:Child-Sum Tree-LSTM和N-ary Tree-LSTM。這兩個變種均允許更豐富的網絡拓撲結構,其中每個LSTM單元能夠聯合來自多個子單元的信息。
Tree-LSTM單元
正如標準的LSTM單元那樣,Tree-LSTM單元(由j標識)都包含輸入輸出門i_j, o_j,一個記憶單元 c_j,以及隱藏狀態 h_j。其與標準LSTM單元的不同之處在于,門向量和記憶單元的更新依賴于許多子單元。另外,該單元并不只包含一個遺忘門,Tree-LSTM單元對每一個子單元均包含一個遺忘門 f_jk。這有助于Tree-LSTM單元有選擇地聯合來自于每一個子單元的信息。
每一個Tree-LSTM單元都有一個輸入向量 x_j。在我們的應用當中,每一個 x_j 是一句話中一個單詞的向量表示。每一個節點的輸入單詞依賴于當前網絡的樹結構。
?
?
Child-Sum Tree-LSTMs
給定一棵樹,令 C(j) 為節點j的所有子節點的集合。Child-Sum Tree-LSTM的轉移等式如下:
應用:Dependency Tree-LSTMs
由于Child-Sum Tree-LSTM單元根據子單元隱藏狀態 h_k 的總和調整其組件,因此適用于具有多分支或其子節點無序的樹。例如,它是依存樹的一個很好的選擇,其中頭的依存數目可以是高度可變的我們將應用于依存樹的Child-Sum Tree-LSTM稱為Dependency Tree-LSTM。
N-ary Tree-LSTMs
N -ary Tree-LSTM可用于樹結構,其中分支因子最多為N,并且子項是有序的,即它們可以從1到N索引。對于任何節點j,分別將其第k個孩子節點的隱藏狀態和記憶細胞表示為 h_jk 和 c_jk。N -ary Tree-LSTM的轉移等式如下:
為每個孩子k引入單獨的參數矩陣允許N-Tree Tree-LSTM模型在單元上對孩子狀態學習比Child Sum Tree-LSTM更細粒度。例如,考慮一個選區樹應用程序,其中節點的左孩子節點對應于名詞短語,右孩子節點對應動詞短語。假設在這種情況下強調表示中的動詞短語是有利的。
遺忘門參數化。在等式10中定義了第k個孩子的遺忘門 f_jk,其中包含了“非對角線”參數矩陣 U_kl^(f)。此參數化允許更靈活地控制從孩子到父節點的信息傳播。例如,這允許二叉樹中的左隱藏狀態對右孩子的遺忘門具有興奮或抑制效果。但是,對于較大的N值,這些附加參數是不切實際的,可以綁定或固定為零。
應用:Constituency Tree-LSTMs
我們可以自然地將Binary Tree-LSTM單元應用于二值化選區樹,因為區分了左右子節點。我們將Binary Tree-LSTM的這種應用稱為Constituency Tree-LSTM。注意,在選區樹-LSTM中,節點j僅在它是葉節點時才接收輸入向量。
模型
現在描述兩個應用是上面描述的Tree-LSTM架構的特定模型。
1.Tree-LSTM分類
在此背景中,我們希望從樹的一些子節點的離散類Y中預測標簽。例如,解析樹中節點的標簽可以對應于該節點所跨越的短語的某些屬性。
在每個節點j,我們使用softmax分類器來預測標簽,給定在以j為根的子樹中的節點處觀察到的輸入 {x}_j。分類器將節點處的隱藏狀態 h_j 作為輸入:
代價函數是每個標記節點上正確類標簽 y^(k) 的負對數似然:
其中m是訓練集中標記節點的數量,上標k表示第k個標記節點,λ是L2正則化超參數。
2.句子對的語義相關性
給定句子對,我們希望預測[1,K]在某個范圍內的實值相似度得分,其中是K>1整數。序列{1,2,...,K}是一些序數相似度,其中較高的分數表示較高的相似度。首先使用每個句子的解析樹上的Tree-LSTM模型為對每個句子生成句子表示 h_L 和 h_R。給定這些句子表示,使用神經網絡預測的相似性得分,該神經網絡同時考慮(h_L, h_R) 對之間的距離和角度:
其中 r^T = [1,2,3...K]。使用距離測量 h_x和 h_+ 是出于經驗:發現組合優于單獨使用任何一種測量。乘法度量 h_x 可以解釋為輸入表示符號的元素比較。
本文希望給定模型參數 Theta 的預測分布下的預期評級接近評級 。因此,定義了滿足 y=r^T p 的系數目標分布:
代價函數是p和 之間正則化的KL-發散:
其中m是訓練對的數量,上標k表示第k個句子對。
理論分析
實驗
1.Sentiment Classification
數據集采用Stanford Sentiment Treebank(SST),任務主要是二分類和fine-grained(五分類)。結果如下圖所示:
結果分析:在fine-grained的task上,作者提出的 Constituency Tree-LSTM 獲得了最好的效果,Glove vectors,tuned指使用Glove詞向量初始化embedding,在訓練過程中不斷更新embedding;在二分類上,達到了SOA的結果,但是并沒有實現指標上的超越。
Constituency Tree-LSTM比Dependency Tree-LSTM表現好的原因可能在于前者使用了更多的labeled 數據,因為僅從二者樹結構對比來說,前者會比后者產生更多的nodes(319K vs 150K).
2.???Semantic Relatedness
數據集采用Sentences Involving Compositional Knowledge (SICK),評價指標包括Pearson系數,Spearman相關系數和MSE。結果如下圖所示:
結果分析:作者在這個數據集上分別跟non-LSTM模型、RNN模型、LSTM模型做了對比,均實現了指標上的超越。
總結
本文引入了Tree-LSTM,將LSTM推廣到樹狀的網絡拓撲結構。通過在兩個任務證明了Tree-LSTM的有效性:語義相關性和情感分類,兩者均優于現有系統。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 从树结构的长短期记忆网络改进语义表示的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 东南大学王萌 | “神经+符号”学习与多
- 下一篇: 论文浅尝 | 基于模式的时间表达式识别