论文浅尝 | 一种可解释的语义匹配复值网络
筆記整理:耿玉霞,浙江大學直博生。研究方向:知識圖譜,零樣本學習,自然語言處理等。
?論文鏈接:https://arxiv.org/pdf/1904.05298.pdf
?
本文是發表在 NAACL 2019 上的最佳可解釋性論文。受量子力學中數學模型的啟發,在語義希爾伯特空間建模語言的基本單位:語義、詞、句子,其中基于 complex-value 的end-to-end 網絡,以 semantic matching 的方式在QA數據集上取得了SOTA,并具備一定的可解釋性。
?
1、Backgroundof Quantum
(1)、Quantum Probability
微觀粒子存在不同的運動狀態,并且伴隨著一定的概率,這些狀態由一定的基態組成。以 ,? 組成的二元基態為例,粒子狀態的計算為這些基態的線性組合:
其中,α_0, α_1 ?為 complex value。
?
(2)、Measurement
????? 不同的粒子,組成一個小的微觀系統,由于粒子狀態伴有一定的概率,微觀系統本身也帶有不確定性。
?????? 微觀系統的不確定性由一元跡的半正定矩陣(也稱densitymatrix)進行計算:
其中,為第 i 個粒子,為量子力學中對粒子狀態的向量表示,為其轉置,m表示此微觀系統中粒子的數量。
在微觀系統的狀態空間,可觀察到一些high-level的屬性特征x,根據Gleason理論計算,這些屬性的概率表示為:
??????????? 其中,由于一元跡半正定矩陣的特性,。
2、Semantic Hilbert Space
(1) Linguistic Units
與微觀系統類似,在語義系統中存在一些語義的基本單位:語義、詞、句子。語義系統由一些基本的語義組成,這些語義通過一定的概率組合成詞,由不同詞組成的句子構成了一個小的語義系統。
其中:
語義:一系列正交向量組成的基態:
詞:由語義組成而成新的狀態:
其中權重為complex value,這里表示為極坐標向量,且,
句子:由不同的詞的狀態構成一個微觀系統。
(2) Semantic Measurement
語義微觀系統的 Hilbert space,同樣可觀察到一些high-level的特征x,給定句子的density matrix,計算其特征分布:
其中,特征的抽取由rank-oneprojector構成的measurement matrix進行計算,其作用相當于CNN中的卷積核或RNN中的cell。
3、Complex-valued Network for Semantic Matching
2 中基于量子力學的數學模型,對語言系統進行了建模,其中詞和句子均為 complex- value的表示,為度量語義建模的有效性,本文在QA語義匹配的場景中設計了一個基于 complex value 的端到端網絡。
(1) word representation 的物理含義:
使用complex value組合詞的表示,embedding向量的長度和方向均具備一定的物理含義,其中歸一化的向量(方向)表示為詞的狀態,長度為詞在句子中的重要性體現:
(2) sentence modeling
????? 考慮到句子過長時不能保持長距離的依賴,在句子建模的過程中,利用滑動窗口抽取局部狀態。給定一個大小為3的滑動窗口,窗口中的所有詞表示為一個子句,構成一個子系統,產生一個density matrix,因此文本中的句子由densitymatrix序列組成。同時,基于詞向量的長度,對窗口中不同詞的相對重要性進行計算:
????? 不同于一個density matrix中對所有詞向量求平均,局部窗口區域的densitymatrix表示為:
??????? 如下圖所示,以詞為中心計算窗口范圍內的 density matrix,對局部子語義系統的不確定性進行計算。
?
(3) match question and answer
??????? 在QA場景中,給定一個問題,需要找到最匹配的答案,本文利用句子的density matrix對問題和答案分別進行建模,并計算它們的距離:
??????? 首先,對長度均為L的問題答案對組成的句子對分別表示為:
? ???
?????? 定義抽取特征的semantic measurement vector(K個,初始化為正交one-hot向量),用于抽取 density matrix 的high-level特征:
??????? 利用semantic measurement vector和句子的 density matrix 序列,計算k-by-L的特征矩陣:
??????????? 整體框架如下圖:
(4)、利用density matrix并提取特征計算語義距離的優勢:
a. 保留了 density matrix 中所提取特征的概率分布;
b. 相比計算矩陣的跡,density matrix 利用measurement vector的計算方式更易于計算;
c. measurement vector 為可訓練的向量,相比于CNN的卷積核/RNN的cell計算更方便,且易于理解;
d. datadriven的方式(complex-valued vectors)使得端到端的網絡訓練更方便。
?
4、Experiment
(1)QA semantic matching:
?本文在兩個QA數據集上進行了實驗,數據集特性如下圖:
本文提出的方法在兩個數據集上相比于quantum-inspired的QA模型(QLM,NNQLM-i, NNQLM-ii),表現更好,并且在WikiQA上擊敗了所有的方法。
???????????
??? 同時,本文也針對實驗的細節做了 ablation study:
??????? FastText-MaxPool adopt max pooling over word-embedding
??????? CNM-Real replaces word embeddings and measurements with their real counterparts
??????? CNM-Global-Mixture adopts a global mixture of the whole sentence
??????? CNM-trace-inner-product replaces the train- able measurements with trace inner product like NNQLM
(2)可解釋性
???????? 基于 complex value 的向量表示,為模型提供了可解釋性,本文從以下三個方面進行了可解釋性的分析:
a.????Transparency
對模型中每一部分的元素的物理含義進行了解讀。
需要注意的是,進行特征抽取的 measurement vector 在模型中是可訓練的,并且是一個具體的正交向量(表達一個基態),相比于CNN中的卷積核或RNN中cell更易于理解。
b.????Post-hoc interpretability
本文對模型進行語義匹配時,對問題和答案中相對重要的詞進行了可視化,如下圖所示,由圖可知,在語義匹配的過程中,本文提出的模型確實選擇出了一些相對重要的詞,以此可匹配到問題答案對,從而對模型的匹配結果進行了解釋。
?
5、Conclusion
本文利用量子力學中的數學模型對語義空間中的語義單元進行了建模,并生成了與一般常用的實數值向量不同的復數值向量(complex-valued vector),使用復數表示的向量不僅在計算上更為方便,并且在空間中可表達一定的語義物理意義。
利用量子力學建模語義空間的思想,不僅在本文中被使用,早在一些論文中也被提出,不同于其他論文中的模型,本文選擇在語義希爾伯特空間中對語言進行建模,并且在計算densitymatrix矩陣方面方法更高效。除此之外,基于量子力學的思想,也可利用其他空間的思想對語義進行建模,并設計神經網絡應用到更多自然語言處理的場景中。
?????? 本文提出的模型,在考慮語義單元物理意義的情況下,具備一定的可解釋性。
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 一种可解释的语义匹配复值网络的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 阿里P8架构师谈:MySQL数据库的索引
- 下一篇: 论文浅尝 - ACL2020 | 用于多