【NLP】巧借“他山之石”,生成信息量大、可读性强且稳定的摘要
大多數以前的 seq2seq 摘要系統純粹依靠源文本來生成摘要,這往往并不穩定。
本文將回顧一項針對該問題進行改進的工作 ——ACL 論文?Retrieve,?Rerank?and?Rewrite:?Soft?Template Based Neural Summarization。受傳統基于模板的摘要方法的啟發,這項研究提出利用已有的摘要作為軟模板(soft template)來指導 seq2seq 模型。
具體而言,首先使用一個 IR 平臺來檢索適當的摘要作為候選模板(candidate template)。然后擴展 seq2seq 框架,共同進行模板重新排序(reranking)和模板感知摘要生成 (rewriting,重寫)。
實驗表明,在信息量方面,該方法明顯優于當時的先進方法,甚至軟模板本身也具有很強的競爭力。此外,外部高質量摘要的導入,提高了生成摘要的穩定性和可讀性。
1、此前方法的局限性
網絡信息的指數增長要求開發有效的自動摘要系統。其中的一個任務包括抽象句子摘要(sentence summarization),即生成給定句子的較短版本,同時試圖保留其原始含義,可以用作設計或提煉吸引人的標題等。
自 2016 年來,seq2seq 模型受到研究界的廣泛關注,seq2seq 屬于 encoder-decoder 結構的一種。而 encoder-decoder 結構,基本思想就是利用兩個 RNN,一個 RNN 作為 encoder,另一個 RNN 作為 decoder。encoder 負責將輸入序列壓縮成指定長度的向量,而 decoder 則負責根據語義向量生成指定的序列。
大多數以前的 seq2seq 模型純粹依賴源文本來生成摘要。然而,正如許多研究報告,seq2seq 模型的性能隨著生成長度的增加而迅速下降。實驗還表明,seq2seq 模型有時傾向于 “失控”。例如,3% 的摘要包含少于 3 個單詞,而有 4 個摘要重復一個單詞甚至 99 次。這些結果在很大程度上降低了所生成摘要的信息量和可讀性。此外,seq2seq 模型通常專注于按順序復制源詞,而沒有任何實際的 “摘要”。
因此,基于源句的自由生成算法(free generation)對于 seq2seq 模型是不夠的。
基于模板的摘要(template-based summarization)是一種傳統的抽象摘要方法。通常,模板是一個不完整的句子,可以使用手動定義的規則來填充輸入文本。
例如,總結股票市場行情的一個簡明模板是:[地區] 股票 [開 / 收盤價][數字] 百分比 [低 / 高]。由于模板是由人編寫的,因此生成的摘要通常是流暢的和信息豐富的。然而,模板的構建是非常耗時的,并且需要大量的領域知識。此外,不可能為不同領域的摘要開發所有模板。
2、Re3Sum 摘要系統
受基于檢索的對話系統的啟發,這項研究假設,相似句子的摘要可以提供一個參考點來指導輸入的句子摘要過程,這些現有的摘要被稱為軟模板,因為不需要實際的規則來從它們構建新的摘要。
研究提出將 seq2seq 與基于模板的摘要方法相結合,基于這種方法開發的摘要系統稱為 Re3Sum,它由三個模塊組成:檢索,重新排序和重寫。
團隊利用一個廣泛使用的信息檢索平臺從訓練語料庫中找到候選的軟模板。然后擴展 seq2seq 模型,共同學習模板顯著性測量 (rerank) 和最終的摘要生成 (Rewrite)。采用遞歸神經網絡 (RNN) 編碼器將輸入語句和每個候選模板轉換為隱藏狀態。在重新排序中,則根據候選模板與輸入句子的隱含狀態相關性來測量其信息含量。將預測信息量最高的候選模板作為實際的軟模板,重寫時,根據句子和模板的隱藏狀態生成摘要。
Gigaword 數據集上廣泛的實驗表明,在信息量方面,Re3Sum 模型明顯優于目前最先進的 seq2seq 模型,甚至軟模板本身也表現出較高的競爭力。此外,導入高質量的外部摘要提高了生成摘要的穩定性和可讀性。
具體而言,Re3Sum 摘要系統由三個模塊組成:Retrieve、Rerank 和 Rewrite。給定輸入句子 x,檢索模塊從訓練語料庫中篩選候選軟模板 C = {ri}。對于驗證和測試,認為候選模板具有最高顯著性預測(highest predicted saliency)的特點。對于訓練,選擇 C 中具有最大真實顯著性分數(actual saliency score)的軟模板,它能加速收斂,顯示了實驗中沒有明顯的副作用。
方法流程圖
然后,通過一個共享的編碼器共同進行重排和重寫。具體來說,句子 x 和軟模板 r 都通過 RNN 編碼器轉換為隱藏狀態。在 Rerank 模塊中,根據 r 的隱藏狀態與 x 的相關性來衡量 r 的顯著性,從候選模板中挑選出最適合的軟模板。在 Rewrite 模塊中,RNN 解碼器將 x 和 r 的隱藏狀態組合起來,依靠源句子(source sentence)和軟模板生成摘要 y。
2.1 檢索
該模塊的目的是從訓練語料庫中找出候選模板。假設相似的句子應該有相似的總結句型。因此,給定一個句子 x,在語料庫中找出它的類比,并選擇它們的摘要作為候選模板。由于數據集的大小相當大 (超過 3M),利用廣泛使用的信息檢索 (IR) 系統 lucene 來高效地索引和搜索。保持 lucene 的默認設置來構建 IR 系統。對于每個輸入句子,選擇前 30 個搜索結果作為候選模板。
2.2 共同重新排序和重寫
圖 2 共同重排和重寫
為了進行模板感知的 seq2seq 生成 (重寫),將源句 x 和軟模板 r 編碼為隱藏狀態是必要的步驟。考慮到基于隱藏狀態的匹配網絡已經顯示出很強的測量兩篇文本相關性的能力,建議通過一個共享的編碼步驟共同進行重新排序和重寫。具體使用雙向遞歸神經網絡 (BiRNN) 編碼器讀取 x 和 r。以句子 x 為例,它的前向 RNN 在時間戳 i 時的隱藏狀態可以被表示為
BiRNN 由前向 RNN 和后向 RNN 組成。假設相對應的輸出為和,其中索引 “?1” 表示最后一個元素。那么,一個單詞的復合隱藏狀態就是兩種 RNN 表示的拼接,例如。源句的完整表示為。由于軟模板 r 也可以看作是一個可讀的簡潔句子,所以使用相同的 BiRNN 編碼器將其轉換為隱藏狀態。
2.2.1 重排
檢索時,根據相應索引句子與輸入句子之間的文本相似性對候選模板進行排序。然而,對于摘要任務,期望軟模板 r 盡可能地像實際的總結 y?。這里使用廣泛使用的摘要評價指標 ROUGE 來測量實際顯著性的 s*(r,y*)。利用 x 和 r 的隱藏狀態來預測模板的顯著性 s。具體來說,將 BiRNN 的輸出作為句子或模板的表示:
接著,使用雙線性網絡來預測輸入句子模板的顯著性。
其中 Ws 和 bs 是雙線性網絡的參數,加入 sigmoid 激活函數,使 s 的范圍與實際顯著性 s?一致。
2.2.2 重寫
Rerank 模塊選擇的軟模板 r 已經經過 ROUGE 評估,但是 r 通常包含很多沒有出現在源文本中的命名實體,因此很難確保軟模板對于輸入句子是可靠的。因此,利用 seq2seq 模型強大的重寫能力來生成更可靠和信息更豐富的摘要。具體來說,由于系統的輸入既包括句子也包括軟模板,所以使用了 concatenation 函數來組合句子和模板的隱藏狀態:
將合并后的隱藏狀態輸入到當前的注意力 RNN 解碼器,在 t 位置生成解碼隱藏狀態:
Yt-1 是前面輸出的摘要字。最后,引入了一個 softmax 層來預測當前的摘要詞:
其中,Wo 是一個參數矩陣。
2.3 學習
系統中有兩種類型的成本。對于重新排序,期望預測的顯著性 s (r,x) 接近實際的顯著性 s?(r,y?)。因此使用 s 和 s?之間的交叉熵 (CE) 作為損失函數:
其中 θ 代表模型參數。對于重寫,學習的目標是最大化實際總結 y?的估計概率。采用常見的負對數似然 (NLL) 作為損失函數:
為了充分利用雙方的監督,將上述兩種成本合并為最終損失函數:
使用小批量隨機梯度下降 (SGD) 來調整模型參數。批量大小為 64。為了增強泛化,對 RNN 層引入 dropout ,其概率 p = 0.3。初始學習率為 1,如果在驗證集上的 generation loss 沒有減少,則衰減 50%。
3、具體實驗結果
3.1 數據集
研究采用 Gigaword 數據集進行實驗。該語料庫是將新聞文章的第一句和標題作為摘要進行配對,并運用啟發式規則生成的。所采用的框架為 OpenNMT。
3.2 評價指標
采用 ROUGE 作為評價標準,實驗結果如下圖,表明 Re3Sum 相對于其他方法,性能優異。
研究還從各個方面衡量生成的摘要的語言質量,其結果如下圖:
其中各 Item 含義如下:
(1)LEN_DIF:生成的摘要與實際摘要之間長度差的絕對值。用平均值 ± 標準差來說明這個項目。平均值部分反映可讀性和信息量,而標準差則與穩定性有關。
(2)LESS_3:生成的摘要的數量,它包含少于三個標記。這些極其簡短的摘要通常難以閱讀。
(3)COPY:從源句中復制的摘要 (沒有停止詞) 的比例。大的復制率表明摘要系統更注重壓縮而不是必需的抽象。
(4)NEW_NE:沒有出現在源句子或實際摘要中的命名實體的數量。直觀地說,在摘要中出現新的命名實體很可能會帶來語義上的變化。使用 Stanford CoreNLP 來識別命名實體。
從 “LEN_DIF” 和 “LESS_3” 行可以看出,Re3Sum 的性能幾乎與軟模板的性能相同。軟模板確實很好地指導了摘要的生成。與 Re3Sum 相比,在 OpenNMT 中 LEN_DIF 的標準差是其 0.7 倍,說明 OpenNMT 的工作非常不穩定。此外,OpenNMT 生成了 53 個極短的摘要,嚴重降低了可讀性。同時,實際摘要的復制率為 36%。因此,在 OpenNMT 中,復制機制的權重嚴重超標。模型被鼓勵根據人類編寫的軟模板生成,這相對減少了對源句子的復制。最后一行 “NEW_NE”,表示軟模板中出現了許多新的命名實體,這使得它們與源語句非常不一致。相比之下,Re3Sum 中的這個指數與 OpenNMT 的比較接近。它突出了該 seq2seq 框架的重寫能力。
3.3 軟模板的作用
最后,研究軟模板如何影響的模型。在開始時,團隊將不同類型的軟模板(上圖的 Type)輸入 Re3Sum 的重寫模塊。
所引入的軟模板的類型解釋如下:
(1)Random:從訓練語料庫中隨機選擇的摘要
(2)First:Retrieve 模塊給出的排名最高的候選模板。
(3)Max:在 30 個候選模板中,實際 ROUGE 分數最高的模板
(4)Optimal: 現有的訓練語料庫中 ROUGE 得分最高的摘要
(5)Rerank:在 30 個候選模板中,預測 ROUGE 得分最高的模板。這是實際采用的軟模板。
實驗表明,提供的模板質量越高,ROUGE 得分越高。有趣的是,盡管隨機模板的 ROUGE-2 分數為零,仍然可以用隨機模板生成可接受的摘要。
Re3Sum 似乎可以自動判斷軟模板是否值得信任,忽略那些嚴重不相關的。因此,與重新排序模型的聯合學習在這里起著至關重要的作用。
4 、結論
該研究提出引入軟模板作為附加輸入來指導 seq2seq 摘要,使用流行的 IR 平臺 Lucene 檢索適當的現有摘要作為候選軟模板,然后擴展 seq2seq 框架,共同進行模板重排和模板感知的摘要生成。實驗表明,該模型能夠生成信息量大、可讀性強且穩定的摘要。此外,模型在代際多樣性方面顯示了良好的前景。
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯 本站qq群704220115,加入微信群請掃碼:總結
以上是生活随笔為你收集整理的【NLP】巧借“他山之石”,生成信息量大、可读性强且稳定的摘要的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 火狐浏览器怎么关闭自动更新 火狐浏览器关
- 下一篇: 系统之家win11最新旗舰版64位镜像v