基线系统需要受到更多关注:基于词向量的简单模型 | ACL 2018论文解读
在碎片化閱讀充斥眼球的時代,越來越少的人會去關注每篇論文背后的探索和思考。
在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。
點擊本文底部的「閱讀原文」即刻加入社區,查看更多最新論文推薦。
這是 PaperDaily 的第?85?篇文章本期推薦的論文筆記來自 PaperWeekly 社區用戶 @robertdlut。這篇發表在 ACL 2018 上的論文來自于杜克大學 Lawrence Carin 教授的實驗室。文章重新審視了 deep learning models(例如 CNN, LSTM)在各類 NLP 任務中的必要性。
通過大量的實驗探究(17 個數據集),作者發現對于大多數的 NLP 問題,在 word embedding 矩陣上做簡單的 pooling 操作就達到了比 CNN encoder 或者 LSTM encoder 更好的的結果。
如果你對本文工作感興趣,點擊底部閱讀原文即可查看原論文。
關于作者:羅凌,大連理工大學博士生,研究方向為深度學習、文本分類和實體識別。
■?論文 | Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms
■ 鏈接 | https://www.paperweekly.site/papers/1987
■ 源碼 | https://github.com/dinghanshen/SWEM
最近閱讀了 Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms 這篇論文,該工作來自杜克大學,發表在 ACL 2018 上。
論文詳細比較了直接在詞向量上進行池化的簡單模型和主流神經網絡模型(例如 CNN 和 RNN)在 NLP 多個任務上的效果。實驗結果表明,在很多任務上簡單的詞向量模型和神經網絡模型(CNN 和 LSTM)的效果相當,有些任務甚至簡單模型更好。下面是我對這篇論文的閱讀筆記。
引言
在 NLP 領域,詞向量(word embedding)已經受到了研究者們的廣泛關注和應用。它通過大量的無標簽數據將每個詞表示成一個固定維度的向量。相比傳統的獨熱(one-hot)表示,詞向量具有低維緊密的特點,并能學習到豐富的語義和句法信息。目前代表性的詞向量工作有 word2vec [1] 和 GloVe [2]。
在 NLP 領域,使用詞向量將一個變長文本表示成一個固定向量的常用方法有:1)以詞向量為輸入,使用一個復雜的神經網絡(CNN,RNN 等)來進行文本表示學習;2)在詞向量的基礎上,直接簡單的使用按元素求均值或者相加的簡單方法來表示。
對于復雜神經網絡方法,模型復雜計算量大耗時。該論文通過大量實驗發現,基于詞向量的簡單池化模型對于大多數的 NLP 問題,已經表現得足夠好,有時甚至效果超過了復雜的神經網絡模型。
方法
該文對比的主流神經網絡模型為:LSTM 和 CNN。對于 LSTM 特點在于使用門機制來學習長距離依賴信息,可以認為考慮了詞序信息。對于 CNN 特點是利用滑動窗口卷積連續的詞特征,然后通過池化操作學習到最顯著的語義特征。 對于簡單的詞向量模型(Simple word-embedding model,SWEM),作者提出了下面幾種方法。
SWEM-aver:就是平均池化,對詞向量的按元素求均值。這種方法相當于考慮了每個詞的信息。
SWEM-max:最大池化,對詞向量每一維取最大值。這種方法相當于考慮最顯著特征信息,其他無關或者不重要的信息被忽略。
SWEM-concat:考慮到上面兩種池化方法信息是互補的,這種變體是對上面兩種池化方法得到的結果進行拼接。
SWEM-hier:上面的方法并沒有考慮詞序和空間信息,提出的層次池化先使用大小為 n 局部窗口進行平均池化,然后再使用全局最大池化。該方法其實類似我們常用的 n-grams 特征。
接下來對比一下 SWEM 和神經網絡模型結構。可以看到 SWEM 僅對詞向量使用池化操作,并沒有額外的參數,且可以高度并行化。
實驗結果與分析
實驗中,使用了 300 維的 GloVe 詞向量,對于未登錄詞按照均勻分布進行初始化。最終的分類器使用了多層感知機 MLP 進行分類。在文檔分類,文本序列匹配和句子分類三大任務,共 17 個數據集上進行了實驗并進行了詳細的分析。?
文檔分類?
實驗中的文檔分類任務能被分為三種類型:主題分類,情感分析和本體分類。實驗結果如下:
令人驚奇的是在主題分類任務上,SWEM 模型獲得了比 LSTM 和 CNN 更好的結果,特別是 SWEM-concat 模型的效果甚至優于 29 層的 Deep CNN。在本體分類任務上也有類似的趨勢。有趣的是對于情感分析任務,CNN 和 LSTM 效果要好于不考慮詞序信息的 SWEM 模型。對于考慮了詞序和空間信息的 SWEM-hier 取得了和 CNN/LSTM 相當的結果。這可能是情感分析任務需要詞序信息。例如“not really good”和“really not good”的情感等級是不一樣的。?
在大多數任務上 SWEM-max 的方法略差于 SWEM-aver,但是它提供了互補的信息,所以 SWEM-concat 獲得了更好的結果。更重要的是,SWEM-max 具有很強的模型解釋性。
論文在 Yahoo 數據集上訓練了 SWEM-max 模型(詞向量隨機初始化)。然后根據訓練學習后的詞向量中的每一維的值畫了直方圖,如下圖 1:
可以看到相比與 GloVe,SWEM-max 學習出來的詞向量是十分稀疏的,這說明在預測文本時,模型只依靠一些關鍵詞,這就增加了模型的解釋性。論文在整個詞匯表中根據詞向量維度挑選出了一個維度中值最大的 5 個詞展示在表 3 中。可以看到每個維度選出的詞是同一個主題相關的。甚至模型可以學到沒有標簽信息的結構,例如表 3 中的“Chemistry”,在數據集中是沒有 chemistry 標簽的,它屬于 science 主題。
在模型時間上,SWEM 模型要比 CNN 和 LSTM 都高效。
文本序列匹配?
在句子匹配問題的實驗室中,主要包括自然語言推理,問答中答案句選擇和復述識別任務。實驗結果如下:
可以看到除了 WikiQA 數據集,其他數據集上,SWEM 模型獲得了比 CNN 和 LSTM 更好的結果。這可能是因為在當匹配自然語言句子時,在大多數情況下,只需要使用簡單模型對兩個序列之間在單詞級別上進行對比就足夠了。從這方面也可以看出,詞序信息對于句子匹配的作用比較小。此外簡單模型比 LSTM 和 CNN 更容易優化。
句子分類?
相比與前面的文檔分類,句子分類任務平均只有 20 個詞的長度。實驗結果如下:
在情感分類任務上,和前面文檔分類的實驗結果一樣,SWEM 效果差于 LSTM 和 CNN,在其他兩個任務上,效果只是略差于 NN 模型。相比與前面的文檔分類,在短句子分類上 SWEM 的效果要比長文檔的分類效果要差。這也可能是由于短句中詞序信息更重要。
此外,論文還在附加材料中補充了對序列標注任務的實驗,實驗結果如下:
可以看到對于詞序敏感的序列標注任務,SWEM 的效果明顯要差于 CNN 和 RNN。?
詞序信息的重要性?
從上面可以看到,SWEM 模型的一個缺點在于忽略了詞序信息,而 CNN 和 LSTM 模型能夠一定程度的學習詞序信息。那么在上述的這些任務中,詞序信息到底有多重要?
為了探索這個問題,該文將訓練數據集的詞序打亂,并保持測試集的詞序不變,就是為了去掉詞序信息。然后使用了能夠學習詞序信息 LSTM 模型進行了實驗,實驗結果如下:
令人驚奇地發現,在 Yahoo 和 SNLI 數據集(也就是主題分類和文本蘊涵任務)上,在亂序訓練集上訓練的 LSTM 取得了和原始詞序相當的結果。這說明詞序信息對這兩個問題并沒有明顯的幫助。但是在情感分析任務上,亂序的 LSTM 結果還是有所下降,說明詞序對于情感分析任務還是比較重要。
再來看看 SWEM-hier 在情感分析上的效果,相比與 SWEM 其他模型,SWEM-hier 相當于學習了 n-gram 特征,保留了一定的局部詞序信息。在兩個情感任務上效果也是由于其他 SWEM 模型,這也證明了 SWEM-hier 能夠學習一定的詞序信息。
其他實驗?
除了上述實驗,該文還設置了一些實驗在說明 SWEM 的性能。對于之前的使用非線性的 MLP 作為分類器,替換成了線性分類器進行了實驗。在 Yahoo(從 73.53% 到 73.18%)和 Yelp P(93.76% 到 93.66%)數據集上 SWEM 的效果并未明顯下降。這也說明了 SWEM 模型能夠抽取魯棒、有信息的句子表示。
該文還在中文數據集上進行了實驗,實驗結果表明層次池化比最大和平均池化更適合中文文本分類,這樣暗示了中文可能比英文對詞序更加敏感。?
在附加材料中,該文還用 SWEM-concat 模型在 Yahoo 數據集上對詞向量維度(從 3 維到 1000 維)進行了實驗,這里詞向量使用隨機初始化。
可以看到高的維度一般效果會更好一些,因為能夠表示更豐富的語義信息。但是,可以看到詞向量在 10 維的時候已經可以達到和 1000 維相當的效果。其實這也和論文 [3] 的結果比較一致,在一些任務上小維度的詞向量效果也已經足夠好了。
此外,論文還對訓練集規模對模型效果影響進行了實驗。在 Yahoo 和 SNLI 數據集上分別取不同比例的訓練集對模型進行訓練測試,結果如下圖:
可以看到當標注訓練集規模比較小時,簡單的 SWEM 模型的效果更好,這可能也是 CNN 和 LSTM 復雜模型在小規模訓練數據上容易過擬合導致的。
總結
該論文展示了在詞向量上僅使用池化操作的簡單模型 SWEM 的性能,在多個 NLP 任務數據集上進行了實驗,比較了 SWEM 和目前主流的 NN 模型(CNN 和 LSTM)性能。
實驗發現,SWEM 這樣簡單的基線系統在很多任務上取得了與 NN 相當的結果,實驗中的一些總結如下:
1. 簡單的池化操作對于長文檔(上百個詞)表示具有不錯的表現,而循環和卷積操作對于短文本更有效;
2. 情感分析任務相比主題文本分類任務對詞序特征更敏感,但是該文提出的一種簡單的層次池化也能夠學習一定的詞序信息,和 LSTM/CNN 在情感分析任務上取得了相當的結果;
3. 對于句子匹配問題,簡單的池化操作已經展現出了與 LSTM/CNN 相當甚至更好的性能;
4. 對于 SWEM-max 模型,可以通過對詞向量維度的分析得到較好的模型解釋;
5. 在一些任務上,詞向量的維度有時在低維已經足夠好;
6. 在標注訓練集規模小的時候,簡單的 SWEM 模型可能更加魯棒、獲得更好的表現。
總的來說,我們在進行研究時,有時為了讓模型學習到更為豐富的信息,會把模型設計得十分復雜,但是這篇論文通過實驗告訴了我們,簡單的基線系統也能夠獲得很不錯的表現。當我們做具體任務時,應該根據具體需求來選擇設計模型(模型效果,模型復雜度,模型運行時間等的權衡),簡單有效的系統也應該受到關注。
參考文獻
[1] Mikolov, Tomas, et al. "Distributed representations of words and phrases and their compositionality." Advances in neural information processing systems. 2013.?
[2] Pennington, Jeffrey, Richard Socher, and Christopher Manning. "Glove: Global vectors for word representation." Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014.?
[3] Lai, Siwei, et al. "How to generate a good word embedding." IEEE Intelligent Systems 31.6 (2016): 5-14.
本文由 AI 學術社區 PaperWeekly 精選推薦,社區目前已覆蓋自然語言處理、計算機視覺、人工智能、機器學習、數據挖掘和信息檢索等研究方向,點擊「閱讀原文」即刻加入社區!
點擊標題查看更多論文解讀:?
??DeepMind論文解讀:讓機器更深入地理解文本
??深度神經網絡模型壓縮和加速都有哪些方法?
??上海交大提出多模態情緒識別框架EmotionMeter
??綜述:圖像風格化算法最全盤點
?CVPR 2018最佳論文解讀:探秘任務遷移學習
?深度協同過濾:用神經網絡取代內積建模
? ? ? ? ??
AI活動推薦
?
中國人工智能大會 CCAI 2018
AI領域規格最高、規模最大
影響力最強的專業會議之一
熱點話題√核心技術√科學問題√
?
?活動時間?
2018年7月28日-29日?
中國·深圳
長按識別二維碼,查看大會簡介
▼
基于深度學習的自然語言處理
作者:[以色列] 約阿夫·戈爾德貝格(Yoav Goldberg)、車萬翔 郭江 張偉男 劉銘 譯
當當 廣告 購買? ? ? ? ? ?
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 查看原論文
總結
以上是生活随笔為你收集整理的基线系统需要受到更多关注:基于词向量的简单模型 | ACL 2018论文解读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 首届中国高校计算机大赛-人工智能创意赛启
- 下一篇: 使用PaddleFluid和Tensor