论文阅读:基于多模态词向量的语句距离计算方法
論文信息
華陽(yáng). 基于多模態(tài)詞向量的語(yǔ)句距離計(jì)算方法[D].哈爾濱工業(yè)大學(xué),2018.
1.主要工作
在改進(jìn)多模態(tài)詞向量的的基礎(chǔ)上研究句嵌入的構(gòu)建:1).基于神經(jīng)詞袋模型。2)基于雙向RNN。3)基于GRU。
語(yǔ)句距離計(jì)算:
基于MLP和交互注意力機(jī)制的兩種距離計(jì)算方法。在釋義識(shí)別,答案選擇和語(yǔ)句難度上測(cè)試性能。實(shí)驗(yàn)結(jié)果表明模型能夠?qū)﹄y度距離這一抽象概念進(jìn)行建模。
2.研究?jī)?nèi)容
3.技術(shù)方法
3.1 多模態(tài)詞向量融合的準(zhǔn)備工作
多模態(tài)詞向量構(gòu)建的重點(diǎn)是語(yǔ)義向量與視覺向量的融合,本文中給出了解釋:
 
 圖像語(yǔ)義構(gòu)建:
 圖像語(yǔ)義提取采用訓(xùn)練好的CNN模型,常見模型包括:VGGNet,ReNet,GoogleNet等。這些模型基于分類任務(wù)訓(xùn)練,模型的最后一層輸出是各類別的概率。因此,在多模態(tài)語(yǔ)義任務(wù)提取時(shí),我們選擇倒數(shù)第二層(全連接層)的輸出,這一層蘊(yùn)含了對(duì)整幅圖像的語(yǔ)義表示。
 
 在使用注意力機(jī)制的情況下,為了提取所有的局部特征,將輸入圖片的大小調(diào)整為 224 ? 224像素;然后將圖片的像素矩陣輸入 CNN 模型;在經(jīng)過 最后一個(gè)卷積層后,可以得到大小14?14?512=196?512的特征圖。
 
 這一步相當(dāng)于把圖像劃分成了196個(gè)區(qū)域,每個(gè)區(qū)域由512維的向量表示。
 在詞向量訓(xùn)練時(shí)同樣設(shè)置為512維度,完成融合前的準(zhǔn)備工作。
3.2 基于空間注意力機(jī)制的融合過程
前提:單詞表述的目標(biāo)對(duì)象只會(huì)出現(xiàn)在圖像的部分區(qū)域
 目標(biāo):將詞向量與圖像語(yǔ)義向量進(jìn)行組合。
 1.詞向量和圖像語(yǔ)義分別記為分別記為Vw,Vi,計(jì)算詞向量圖像各區(qū)域注意力分布:
 
 表示圖像局部特征維度(512)和數(shù)量(196),
 為最終得到的注意力分布,是一個(gè)d維向量(本文為512),每一維表示各區(qū)域與詞向量相關(guān)程度。
 2.計(jì)算圖像特征加權(quán)和: 
 3.將得到的圖像特征與詞向量按位相加:
 4.進(jìn)一步疊加注意力層:
 
 以上過程計(jì)算了每個(gè)局部區(qū)域與詞向量的相關(guān)度,并通過堆疊多個(gè)注意力層逐步確定相關(guān)度區(qū)域。完成了多模態(tài)詞向量的匹配與融合。
3.3 語(yǔ)句距離計(jì)算
整體計(jì)算模塊如下:
 
 句嵌入部分采用的方法有:神經(jīng)詞袋(將詞向量進(jìn)行平均),RNN,CNN,GRU等,不再贅述。
 距離計(jì)算模塊:
對(duì)于無(wú)法用cos值描述的,如描述兩個(gè)句子的難度,加入映射模塊:
 首先計(jì)算兩個(gè)句向量的相似度,然后拼接,經(jīng)過兩個(gè)連續(xù)的隱藏層,最后通過sigmoid映射到輸出。
 3. 基于交互注意力機(jī)制
 
 為了引入注意力機(jī)制,在句嵌入部分,本文的改進(jìn)方法為除了保留句嵌入部分每個(gè)時(shí)間步的隱藏向量的最大池化層,還保留了每個(gè)時(shí)間步的狀態(tài),以第一個(gè)句子句嵌入作為查詢關(guān)注其對(duì)第二個(gè)句子每個(gè)時(shí)間步的關(guān)注度,這樣就進(jìn)行了注意力交互查詢,分別計(jì)算對(duì)對(duì)方的關(guān)注度。
4.實(shí)驗(yàn)分析
多模態(tài)詞向量相關(guān)實(shí)驗(yàn)
評(píng)價(jià)指標(biāo):斯皮爾曼相關(guān)系數(shù)。
4.1語(yǔ)義相似性實(shí)驗(yàn)
數(shù)據(jù)集:WordSim353-sim,353對(duì)人工標(biāo)注的詞,分值用來(lái)表示相似性。
 SimLex-999:999對(duì)人工標(biāo)注,較wordsim353-sim相比更強(qiáng)調(diào)了相似度與相關(guān)性的區(qū)別。
 示例數(shù)據(jù):
 
 實(shí)驗(yàn)結(jié)果:
 
 多模態(tài)詞向量與多種傳統(tǒng)單一詞向量進(jìn)行對(duì)比,相比單一詞向量,不同維度下的多模態(tài)詞向量相似度得分普遍提升。在VIS部分,引入了評(píng)分人員會(huì)根據(jù)兩個(gè)單詞所表述物體的視覺相似度所給的評(píng)分,使得相似度結(jié)果更高,因此可以認(rèn)為,視覺信息的加入有效的拉近了單詞的距離。
4.2 語(yǔ)義相關(guān)性實(shí)驗(yàn)
語(yǔ)義相關(guān)性與相似性區(qū)別在于:相似物體具有相似性,相關(guān)物體在視覺上可能并不相似。
 數(shù)據(jù)集:WordSim353-rel,353對(duì)人工標(biāo)注的詞,分值用來(lái)表示相關(guān)性。
 MEN:基于 ESP Game 數(shù)據(jù)集中的圖像標(biāo)簽構(gòu)建,當(dāng)兩個(gè)詞同時(shí)作為一副圖像的標(biāo)簽出現(xiàn),其出現(xiàn)頻度越高,則得分越高。一定程度上可反應(yīng)詞的相關(guān)性
 實(shí)驗(yàn)結(jié)果:
 
 可以看出:
 多模態(tài)詞向量與單一詞向量相比得分有所提升;
 注意力的加入,反而降低了性能。
 分析該結(jié)果,可能的原因是相關(guān)事物并不具備視覺相似性,不使用注意力機(jī)制時(shí)關(guān)注的是全局特征,
 加入注意力機(jī)制,加重了目標(biāo)任務(wù)的關(guān)注度,加強(qiáng)了圖像區(qū)域特征,比如衣柜和衣服,加強(qiáng)區(qū)域特征會(huì)拉大兩者的距離,反而降低了多模態(tài)詞向量模型的性能。
4.3 視覺語(yǔ)義相似性實(shí)驗(yàn)
視覺語(yǔ)義相似性用于評(píng)價(jià)一對(duì)單詞的視覺相似度和語(yǔ)義相似度,其可能情況是2*2排列組合。
 數(shù)據(jù)集:VisSim:同時(shí)給出了視覺和語(yǔ)義相似度得分,[1,5]之間。
 MEN:基于 ESP Game 數(shù)據(jù)集中的圖像標(biāo)簽構(gòu)建,當(dāng)兩個(gè)詞同時(shí)作為一副圖像的標(biāo)簽出現(xiàn),其出現(xiàn)頻度越高,則得分越高。一定程度上可反應(yīng)詞的相關(guān)性
 實(shí)驗(yàn)結(jié)果:
 
 在相似性任務(wù)上,多模態(tài)詞向量獲得了明顯的提升。分析是由于相似單詞其真實(shí)語(yǔ)義相似,視覺也相似,因此多模態(tài)詞向量的性能會(huì)有所提升。
 查看多模態(tài)和單一模態(tài)下得分最高的詞對(duì): 
 翻譯成中文:
 多模態(tài):青蛙-蟾蜍,馬-小馬,飛機(jī)-噴氣式飛機(jī),公牛-母牛,杯子-杯子,公牛-牛,沙發(fā)-沙發(fā)
 單一模態(tài):飛機(jī)-噴氣式飛機(jī),杯子-杯子,導(dǎo)彈-火箭,貓-美洲獅,手套-棒球手套,幕布-窗簾
 可以看出,多模態(tài)的高分基本都是視覺上非常相似的,單一模態(tài)的高分更傾向于物品屬于同一種類。多模態(tài)更關(guān)注物品的相似性,單一模態(tài)更關(guān)注物品的相關(guān)性。
4.4語(yǔ)句距離計(jì)算實(shí)驗(yàn):釋義識(shí)別
詞向量語(yǔ)料:wiki英文數(shù)據(jù)集
 釋義識(shí)別數(shù)據(jù)集:谷歌發(fā)布的QQP數(shù)據(jù)集:40萬(wàn)對(duì)數(shù)據(jù),用于判斷兩個(gè)句子描述是否為同一件事。
 
 判斷句子釋義是否相同,是對(duì)句嵌入能否表征真實(shí)語(yǔ)義的評(píng)價(jià)。
 相比使用通用詞向量,多模態(tài)詞向量有更好的表現(xiàn),這表明多模態(tài)詞向量相比通用詞向量能夠概括更強(qiáng)的現(xiàn)實(shí)語(yǔ)義信息。此外,交互注意力機(jī)制相比普通的單向注意力機(jī)制,能夠進(jìn)一步有效提升模型的性能。
 本文模型最佳準(zhǔn)確率為0.854,相比最新的為釋義識(shí)別設(shè)計(jì)的模型0.882有一定差距。
4.5 答案選擇
數(shù)據(jù)集:WIkiQA數(shù)據(jù)集
 
 答案選擇是從候選集中選擇與目標(biāo)問題最相關(guān)的答案,可以理解為計(jì)算問題和答案間的距離。相比其他實(shí)驗(yàn),Q與A的關(guān)聯(lián)性不強(qiáng),更注重兩個(gè)句子間的匹配。可以看到雙向+多模態(tài)+交互注意力機(jī)制組合其匹配效果更強(qiáng)。分析是由于,多模態(tài)詞向量強(qiáng)化了句子真實(shí)語(yǔ)義,交互注意力價(jià)值,更關(guān)注了兩個(gè)句子的間的反饋,解決了單一attention可能帶來(lái)的噪聲問題。改進(jìn)的CNN(gru)與其他深度學(xué)習(xí)相比也增強(qiáng)了實(shí)驗(yàn)結(jié)果。
4.6 語(yǔ)句難度距離
評(píng)價(jià):皮爾斯相關(guān)系數(shù)。
 數(shù)據(jù)集:小學(xué)不同年級(jí)英文教材的手工錄入
 隨機(jī)抽取兩個(gè)句子,以評(píng)級(jí)差作為它們之間的難度距離,距離區(qū)間為即為[0,3]。根據(jù)這個(gè)方法,構(gòu)造了 40000 個(gè)句對(duì),每個(gè)距離各 10000 句。
 實(shí)驗(yàn)結(jié)果:
 
 可以看出,對(duì)語(yǔ)句難度建模中,多模態(tài)較單一模態(tài)有更好的實(shí)驗(yàn)結(jié)果。分析可能是由于視覺信息的加入使語(yǔ)句攜帶了更多信息,提升了語(yǔ)義表示。作者提到了隨著年級(jí)的增加,視覺單詞減少,抽象單詞增加,多模態(tài)詞向量的作用逐漸降低。分析這是由于抽象單詞所對(duì)應(yīng)的圖像特征難捕捉,弱化了圖像語(yǔ)義信息。
 同時(shí),作者認(rèn)為:”語(yǔ)句的長(zhǎng)度并不是評(píng)價(jià)語(yǔ)句難度所需要的特征,這些特征會(huì)使模型產(chǎn)生偏置,導(dǎo)致模型在其他
 語(yǔ)料上不一定生效。“這一句話沒有理解。
5.個(gè)人見解
1.多模態(tài)的引入很好的提升了語(yǔ)義的表征能力,可用于輔佐捕捉句子的真實(shí)語(yǔ)義,也可以根據(jù)句子的表述對(duì)圖像的特征區(qū)域進(jìn)行強(qiáng)調(diào)。
 2.語(yǔ)句距離測(cè)算有廣泛的應(yīng)用場(chǎng)景,如信息檢索,機(jī)器翻譯,問答系統(tǒng)等。在其應(yīng)用場(chǎng)景下,能否與多模態(tài)進(jìn)行結(jié)合。如信息檢索部分,有單獨(dú)的識(shí)圖和單獨(dú)的文本搜索,可以探索二者間的結(jié)合。
 3.很多論文工作體量大,但創(chuàng)新點(diǎn)不是很明顯。
圖像與文本的匹配過程:
 ESP GAME數(shù)據(jù)集對(duì)每個(gè)圖像進(jìn)行單詞標(biāo)注,當(dāng)一個(gè)圖像頻繁被打上一個(gè)標(biāo)簽時(shí),就將這個(gè)單詞標(biāo)簽作為圖像標(biāo)注。游戲鼓勵(lì)玩家使用盡量多的單詞來(lái)描述圖像。因此,一副圖像中可能有多個(gè)物體及多個(gè)標(biāo)簽。ESP Game數(shù)據(jù)集共含有100k的圖像資源。平均每張圖像包含14和標(biāo)簽,共20515個(gè)單詞。
 ImageNet 是一個(gè)按照 WordNet 層次結(jié)構(gòu)組織的大規(guī)模圖像數(shù)據(jù)庫(kù)。ImageNet 數(shù)據(jù)集中的圖像主要來(lái)源于網(wǎng)絡(luò),每幅圖像都會(huì)經(jīng)過人工選擇并為其添加標(biāo)簽。因此,該數(shù)據(jù)庫(kù)中的圖像質(zhì)量普遍較高,目標(biāo)物體大都集中與圖像的中間位置。
總結(jié)
以上是生活随笔為你收集整理的论文阅读:基于多模态词向量的语句距离计算方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: SpringBoot整合Quartz--
- 下一篇: 特种浓缩分离:生物农药超滤分离提纯过滤技
