SAFE: Similarity-Aware Multi-Modal Fake News Detection-学习笔记
SAFE: Similarity-Aware Multi-Modal Fake News Detection
PPT
提高對(duì)話系統(tǒng)數(shù)據(jù)質(zhì)量和多樣性的離群點(diǎn)檢測(cè)
Fake news detection methods
假新聞檢測(cè)方法通??梢苑譃?#xff08;I)基于內(nèi)容的方法和(II)基于社交上下文的方法。
一:基于內(nèi)容的虛假新聞檢測(cè),通過(guò)利用新聞內(nèi)容(即新聞內(nèi)容內(nèi)的文本信息和/或視覺(jué)信息)來(lái)檢測(cè)假新聞。
二:基于社交上下文的方法通過(guò)調(diào)查與新聞文章相關(guān)的社交上下文信息(即新聞文章如何在社交媒體上傳播)來(lái)檢測(cè)虛假新聞。
SAFE Methodology
1.多模式特征提取。SAFE的多模式特征提取模塊旨在分別在d維空間中表示給定新聞文章的(I)文本信息和(II)視覺(jué)信息。
文本通過(guò)引入附加的完全連接層來(lái)擴(kuò)展Text-CNN,以自動(dòng)提取每篇新聞文章的文本特征。
圖2提供了Text-CNN的體系結(jié)構(gòu),其中包含卷積層和最大池。
每個(gè)本地輸入是一組h個(gè)連續(xù)字。
給定一條包含n個(gè)詞的內(nèi)容,每個(gè)詞首先被嵌入為(1)。
卷積層用于根據(jù)局部輸入xi的序列生成特征圖,表示為ct,通過(guò)過(guò)濾器wt。
每個(gè)本地輸入是一組h個(gè)連續(xù)字。
⊕是串聯(lián)運(yùn)算符,σ是ReLU函數(shù)。
然后,最大時(shí)間池化操作應(yīng)用于獲得的特征圖以進(jìn)行降維,即? ct = max {ci t} n-h + 1 i = 1。
最后,可以通過(guò)t = Wt tct + bt獲得新聞文本的表示形式,其中wherect∈Rg,g是選擇的不同窗口大小數(shù);
為了表示新聞圖像,使用Text-CNN和附加的完全連接層,同時(shí)首先使用預(yù)先訓(xùn)練的image2句子模型處理新聞內(nèi)容中的視覺(jué)信息。
新聞視覺(jué)信息的最終表示:
2.模態(tài)獨(dú)立的假新聞?lì)A(yù)測(cè)
正確地將新聞內(nèi)容的提取的文本和視覺(jué)特征映射到其被偽造的可能性.
為了讓計(jì)算出來(lái)的假新聞可能性接近其真實(shí)標(biāo)簽,定義了基于交叉熵的損失函數(shù).
3.跨模式相似性提取
通過(guò)稍微修改余弦相似度來(lái)定義新聞文本信息和視覺(jué)信息之間的相關(guān)性,可以保證Ms(t,v)為正且∈[0,1]。
然后,可以按如下定義基于交叉熵的損失函數(shù),即假設(shè)從純相似性進(jìn)行分析時(shí),與文本和圖像信息匹配的新聞相比,文本和視覺(jué)信息不匹配的新聞更容易被偽造。
4.模型整合與聯(lián)合學(xué)習(xí)
當(dāng)檢測(cè)到虛假新聞時(shí),主要是在正確識(shí)別虛假的新聞,這些虛假的新聞在文本和/或視覺(jué)信息中,或者它們之間的關(guān)系中。 為了涉及這兩種情況,將最終損失函數(shù)指定為.
α和β用于分配提取的多峰特征(α)和跨峰相似度(β)之間的相對(duì)重要性。
4.優(yōu)化過(guò)程以學(xué)習(xí)模型參數(shù)
更新θp,其中γ為學(xué)習(xí)率,即L w.r.t的偏導(dǎo)數(shù)。
更新θp等效于每次迭代中更新Wp和bp
Wp,L表示W(wǎng)p的前d列,
Dt是一個(gè)入口值為 的對(duì)角矩陣。
Experiments
實(shí)驗(yàn)是在兩個(gè)公認(rèn)的假新聞檢測(cè)公共基準(zhǔn)數(shù)據(jù)集上進(jìn)行的,分別來(lái)自PolitiFact和GossipCop,PolitiFact(politifact.com)是美國(guó)著名的非盈利性的政治陳述和報(bào)告真相檢查網(wǎng)站。 GossipCop(gossipcop.com)是一個(gè)網(wǎng)站,用于檢查雜志和報(bào)紙上發(fā)布的名人報(bào)道和娛樂(lè)故事。
LIWC是一個(gè)廣泛接受的心理語(yǔ)言詞典。 給定一個(gè)新聞故事,LIWC可以對(duì)文本中的單詞進(jìn)行計(jì)數(shù),這些單詞屬于80多種語(yǔ)言,心理和主題類別中的一個(gè)或多個(gè)。
VGG-19是一種廣泛使用的CNN,具有19層圖像分類。
att-RNN是適用于多模式假新聞檢測(cè)的深度神經(jīng)網(wǎng)絡(luò)模型。它采用具有關(guān)注機(jī)制的LSTM和VGG-19來(lái)融合新聞文章的文本,視覺(jué)和社交上下文功能。
– SAFE \ T:不使用文本信息;
– SAFE \ V:不使用視覺(jué)信息;
?– SAFE \ S:不捕獲新聞文本和視覺(jué)信息之間的關(guān)系(相似性)。在這種情況下,通過(guò)將每個(gè)新聞文章的提取的多模式特征進(jìn)行合并來(lái)融合它們;
– SAFE \ W:僅評(píng)估文本和視覺(jué)信息之間的關(guān)系時(shí)的建議方法。在這種情況下,分類器與交叉模態(tài)相似性提取模塊的輸出直接相連。
將學(xué)習(xí)率設(shè)為10?4,將迭代次數(shù)設(shè)為100,并將步幅(H)設(shè)為{3,4}。
使用準(zhǔn)確性,準(zhǔn)確性,召回率和F1分?jǐn)?shù)來(lái)評(píng)估表示和預(yù)測(cè)的效果。在預(yù)測(cè)假新聞時(shí),基于兩個(gè)數(shù)據(jù)集的準(zhǔn)確性值和F1分?jǐn)?shù),SAFE的表現(xiàn)可超過(guò)所有基線。
模塊分析表中列出了SAFE及其變體的性能。在預(yù)測(cè)假新聞時(shí);整合新聞文本信息,視覺(jué)信息及其關(guān)系(SAFE)在所有變體中效果最好;使用多模式信息(SAFE \ S或SAFE \ W)比使用單模式信息(SAFE \ T或SAFE \ V)要好。
將α和β的值分別從0更改為1,步長(zhǎng)為0.2。對(duì)于兩個(gè)數(shù)據(jù)集,各種參數(shù)值都導(dǎo)致SAFE的準(zhǔn)確性(或F1score)介于0.75至0.85(或0.8至0.9)之間。當(dāng)PolitiFact中的α:β= 0.4:0.6和GossipCop中的α:β= 0.6:0.4時(shí),所提出的方法表現(xiàn)最佳。
對(duì)于一??些虛構(gòu)的故事,文本和視覺(jué)信息之間存在差距,一般出于兩個(gè)原因。
首先,很難通過(guò)非操縱的圖像來(lái)支持這樣的故事。圖5(a)中是一個(gè)示例,其中實(shí)際上沒(méi)有與投票和票據(jù)相關(guān)的圖像。
與具有真正親密關(guān)系的夫妻相比(見(jiàn)圖6(c)),假冒的夫妻通常擁有稀有的集體照或使用拼貼畫(見(jiàn)圖5(c))。
其次,使用“吸引力”但不密切相關(guān)的圖像可以幫助增加新聞流量。例如,圖5(b)中的虛假新聞包括帶有笑容的個(gè)體與死亡故事相沖突的圖像。
總結(jié)
以上是生活随笔為你收集整理的SAFE: Similarity-Aware Multi-Modal Fake News Detection-学习笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: windows7台式电脑怎么连接路由器
- 下一篇: 对付路由器有妙招-如何去掉路由器