【NLP】万字长文带你解读『虚假新闻检测』最新进展
NewBeeNLP原創出品?
公眾號專欄作者?@byn??
blog |?https://blog.csdn.net/byn12345
互聯網時代,假新聞鋪天蓋地,而且極具迷惑性,因此假新聞檢測任務對邏輯的判斷,以及常識的學習都需要很高的要求。今天和大家分享『虛假新聞檢測』相關研究進展,包括創新點、改進點等
1 Bi-GCN
關鍵詞:傳播網絡,GCN,謠言檢測,早期檢測
論文題目:Rumor Detection on Social Media with Bi-Directional Graph Convolutional Networks
論文來源:AAAI 2020
arxiv訪問不方便的同學后臺回復『0007』直接獲取paper
本文解決的問題是「謠言檢測」,提出了「Bi-GCN」模型,并且實驗結果顯示該模型在「謠言的早期檢測」中也起到了很好的效果。
數據集
Weibo[1]
Twitter15[2]
Twitter16[2]
本文的亮點和要點
(1)「第一個」使用「基于GCN的方法」進行了謠言檢測任務。
(2)和以往方法不同的是,模型考慮到了「自頂向下」的謠言傳播(propagation)結構,和「自底向上」的來自不同社區的謠言散布(dispersion)結構。具體表現為Bi-GCN由TD-GCN(top-down GCN)和BU-GCN(bottom-up GCN)兩個組件所構成。以往的方法大多只使用到了自頂向下的謠言傳播結構。有基于CNN的方法考慮到了散布結構,但是由于其不能處理圖結構的數據,因此不能捕獲全局的結構信息。
(3)模型還使用到了「根源帖子特征的增強」。具體來說是在GCN每層GCL中,對于每個節點,將根源帖子在上一層的隱層特征表示和節點在該層的隱層特征表示向拼接起來,作為節點在該層的最終隱層特征表示。這種方法增強了謠言根源帖子對于學習到其他帖子節點表示的影響力,可幫助模型學習得到更有助于謠言檢測的節點表示。
(4)還使用到了較新的「DropEdge」方法,以緩解基于GCN的模型的過擬合問題。
思考
本文模型是針對謠言傳播網絡建模的,構建的圖中只有帖子的信息和帖子間的關聯信息,是個同質圖。后續能不能考慮利用上用戶和帖子的關系,以及用戶間的關系,建模成一個異質圖,然后在此基礎上使用基于GNN的方法,進行謠言檢測任務。
2 Capturing the Style of Fake News
關鍵詞:寫作風格,特征,LSTM,假新聞檢測
論文題目:Capturing the Style of Fake News
論文來源:AAAI 2020
arxiv訪問不方便的同學后臺回復『0008』直接獲取paper
本文的「目的」是基于文檔內容,檢測出寫作風格,而不側重于文檔含義,從而實現假新聞的自動檢測。通用的文本分類器,盡管在簡單評估時看起來性能很好,但實際上會過擬合訓練數據中的文本。
設計了「兩個新的分類器」:一個神經網絡和一個基于風格特征的模型。
作者將本文的方法和通用目的的分類器(bag of words, BERT)進行了對比,評估結果表明,所提出的分類器在未見過的主題(例如新事件)和未見過的來源(例如 新出現的新聞網站)的文檔中都保持了較高的準確性。對風格模型的分析顯示,它確實側重于了聳人聽聞(sensational)和情感(affective)的這類典型的假新聞詞匯。
數據集
為了實現真正的基于風格的預測,作者從媒體專家標注的223個在線資源中獲取了103,219個文檔,共117M個tokens。
數據集和代碼已公開:https://github.com/piotrmp/fakestyle
已有方法的問題
已有的機器學習方法,使用了通用目的的文本分類器算法。不足在于,這樣的方法讓我們不能直接控制可信度評估具體是基于哪些特征的。作者希望分類器有可解釋性:即能知道對于特定的決策,哪些特征是重要的;并且分類器還應具備泛化能力。
已有的方法受限于可獲得的數據量,會導致對特定主題或來源的數據的過擬合。
本文的亮點和要點
為了對來源間topic的不同進行建模,使用LDA建模了100個topic。將每個文檔都分配到其相關度最高的topic。
「(1)基于風格的分類器」
使用風格特征的集合,進行線性建模。
1)使用POS tags的n-grams而不是單詞的n-grams,以避免使用讓分類器對特定的來源或主題過擬合的特征。
2)在風格分析中使用字典,例如用于假新聞檢測的LIWC[3]和用于hyperpartisan新聞識別的GI[4]。作者采用word2vec方法對這些資源里每個類別的單詞選取相似的單詞,以實現對字典的擴展。
3)使用Stanford CoreNLP對文檔進行預處理,例如句子分割、tokenisation和POS tagging。并利用標注信息生成文檔特征。
4)使用兩階段的方法檢測相關的特征:首先preliminary filtering,然后building a regularised classifier。
在過濾階段,作者使用Pearson相關度和輸出變量。首先,觀察特征是否出現在了文檔中,并得到一個binary matirx。以往的方法過濾掉了出現在較少文檔(低于2.5%或10%)中的特征。但這些低頻特征也可能很重要,只要它們出現在的大部分文檔都屬于同一類別。因此,作者引入了類別標簽,并考慮了標簽和binary matirx中每個特征的相關度大于0.05的特征。
構建了一個logistic regression模型,以得到文檔屬于不可信類別的概率。使用了正則化。
「(2)神經網絡分類器BiLSTMAvg」
BiLSTMAvg是一個神經網絡,基于NLP中使用的元素,例如詞嵌入、Bi-LSTM。在LSTM的基礎上,添加一個額外層,對所有句子的可信度得分進行平均以得到整個文檔的得分。神經網絡結構如下:
嵌入層:在Google News上進行訓練,為每個token得到word2vec向量;
兩層LSTM:前向和反向,使用兩個100維向量表示每個句子;
densely-connected層:將維度減少為2并應用softmax計算類別概率;
平均層:對文檔中所有句子的類別概率分值求平均,以得到整個文檔的得分。
「(3)作者在實驗時采用了5-fold交叉驗證(CV),并且設置了三種不同的場景」
分別是plain document-based CV, topic-based CV和source-based CV。這樣就可以評估模型在訓練時沒出現過的topic或source上的性能。
思考
(1)文章提出了兩個模型,其一是BiLSTMAvg,其二是Stylometric。只有后者運用到了和風格有關的特征。而且在實驗對比中,source CV情境下,BiLSTMAvg的效果要好于Stylometric。但是作者只具體分析了基于風格的Stylometric方法對不同來源的數據分類性能。
(2)我認為本文中所說的風格體現在詞級別上,是否可以考慮更粗粒度的級別,或者更抽象一些的方面。
(3)作者提出了3個評估場景,未來可以考慮其他的更多的評估場景。
(4)本文是利用文檔的風格,為新聞的可信度進行打分,從而檢測出假新聞,可以歸為content-based類的方法。文章的角度很有新意,針對以往的通用分類模型在信息來源和相關主題上會有過擬合現象,因此設計了有現實意義的評估場景(3個CV),以衡量可信度評估方法的性能。在社交網絡上的假新聞檢測,可以考慮將風格信息和社交網絡上下文的信息相結合。
3 WeFEND
關鍵詞:訓練數據,強化學習,眾包信號(crowd signal),假新聞檢測
論文題目:Weak Supervision for Fake News Detection via Reinforcement Learning
論文來源:AAAI 2020
arxiv訪問不方便的同學后臺回復『0009』直接獲取paper
本文為了解決高質量的及時的且有標注的新聞數據獲取問題,以用于盡早檢測出假新聞,提出增強的弱監督假新聞檢測框架WeFEND。該模型利用了用戶的反饋作為弱監督來增加用于假新聞檢測的訓練數據。
「模型由3個主要部分組成」:標注器,增強的選擇器和假新聞檢測器。標注器可以基于用戶的反饋,自動地為未標注的新聞分配弱標簽。增強的選擇器使用了強化學習技術,從被弱標注的數據中選擇高質量的樣本,過濾掉可能會降低檢測器性能的低質量樣本。假新聞檢測器目的是基于新聞內容識別出假新聞。
數據集
微信官方賬號發布的新聞文章,以及其對應的用戶反饋信息。
數據集:https://github.com/yaqingwang/WeFEND-AAAI20
已有方法的不足
「(1)基于社交上下文的特征」:利用了社交媒體上用戶對新聞的行為,例如轉發、網絡結構等。但是這些社交上下文的特征只能在一段時間后才能獲得,不能用于及時地檢測出新出現的假新聞。
「(2)基于新聞內容的特征」:對于傳統的機器學習方法,人工設計特征很難。使用深度學習的模型沒有這個問題,但是其性能受訓練數據規模的限制,缺少新鮮高質量的樣本用于訓練。
「(3)現有的引入眾包信號的方法」:從用戶標記為是潛在假新聞的樣本中,選擇一部分交付給專家進行確認,相當于仍需要人工標注,并且沒有考慮到有價值的評論反饋信息。
文章的亮點和要點
本文針對的是假新聞檢測訓練數據獲取問題,提出了WeFEND模型,以自動標注新聞文章,增加訓練集的數據規模,從而有助于假新聞檢測的深度學習模型性能的提高。
「動機是」:人工標注費時費力,并且通常不能及時地對新聞數據進行標注。訓練數據限制了深度學習模型的性能。
「主要思想是」:將用戶對新聞的反饋(如 評論)視為弱標注信息,收集大量的用戶反饋信息有助于緩解假新聞檢測領域的有標簽數據較少的問題。
「面臨的問題是」:用戶的反饋信息有噪聲,如何將這種弱標注信息轉換為訓練集中的標注樣本,如何選擇高質量的樣本。
「WeFEND模型的流程是」:
(1)標注器:首先使用給定的一小組有標簽的假新聞樣本和用戶對這些新聞的反饋,基于反饋訓練一個標注器。具體來說是先使用文本特征抽取器,從新聞的用戶反饋信息中抽取出特征;然后再輸入給聚合函數,聚合不同用戶的反饋信息;最后經過一個全連接層,得到預測概率。使用訓練后的標注器處理未標注的新聞,基于未標注新聞的用戶反饋,為未標注的新聞分配弱標簽;
(2)增強的選擇器:使用強化學習技術,從弱標注的樣本中選擇高質量的樣本,并將其作為假新聞分類器的輸入。選擇的標準是增加所選的樣本是否能提高假新聞檢測的性能。;
(3)假新聞分類器:基于新聞的內容,為每個輸入的文章分配一個標簽。
「文章的亮點在于」:
(1)為了及時地得到大量有效的標注樣本,提出利用用戶對新聞的反饋信息作為弱監督信息,為未標注的新聞樣本標注上弱標簽。考慮到用戶反饋信息含有噪聲,因此提出使用強化學習技術對自動標注的樣本進行選擇,選取高質量的樣本添加到訓練集中。
(1)進行了多樣的實驗:
1)在實驗中比較了不同時間窗口下的特征表示不同以及模型性能的不同,證明了新聞的分布具有動態性,因此說明了應該及時標注和新出現事件相關的新聞。
2)實驗證明了用戶反饋信息的有效性,使用這一信息,標注器在相同和不同時間窗口對應的數據上,有著相似的表現。并且用戶反饋信息的特征不具有隨時間變化的動態性。
3)訓練集和測試集的數據在時間上并不相交,因此可以驗證模型對新鮮數據進行分類的效果。
思考
(1)標注器部分對同一篇新聞的所有用戶評論信息進行了聚合,作者使用的是平均操作作為無序的聚合函數。是否可以考慮在聚合時使用注意力機制。
(2)在人工標注時僅根據標題(headline)信息,因此模型中也是僅使用標題作為輸入數據,而沒有考慮新聞文章具體內容。
(3)個人感覺這篇論文的實驗做得很好,尤其是通過實驗,對新聞的分布是否隨時間變化以及為什么要使用用戶反饋信息做出了有說服力的解釋。
4 Proactive Discovery of Fake News Domains from Real-Time Social Media Feeds
關鍵詞:實時,社交網絡,主動發現,圖,社交網絡賬號,假新聞來源檢測
論文題目:Proactive Discovery of Fake News Domains from Real-Time Social Media Feeds
論文來源:WWW 2020
arxiv訪問不方便的同學后臺回復『0010』直接獲取paper
本文解決的問題是假新聞新來源的主動檢測,目的是在假新聞被人工標注前將其識別出來,以最小化假新聞的有害影響。本文是第一個研究及時發現假新聞來源的工作。
利用了無標注但有結構的實時社交媒體數據,檢測系統以域(domain)為檢測單元。假新聞域的定義是:捏造信息、散布欺騙性的內容或嚴重歪曲實際新聞的網站。
系統一共分為兩步:1)使用Twitter來發現用戶共享結構以發現政治有關的網站;2)使用topic-agnostic分類器打分并排序新發現的領域。
作者還設計了用戶界面,利用用戶的知識,有助于促進事實核查過程。
數據集
使用的訓練集是文獻[5]中的使用的PoliticalFakeNews。7,136 pages from 79 fake sites, and 7,104 pages from 58 real sites
評估時使用MediaBiasFactCheck(MBFC)提供的有限的標簽ground truth去近似global ground truth。Github上有MBFC發布和更新的所有有標簽的域(domain)。
https://raw.githubusercontent.com/drmikecrowe/mbfcext/master/docs/revised/csources.json
文章的亮點和要點
作者認為覆蓋了相似話題的域(domain),可能被相似的用戶tweeted或retweeted(回音壁效應)。
因此,使用了Twitter中的信息基于用戶共享相似度,構建了一個域交互圖(對域聚類)。將每個域映射到發布和該域有關推文的用戶集上。構建了一個無向圖,節點表示一個域,若兩節點對應的用戶集之間的jaccard相似度大于某一閾值,則兩節點間有邊相連。
構建好圖之后,運用算法抽取出網絡中所有的聚類簇。
系統的最后一步是對發現的域進行打分和排序。使用了文獻[5]中提出的topic-agnostic假新聞分類器(TAG),輸出對新聞是假新聞的打分。
本文使用的topic-agnostic分類器[5]捕獲了假新聞網站的寫作風格和布局風格信息,沒有獲得話題信息,因為預測未來新聞的話題是很困難的。并且,網站發布的新聞主題可能每天都在變化,但是網站的風格不會變化地很頻繁。
作者對TAG做出的改進:
1)添加了Quantile Transformer將每個特征轉換為正態分布,這一方法是魯棒的預處理模式,可以減少異常點的影響。
2)識別訓練數據中的異常:丟棄了單詞總數小于200或大于2000的web pages。前者是有404錯誤的網頁,后者是與某一新聞無關的目錄頁。
3)去掉了原始方法中用于捕獲單詞語義模式(生氣 恐懼 高興等)的心理學特征。因為這組特征需要人工處理,不符合本文自動檢測的需求。
TAG分類器將web page作為輸入,得到了page級別的分值,我們還要得到有多個pages的域級別的分值。具體方法是使用custom headliss Chrome爬取器,訪問域主頁,解析HTML內容,隨機選取有相同域的5個超鏈接。針對域的分值就是這5個pages分值的平均值。
關于社交網絡賬號:
1)使用domain-level fakeness分值推斷出account-level fakeness分值。
將賬號最近發布的200個推文的domain-level fakeness分值取平均,作為該賬號的fakeness score。
將此分值和任意獲得到的特征結合,可用于social bot detection, troll detection或sentiment analysis等下游任務。
2)使用Botometer方法檢測了本文收集到的賬號是否是bot的概率,結果證明了絕大部分賬號都是正常的。
3)關于賬號描述
根據賬號的得分將其分為三類:likely to share fake news, might likely to share fake news, not likely to share fake news。并沒有發現這三類賬號在發推數量、朋友數量、關注者數量上分布的區別,但是發現了不同類別的賬號在賬號描述上有所區別。
還發現了不同類別賬號的人口統計特征不同,但這一點還有待進一步的研究。
「本文的亮點」:利用實時社交網絡構建出了域(domain)交互圖,利用該網絡,實現了主動發現假新聞域。系統結合了無監督聚類、有監督預測和用戶交互。(文中所說的域的概念,應該值得是新聞的來源)
思考
本文的局限性:
(1)采樣偏差和選擇偏差
采樣偏差來源于US-centric訓練集。選擇偏差來自于2部分,一個是本文的系統僅聚焦于Twitter,另一個是數據收集過程需要人為輸入關鍵詞,這一操作受主觀因素的影響。
采樣偏差的緩解可使用本文的系統,從事實核查者收集反饋信息。作者也考慮收集不同國家不同語言的fake和real domains。
選擇偏差的緩解可通過從多個社交媒體中收集數據,使用多樣的關鍵詞、hashtags、user handles來捕獲潛在的新聞發布者。例如,從fakeness得分高的賬號那里收集實時的推文,替代特定的關鍵詞。
(2)缺乏統一的數據集和評價框架
數據集:使用以前的數據集是有風險的,因為對手可能恰恰利用相同的數據集來逃避檢測。
評價:評價新發現的域是很耗時的。作者計劃將用戶界面引入到研究社區、事實核查群里和社交媒體公司,以加速標簽的產生。
(3)未來可以利用更多的群體智能知識。
(4)本文構建的域交互圖只是用來做了域聚類,因為本文的目的是檢測新出現的假新聞來源,因此沒有利用到社交網絡中其他更多的信息,例如傳播信息。后續可以考慮針對具體任務,從不同的角度建模圖。
5 dEFEND
關鍵詞:可解釋性,社交網絡,層級注意力機制,共同注意力機制(co-attention),假新聞檢測
論文題目:dEFEND: Explainable Fake News Detection
論文來源:SIGKDD 2019
arxiv訪問不方便的同學后臺回復『0011』直接獲取paper
本文解決的是假新聞檢測模型的可解釋性問題。提出了具有可解釋性的假新聞檢測方法dEFEND。在社交媒體上的假新聞檢測領域,是第一個嘗試提出具有可解釋的模型的研究。
本文利用新聞內容和用戶評論,設計了sentence-comment co-attention subnetwork,聯合捕獲了可解釋的個值得檢查的句子和用戶評論,以用于假新聞檢測。
實驗結果顯示,本文的模型不僅顯著優于7個state-of-the-art假新聞檢測方法,還可以同時識別出個解釋這一新聞為什么是假新聞的用戶評論。
數據集
使用的是假新聞檢測基線數據集:FakeNewsNet[6-7]
本文的亮點和要點
本文要解決的問題是假新聞檢測模型的可解釋性。
「本文解決的挑戰」:
(1)如何實現可解釋的假新聞檢測,并同時提高檢測性能和可解釋性;
(2)在訓練時沒有ground truth的條件下,如何抽取出有解釋性的評論;
(3)如何聯合建模新聞內容和用戶評論間的關系,以 實現有解釋性的假新聞檢測。
「利用了新聞內容和用戶評論信息。檢測框架由以下幾部分組成」:
(1)編碼新聞內容組件:通過層級(word-, sentence-level)注意力神經網絡,捕獲新聞句子中的語義信息和句法信息,學習得到新聞句子的表示。
具體來說分為兩步,首先使用雙向GRU對每個句子中的單詞序列進行編碼,并使用了注意力機制為不同的單詞賦予不同的重要性權重,聚合得到每個句子的表示。然后使用雙向GRU,上一步得到的句子向量表示作為輸入,對一篇新聞中的句子序列進行編碼,以捕獲句子級別的上下文信息。將每個隱層的兩個方向的表示拼接起來,就得到了融合了上下文句子信息的該句子的表示,最終就得到新聞內容的特征矩陣。
(2)編碼用戶評論組件:通過詞級別的注意力子網絡,學習到用戶評論的隱層表示。
和編碼新聞內容組件中的單詞編碼類似,使用雙向GRU,對評論中的單詞序列進行編碼,同樣也使用到了注意力機制。
(3)sentence-comment co-attention組件:捕獲新聞內容和評論間的關聯,并選擇出個有解釋性的句子和評論。
用戶的評論可以提高假新聞檢測的可解釋性,新聞中的句子也可以。新聞內容中也有表達內容是真實的句子,只不過有時會用來支持錯誤的觀點。因此新聞中的句子對于識別和解釋假新聞也同等重要。
因此,將前兩個組件得到的特征作為此組件的輸入,作者設計了注意力機制為不同的新聞句子和評論表示分配權重。注意,這個sentence-comment co-attention機制捕獲了句子和評論的semantic affinity,也同時學習到了句子和評論的注意力權重。使用了轉換矩陣,實現了用戶評論注意力空間到新聞句子注意力空間的轉換。最終使用注意力權重分別聚合評論特征和新聞句子特征,得到評論和新聞句子的最終特征表示。
(4)假新聞預測組件:將新聞內容特征和用戶評論特征相拼接,用于假新聞分類。
「解釋性評估實驗」:
句子解釋性評估:使用ClaimBuster得到新聞句子排序列表的ground truth 。將本文方法選擇出的(k=5或10)rank list和比較,使用作為度量,并于HAN和Random方法對比。結果顯示本文模型效果最好。
用戶評論解釋性評估:使用2個Amazon Mechanical Turk(AMT)任務評估評論排序列表的解釋性。
AMT任務:https://www.mturk.com/
「本文的亮點」:
(1)本文要解決的問題是假新聞檢測模型的可解釋,很有研究意義,提出了具有可解釋性的假新聞檢測模型dEFEND。
(2)使用了層級注意力機制和共同注意力機制(co-attention)。前者在對新聞內容建模時使用,用到了單詞級別的和句子級別的注意力;后者在對新聞內容和評論間關系建模時使用,在捕獲了句子和評論的semantic affinity的同時,也學習到了句子和評論的注意力權重。
思考
「未來工作」:
(1)將事實核查網站或事實核查相關專家的知識合并進來,以進一步指導模型得到check-worthy的新聞句子。
(2)研究如何將其他用戶的社交行為作為副信息引入,以幫助發現可解釋的評論。
(3)考慮發布新聞的人的可信度,以進一步提高假新聞檢測模型的性能。
本文的研究方向很有新意,假新聞檢測的可解釋性是值得進一步研究的方向。這篇文章從新聞中的句子和用戶評論信息入手,給假新聞分類器提供了解釋性。未來可以考慮能否從別的角度出發,處理可解釋性的問題。例如,本文在建模時只考慮了一篇文章,能否利用已經被證實為真/假的其他文章,或者考慮使用由其他可信度非常高的機構發布的和待判斷文章描述事件相似的文章,來為待判斷文章的分類結果提供可解釋性。
References
Detecting rumors from microblogs with recurrent neural networks
Detect rumors in microblog posts using propagation structure via kernel learning
The Psychological Meaning of Words: LIWC and Computerized Text Analysis Methods
The general inquirer: A computer system for content analysis and retrieval based on the sentence as a unit of information
A Topic-Agnostic Approach for Identifying Fake News Pages
FakeNewsNet: A Data Repository with News Content, Social Context and Dynamic Information for Studying Fake News on Social Media.?
Fake News Detection on Social Media: A Data Mining Perspective
總結
以上是生活随笔為你收集整理的【NLP】万字长文带你解读『虚假新闻检测』最新进展的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度技术win11 32位稳定版系统v2
- 下一篇: Win11系统如何恢复隐藏文件