【论文翻译 假新闻检测综述 HICSS 2019】Can Machines Learn to Detect Fake News? A Survey Focused on Social Media
論文題目:Can Machines Learn to Detect Fake News? A Survey Focused on Social Media
論文來源:HICSS 2019,Proceedings of the 52nd Hawaii International Conference on System Sciences
論文鏈接:https://www.researchgate.net/publication/330364905_Can_Machines_Learn_To_Detect_Fake_News_A_Survey_Focused_on_Social_Media
關鍵詞:假新聞檢測,社交媒體,機器學習,綜述
個人感覺這篇綜述沒有KDD 2017這篇好。
 這篇翻譯也不是全都翻譯的,個人認為有一些意義不大的部分就沒有翻譯。
文章目錄
- 1 摘要
 - 2 引言
 - 3 Theoretical Reference
 - 3.1 發布者(Publisher)
 - 3.2 內容(content)
 - 3.3 Extra media
 - 3.4 假新聞的定義和其對社會的影響
 
- 4 社交媒體
 - 5 機器學習
 - 5.1 公開數據集和挑戰
 - 5.2 預處理
 - 5.3 NLP特征
 - 5.4 社交和內容特征
 - 5.5 模型
 
- 6 挑戰和未來研究方向
 - 7 總結
 - 參考文獻
 
1 摘要
本文參考了過去5年的關于社交媒體假新聞檢測的論文,目的是了解假新聞檢測的SOTA,找到解決此任務的最好的機器學習方法。
我們發現,目前最常用的假新聞自動檢測方法并不是使用了單一的經典的機器學習技術,而是通過神經網絡協調的經典技術的融合。
2 引言
本文基于過去5年發表的論文研究,綜合考慮了處理假新聞問題的不同角度。本文對假新聞檢測的機器學習方法進行了調研,聚焦于不同方法和技術的特性,以及用于檢測假新聞和檢測機器人的概念上的模型。
本文還給出了虛假信息、騙局、假新聞的定義,系統地回顧了使用機器學習和NLP技術檢測這些信息的方法。
最后總結概括了當前實現自動檢測假新聞的方法的研究挑戰。
3 Theoretical Reference
相關定義。
3.1 發布者(Publisher)
本文將發布者定義為向公眾提供某一故事的實體。例如,發布者可以是Twitter的用戶,可以是網上報紙的記者,或者是他自己網站的組織者。值得注意的是,發布者可能是也可能不是某一故事的作者。
若發布者是作者的話,可基于他對假信息的意圖對其進行分類;若發布者不是作者,只是故事的傳播者,可將其分類為機器人或正常的用戶。
3.2 內容(content)
內容是發布者在故事中提供的主要信息部分。當發布者發布消息的瞬間,這一信息的真實性可能是真、假或未知的。如果真實性未知,則可分類為謠言。
信息也可以分類為事實、觀點或兩者的混合。基于觀點的信息和事實相比沒有確定的真假。事實的內容通常是發布者的claim。claim的真實性檢測被稱為自動事實驗證(automated fact-checking)。
3.3 Extra media
除了內容以外,故事也可能包含其他的媒體,例如圖像、視頻、音頻。如果用到的媒體和內容無關,則可能會加強讀者要閱讀內容的欲望,這就是標題黨現象。
3.4 假新聞的定義和其對社會的影響
本文使用的假新聞的定義為:故意被創造出來的新聞文章且已證實為假。
有些學者認為機器人(bots)不利于信息的復原過程,因為它們加劇了錯誤信息的傳播。但也有研究表明,機器人不僅可以加劇錯誤信息的傳播,同時也可以加劇真實信息的傳播。也就是說,機器人不是錯誤信息的傳播者,只是信息的傳播者,它們對信息沒有偏好,只是加劇了任意類型的信息的傳播。
4 社交媒體
絕大多數工作使用社交媒體作為分析的主要來源。原因有:1)社交媒體的流行;2)這些平臺通常會提供API,方便數據的獲取;3)大多數報紙太嚴謹了,而且反應的是普遍的政治觀點,社交網絡上各種各樣的人們都可以發表個人的觀點;4)很少有報紙發布假新聞或謠言。已經有一些社交媒體采取了措施來阻止假新聞的傳播。
5 機器學習
本節將介紹不同種類的模型、預處理技術和使用到的數據集。
5.1 公開數據集和挑戰
2017年有兩個公開的挑戰被提出:RumorEval和Fake News Challenge。前者有兩個子任務,一個是對新聞回復的立場檢測,另一個是對新聞真假進行分類。后者是對新聞進行立場檢測,將新聞的回復分為同意、不同意、討論和不相關。
有一些網站可以進行人工的事實核查,最流行的是snopes.com和factcheck.org。也有一些網站檢查特定領域的新聞真實性,例如政治領域的politifact.com。也有一些網站為了搞笑、批判等,發布明顯虛假的新聞,例如theonion.com。事實核查可以作為新聞真假的ground turth。
Wang等人提出了LIAR數據集,由公共人物的聲明組成,并從polifact.com網站上標注了其真實性。Zubiaga等人提出了謠言數據集PHEME,該數據集將推文分組成謠言流,并將它們和新聞事件關聯起來。
5.2 預處理
一些工作聚焦于通過拓撲探索來自動檢測謠言流的起始點。Sahana等人提出算法來解決這一問題[1],找到謠言新聞的起始點。他們還發現了這類推文的關鍵特征,并在未來的工作使用這些特征對推文進行預先的聚類,加速了虛假信息的分類。
5.3 NLP特征
許多文獻使用情感分析對新聞的極性進行分類[2~6],有的使用情感詞典,有的使用情感分析作為最終分類器的特征,使用HMM或人工神經網絡來推斷出情感。
基于語法(syntax)的技術相對較少,大多數論文主要使用句法解析(parsing)、pos-tagging和命名實體類型。使用語義的方法較為普遍。也有許多論文使用詞典作為外部知識,根據感興趣的屬性創建單詞列表。例如,宣誓有關的單詞、主觀的單詞和情感單詞的詞典。經常使用的詞典有WordNet和LIWC(Linguist Inquiry and Word Count)。
在假新聞檢測領域另一個使用到語義的方法是語言模型的使用。一些論文使用n-grams作為baselines,與他們提出的手工選取的特征作比較。也有人使用n-grams作為分類器的特征。最近的兩篇論文[3, 7]使用詞嵌入進行語言建模,主要是使用無監督學習來構建分類器。
5.4 社交和內容特征
對于分類器中使用到的特征,我們基于這些特征的來源對其進行分類:1)基于社交媒體屬性(#likes, #retweets, #friends)的特征;2)基于新聞內容的特征(標點, 詞嵌入, 單詞的情感極性)。
如文獻[8]中所說,許多經典的分類算法主要聚焦于語言學的角度。但是也有一些新方法在相同的內容上聚合了不同的特征以得到更好的效果。例如網絡拓撲分析模型(Network Topology Analysis Models)和人工神經網絡(Artificial Neural Networks),從社交網絡預定義的數據結構中發掘出用戶間的連接和其他的元信息。
也有一些作者提出通過分析社交網絡上用戶間的交互行為來對信息的真實性進行分類。隨著web2.0的發展以及群體智慧的發展,可以從社交網絡用戶間的交互中利用群體智能,用于假信息的檢測。
有學者提出了Ant 算法,Ant算法的工作方式很像蟻群。新聞中噴灑了信息素,在獲取的數據附近存在信息素,算法一直運行到信息素蒸發,不斷預測和更新其錯誤率,直到信息素全部蒸發。該算法只將新聞分類為正類或負類。
與其他經典方法、啟發式算法等相比,該方法的誤差率較低,是最優的。作者認為通過修改其分類函數,可以將其用在檢測假新聞、hoax、謠言和虛假信息上。這是因為大多數處理假新聞檢測的工作依賴于交互分析,并且這一算法已被證明在此任務上比經典方法有效,盡管它的實現會更加復雜。
5.5 模型
研究學者并沒有使用簡單經典的學習模型,如樸素貝葉斯、決策樹和SVM等,而是將這些方法結合以得到更準確更復雜的模型。
為了實現這些組合,學者們使用近些年流行的模型——人工神經網絡(ANN)。
6 挑戰和未來研究方向
多模分類器:大多數新聞將視頻、圖片等媒體嵌入在了新聞內容中,但是有可能這些媒體和內容無關,也就是標題黨。有工作就聚焦于通過分析模因(memes)對推文進行分類,還可以對反復出現的術語進行預標注,這可能有助于假信息的檢測。
另一個挑戰是:推文真實意圖的不確定性。社交網絡上的帖子存在隱喻、委婉語和諷刺等語言資源,因此對于人類讀者來說很容易理解帖子的意圖。但是機器很難去區分這些語言形式,只是對其進行標記或分類,或者是使用預定義的詞典或預分類的術語對其進行交叉核查。因此,對于推文意圖的消歧,在未來值得繼續研究。
7 總結
文獻[3]提出了使用文本、社交、圖像想你想資源的基于注意力的ANN模型,并將其應道到了twitter和Weibo數據集,取得了75%的準確率。
作者認為使用社會信息傳播作為預處理步驟,非常有助于后續工作的開展,這是因為預處理可以發現課增強分類能力的關鍵特征,有助于發現傳播的起始點和謠言傳播者的預標注,還有助于從帖子中實體到外部上下文元素的映射。
檢測假信息的受歡迎的方法主要是機器學習方法。涉及組合分類器的方法實際上是神經網絡和經典分類算法的結合,重點詞匯條目作為用于預測的主要特征,還可以使用外部的上下文信息(例如 帖子的拓撲分布,用戶信息和social media metrics等)作為模型的初步流程步驟,以提高模型的性能。
文獻提出的方法中,NLP方法更多的是被當做初步的步驟而不是一個解決方案。
機器人的使用可以看成是信息傳播的催化劑,目的可能是好的也可能是壞的。當然,在未來的工作中,有很多方法可以改進它們的信息驗證特性,但這需要對我們在條目拓撲分析中看到的外部上下文元素進行大量的預處理。
作者認為當前的處理假新聞自動檢測的SOTA方法是在機器學習技術上使用網絡分析的方法。
參考文獻
[1] Sahana V P, A. R. Pias, R. Shastri, and S. Mandloi, “Automatic detection of rumoured tweets and finding its origin,” pp. 607–612, IEEE, Dec. 2015.
[2] J. A. Ceron-Guzman and E. Leon-Guzman, “A Sentiment Analysis System of Spanish Tweets and Its Application in Colombia 2014 Presidential Election,” pp. 250–257, IEEE, Oct. 2016.
[3] Z. Jin, J. Cao, H. Guo, Y. Zhang, and J. Luo, “Multimodal Fusion with Recurrent Neural Networks for Rumor Detection on Microblogs,” pp. 795–816, ACM Press, 2017.
[4] N. Hassan, F. Arslan, C. Li, and M. Tremayne, “Toward Automated Fact-Checking: Detecting Check-worthy Factual Claims by ClaimBuster,” pp. 1803–1812, ACM Press, 2017.
[5] S. Vosoughi, M. . Mohsenvand, and D. Roy, “Rumor Gauge: Predicting the Veracity of Rumors on Twitter,” ACM Transactions on Knowledge Discovery from Data, vol. 11, pp. 1–36, July 2017.
[6] J. Ross and K. Thirunarayan, “Features for Ranking Tweets Based on Credibility and Newsworthiness,” pp. 18–25, IEEE, Oct. 2016.
[7] A. P. B. Veyseh, J. Ebrahimi, D. Dou, and D. Lowd, “A Temporal Attentional Model for Rumor Stance Classification,” pp. 2335–2338, ACM Press, 2017.
[8] N. J. Conroy, V. L. Rubin, and Y. Chen, “Automatic deception detection: Methods for finding fake news,” in Proceedings of the 78th ASIS&T Annual Meeting: Information Science with Impact: Research in and for the Community, ASIST ’15, (Silver Springs, MD, USA), pp. 82:1–82:4, American Society for Information Science, 2015.
總結
以上是生活随笔為你收集整理的【论文翻译 假新闻检测综述 HICSS 2019】Can Machines Learn to Detect Fake News? A Survey Focused on Social Media的全部內容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: unity 游戏开发之路(一)
 - 下一篇: java基础面试题及答案