微软提出新AI框架MWSS,假新闻识别率优于最先进的基准
不久前,微軟和亞利桑那州立大學(xué)的研究人員在預(yù)印本平臺 arxiv.org 上發(fā)表了一項研究論文,他們提出了一種人工智能框架: Multiple sources of Weak Social Supervision(MWSS),利用參與度和社交媒體信號來檢測假新聞。他們聲稱,經(jīng)過在真實數(shù)據(jù)集上訓(xùn)練和測試,該模型在假新聞早期檢測方面的表現(xiàn)優(yōu)于一些最先進的基準(zhǔn)。
如果該系統(tǒng)的正確率真的如作者聲稱的那樣,并投入生產(chǎn),它將有助于阻斷虛假和誤導(dǎo)性信息的傳播,這些信息涉及美國總統(tǒng)候選人和其他有爭議的話題。布魯金斯學(xué)會(Brookings Institute)在 2018 年進行的一項調(diào)查發(fā)現(xiàn),57% 的美國成年人在 2018 年大選期間曾遇到假新聞,19% 的人認為假新聞影響了他們的投票決定。
該論文的共同作者解釋說,學(xué)術(shù)文獻中的許多假新聞分類器依賴的信號需要很長時間才能聚合,這使得它們不適用于假新聞的早期檢測。此外,有些分類器僅僅依賴于信號,而這些信號容易受到有偏見或不真實的用戶反饋的影響。
相比之下,他們的新系統(tǒng)從多個來源進行監(jiān)督,包括用戶和他們各自的社交活動。具體來說,它利用少量手動標(biāo)簽的數(shù)據(jù)和大量弱標(biāo)簽的數(shù)據(jù)(即帶有大量噪聲的數(shù)據(jù)),用于元學(xué)習(xí)人工智能框架中的聯(lián)合訓(xùn)練。
一個名為 Label Weighting Network(LWN)的模塊,對調(diào)節(jié)假新聞分類學(xué)習(xí)過程的弱標(biāo)簽的權(quán)重進行建模,將研究人員所指的內(nèi)容作為一個實例——例如 (新聞片段)以及標(biāo)簽作為“輸入”。它為“表示對”輸出一個代表重要性權(quán)重的值,該值決定了該實例在訓(xùn)練假新聞分類器時的影響。為了在不同的弱信號之間共享信息,共享特征提取器與 LWN 一起工作,來學(xué)習(xí)共同的表示方法,并使用函數(shù)將特征映射到不同的弱標(biāo)簽源。
微軟人工智能框架與各種基準(zhǔn)模型的性能對比圖
微軟研究人員利用開源的 FakeNewsNet 數(shù)據(jù)集對他們的系統(tǒng)進行了基準(zhǔn)測試,該數(shù)據(jù)集包含新聞內(nèi)容(包括正文等元屬性),并帶有來自事實核查網(wǎng)站 GossipCop 和 PolitiFact 的專家注釋的標(biāo)簽,同時還包含了社交背景信息,如有關(guān)該新聞文章的推文。他們使用 13 個來源的語料庫對系統(tǒng)進行增強,其中包括英國主流新聞媒體,如英國廣播公司(BBC)和天空新聞(Sky News),以及俄羅斯新聞媒體的英文版,如 RT 和 Sputnik,內(nèi)容大多與政治有關(guān)。
為了生成弱標(biāo)簽,研究人員測量了分享新聞的用戶的情感評分,然后確定這些得分之間的差異,這樣,情緒差異很大的文章就會被注釋為假新聞。他們還生成了一組具有已知公眾偏見的人群的數(shù)據(jù),并根據(jù)用戶的興趣與這些人群的匹配程度來計算得分,其背后的理論是,有偏見的用戶分享的新聞更有可能是假新聞。最后,他們根據(jù)社交媒體上的元信息對用戶進行聚類,以此來衡量用戶的可信度。這樣一來,那些形成大型聚類的用戶(這可能表明是僵尸網(wǎng)絡(luò)或惡意活動)的用戶就被認為可信度較低。
在測試中,研究人員表示,性能最好的模型結(jié)合了 Facebook 和RoBERTA自然語言處理算法,并針對干凈和弱數(shù)據(jù)的組合進行了訓(xùn)練,在 GossipCop 和 PolitiFact 中檢測出假新聞的正確率分別為 80% 和 82% 。
該團隊計劃在未來的工作中探索其他技術(shù),如獲得高質(zhì)量的弱標(biāo)簽的標(biāo)簽校正方法。他們還希望對這個框架進行擴展,以考慮來自社交網(wǎng)絡(luò)的其他類型的弱監(jiān)督信號,利用參與的時間戳。
當(dāng)然,這些研究人員并非唯一試圖利用人工智能來阻斷假新聞傳播的人。
在最近的一項研究中,麻省理工學(xué)院計算機科學(xué)與人工智能實驗室開發(fā)了一種人工智能系統(tǒng),可以識別誤導(dǎo)性的新聞文章。去年年底,Jigsaw 發(fā)布了Assembler,這是一款為媒體機構(gòu)提供的人工智能假新聞識別工具套件。AdVerif.ai 是一個軟件即服務(wù)的平臺,去年推出了 Beta 測試版,它分析文章中的錯誤信息、成人內(nèi)容、惡意軟件和其他有問題的內(nèi)容,并交叉引用一個定期更新的數(shù)據(jù)庫,其中包含數(shù)千條假新聞和合法新聞。就 Facebook 而言,它已經(jīng)試驗了部署人工智能工具來“識別賬戶和假新聞”。
作者簡介:
Kyle Wiggers,技術(shù)記者,現(xiàn)居美國紐約市,為 VentureBeat 撰寫有關(guān)人工智能的文章。
原文鏈接:
https://venturebeat.com/2020/04/10/ai-training-helps-remote-controlled-buggy-negotiate-rugged-terrain/
總結(jié)
以上是生活随笔為你收集整理的微软提出新AI框架MWSS,假新闻识别率优于最先进的基准的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: GitHub 已完成对 npm 的收购
- 下一篇: 诺基亚6300联网,诺基亚6300上网新