2020第一季度,Facebook公司删掉了960万句“脏话”
圖片來自于《親愛的數據》
文丨《親愛的數據》出品人譚婧
互聯網上每天產生多少句臟話?這是一個謎。但是,從 Facebook 公司 2020 年第一季度的《透明度報告》里,可以窺到一些面貌。
自 2018 年 5 月以來, Facebook 公司以季度為周期發布報告,解釋其辛苦的幕(zi)后(jin)工(tou)作(ru)。在 2020 年第一季度,公司更是成功刪除 960 萬條“臟話”內容。
這是一個創紀錄的數字,高于 2019 年第四季度的 570 萬條,也超過了 2019 年第三季度的 700 萬條。
2020 年第一季度的全球公眾衛生事件,人們有不少壞情緒。
《親愛的數據》出品
“臟話”是簡稱,直白的理解是,偏激、仇視性話語(Hate Speech)。民間臟話、方言臟話、描述部分人體器官、人身攻擊、種族歧視、性別歧視大抵都包括在內,如果有沒有想到的,還望海涵。
每天,打開手機 APP,就看見鍵盤俠“口吐芬芳”,令人大倒胃口。然而,互聯網上臟話的量級,人工刪除是刪不過來的,而且還會誤判。Facebook 公司的方法是,用人工智能技術狙擊。
但凡審查,就會有漏查。Facebook 公司《透明度報告》有一個缺陷,就是它沒有提漏查的程度。
透明與公開,是與公眾溝通的高明手段,蠢貨只有閉嘴這一招。Facebook 公司雖然沒有滿分,但也提供了“榜樣”。
讓我們看到真善美的存在,也要看到假惡丑如何被干掉。
在 Facebook 公司第一季度刪除的 960 萬個帖子中,軟件系統檢測到 88.8%(在用戶看到信息并舉報之前)。這表明該算法用機器標記了 850 萬個“臟話”帖子,比上一季度的 460 萬個增長了 86%。
2020 年第一季度,除了病毒蔓延,“臟話”也在蔓延。
Mike Schroepfe,自 2013 年 3 月以來一直擔任 Facebook 公司的首席技術官。他借《透明度報告》發布的機會,重點打了一輪人工智能技術的廣告,宣傳了該公司自然語言處理技術的進步。
他說:“我們的語言模型變得更大,更準確,更細微了。能夠發現細致微妙的東西。”
可惜,Schroepfer 并沒有解釋說明這些系統審查的精確程度,只是說 Facebook 在部署系統之前對其進行了廣泛的測試(測試機器誤判的情況)。
畢竟一個把正常表達識別錯誤的機器,也很讓用戶惱火。
Mike Schroepfe 引用了新報告中的數據,這些數據表明,盡管在最近的 25 - 130 萬條中,用戶更經常地對刪除內容的決定提出申訴(有可能是罵罵咧咧習慣了,突然被刪,很是不服氣),但后來執意恢復的帖子數量有所減少(習慣了)。
Facebook 的數據并未表明仇恨言論在其算法網絡中漏失了多少。該公司的季度報告估計了 Facebook 規則禁止的某些類型的內容的發生率,但沒有“臟話”內容。新聞官宣顯示,自 2019 年夏天以來,暴力帖子數量有所下降。Facebook 公司“仍在制定一項全球指標”。
缺失的數據掩蓋了社交網絡的臟話言論的真實規模。
西雅圖大學副教授凱特琳·卡爾森(Caitlin Carlson)說道:“與 Facebook 龐大的用戶網絡以及用戶對令人不安的內容的觀察相比,刪除的帖子數目(960 萬條)看起來太少了。“
教授認為,960 萬條“臟話”,這一數據還不夠真實?
《親愛的數據》出品
無獨有偶,卡教授在 2020 年 1 月份發布了一項實驗結果。她和一位同事收集了 300 多個 Facebook 帖子(樣本),這些帖子明顯違反了規則,實驗人員用服務工具進行了舉報。追蹤結果顯示,最終只有大約一半的帖子被刪除。
卡教授這一實驗結果,在挑戰 Facebook。同時,她也發現,同樣是“口吐芬芳”,算法對種族歧比在歧視女性方面更為嚴格。不知道 Facebook 高管桑德拉看后作何感想。
Facebook 表示,對算法找到(標記)的內容與用戶報告的處理相同。流程上確定是直接刪除,還是警告處理。可能流程上要流轉到下一環節,人工審核者。(或者仍由軟件判定,視情況而定。)
這時候,要談談人工審核員工的苦楚了。
2020 年 5 月,Facebook 公司同意支付 5200 萬美元與內容審查團隊的員工達成和解。原因很驚人,審查帖子導致他們患上了精神創傷,已獲法庭鑒定。外媒 The Verge 之前詳細報道了這一消息。?
消息原文:“Facebook 承認內容審核會給員工造成巨大的損失,這一次,是具有里程碑意義的承認。Facebook 同意向現職和前任審核人員支付 5200 萬美元,以補償他們因工作出現的心理健康問題。
在美國圣馬特奧高等法院提出的一項初步和解中,Facebook 公司同意支付賠償金,并在他們工作期間給予更多幫(tong)助(qing)。”
天天看這些臟話的人,都受了內傷。當然,這得算工傷。
在“劍橋門”事件后,審核報告是 Facebook 公司透明度程序的一部分,這一程序還包括聘請一個新的外部專家小組,該小組有權推翻該公司的審核決定。講道理,只有董事會才是公司最高權力機構。
公司協調外部力量參與的力度很大。畢竟罰金有點高,這樣下去,扎克伯格就會比亞馬遜公司的貝佐斯窮多了。
卡教授繼續與 Facebook 公司正面硬剛。她表示,Facebook 公司的披露似乎表明該公司可以自我監管,但報告有缺陷。
她說:“要與公司進行對話,我們需要數據。”
當被問及為何不報告“臟話”言論泛濫情況時,Facebook 公司發言人指出,該報告的衡量標準“正在緩慢擴展,以覆蓋更多的語言和地區,以考慮到文化背景和個別語言的細微差別” 。
定義和檢測“臟話”是 Facebook 和其他平臺面臨的最大社會和技術挑戰之一。
在全球多元文化背景下,即使是人類分辨內容,也是需要花一番功夫的。舉個例子,有抖音號教青島方言表揚人用“赤絲”,請自行體(bai)會(du)一下。
自動化是很棘手的,因為人工智能距離人類對文本的理解還有很長的路要走,理解文本和圖像共同傳達的微妙含義的算法的研究才剛剛開始。
Schroepfer 說道:“機器學習算法在語言學研究的幫助下,Facebook 已經升級了檢測算法。許多高科技公司正在對其處理語言的軟件系統(例如谷歌的搜索引擎)進行改造,提高用算法解決諸如回答問題或澄清歧義等語言問題的能力。”
他強調:“(這是)重大改進。”
Schroepfer 還明確指出,這些改進并不能使技術達到完美。?
《透明度報告》透露出,在內容審查和審核方面,Facebook 重兵布防人工智能。臟話會影響社交網絡的根基,人工智能再昂貴也要用起來。
Facebook 表示,它已經創建了超過 10000 個仇恨語音模因(模因是許多人在互聯網上相互發送的東西,如視頻,圖片或短語)的集合,這些模因結合了圖像和文本,并激發新的研究。該公司將向研究小組提供 10 萬美元的獎金,激勵這些研究小組開發出能夠最好地發現可惡的模因與良性內容相混合的開源軟件。
美國還在對社交媒體內容中的“臟話”監管采取放任不管的態度。
德國 2017 年通過了《網絡執法法》(NetzDG),該法要求擁有或超過 200 萬用戶的社交媒體公司必須刪除或阻止訪問報告的內容,因其違反了德國刑法對仇恨言論的限制(《網絡實施法》,2017)。
公司必須在收到通知后的 24 小時內刪除“明顯的仇恨言論”,否則將面臨 5000 萬美元的罰款(Oltermann,2018 年)。
值得一提的是,在 2019 年恐怖主義襲擊了新西蘭的兩座清真寺之后,全球領導人與臉書、谷歌、推特等其他公??司高管會面,共同制定了一套名為《基督城召喚》(Christchurch Call)的全球反恐準則,制定針對極端、暴力,以及仇視性言論。
更值得一提的是,美國沒有簽署承諾。
《親愛的數據》出品 ?
遠在海外的抖音國際版(Tiktok)也發布了《透明度報告》(2019 年 12 月),只有五頁紙。
別問為什么,被逼的。
互聯網公司有無可比擬的力量來塑造人類話語世界,偏激言論遍地開花,其處理和刪除情況卻鮮為人知。《透明度報告》也適用于新浪微博等國內互聯網平臺公司。敢問一句,現在是什么樣的世道?先進技術和生產力都用來和“臟話”做斗爭了。
總結
以上是生活随笔為你收集整理的2020第一季度,Facebook公司删掉了960万句“脏话”的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 素面条怎么做好吃啊?
- 下一篇: 鲤鱼的鱼籽怎么做好吃啊?