中国人工智能学会通讯——从语料库中习得的语义包含类人的偏见
摘要:機器學習是一種通過發現現有數據的模式來獲得人工智能的方法。在這篇文章中,我們證明將機器學習應用于普通人類語言會產生類人的語義偏見。我們采用被廣泛使用的純統計機器學習模型,利用內隱聯想測試的測量方式,復現了一系列已知的偏見,這些統計機器學習模型都是從一個標準的萬維網語料庫中訓練得到的。研究結果表明,文本語料庫包含可重現且準確的偏見印記,這些印記包括對昆蟲或者鮮花的中立觀點,或者對種族或性別的有問題的態度,甚至是對職業或姓名的性別分布現狀的簡單驗證。我們的方法將有助于識別和處理文化乃至技術中存在的偏見。
我們發現,標準的機器學習可以從反映人類日常文化的文本數據中學習到刻板偏見。從文本語料庫中獲取包括文化刻板印象和經驗關聯在內的語義的想法,雖然在語料庫語言學領域已為人們所了解[1-2],但是我們的發現從三個方面補充了這一想法。首先,我們用詞向量方法[3]——一個強大的工具來提取文本語料庫中獲取的語義關聯;這種方法實質上放大了原始統計信息中的信號。其次,我們對已有文獻記載的人類偏見的復現可能會產生研究人類偏見態度和行為的工具和見解。最后,由于我們是在已經訓練好的機器學習組件(主要是GloVe詞向量)上進行實驗,我們發現,文化的刻板印象已經在人工智能技術領域廣泛傳播。
在展示我們的研究結果之前,首先討論文章涉及的關鍵術語并描述我們使用的工具。術語因學科而異;這些定義是為了文章能夠清晰的表述。在人工智能和機器學習領域,偏差(bias)一般指的是先驗信息,這種先驗信息是智能活動的必要前提[4]。然而,如果這些信息來源于引起有害行為的人類文化,那么這種偏差將會是有問題的。這篇文章中,我們把這種偏差叫做“刻板印象(stereotyped)”,基于這種偏差做出的行為稱為“偏見行為(prejudiced)”。
內隱聯想測驗(IAT)是人們定量檢測和記錄人類偏見的主要來源。IAT表明,當對象被要求匹配兩個他們認為相似的概念時,相較于匹配兩個他們認為不同的概念,在反應時間上有很大的差異。我們提出了我們的第一種方法——詞向量聯想測驗(WEAT),它是一種類似于I AT的統計測試,我們將其應用到AI領域里廣泛使用的詞的語義表示上,也就是詞向量。基于詞的上下文,詞向量把每個詞表示為向量空間中的一個約300維的向量。我們將一對向量之間的距離(更準確的表述是它們之間的余弦相似度——一種測量關聯性的方法)類比為IAT中的反應時間。WEAT方法對I AT中測試過的一系列單詞的詞向量進行了比較。我們將在下面對WEAT方法作更細節的描述。
與本文最密切相關的是同時期Bolukbasi等人[6]的工作,他們提出了一種給詞向量“消除偏見”的方法。我們的工作是與之相輔相成的,因為我們專注的是嚴格論證詞向量中存在的類人偏見。而且,我們的方法不需要用代數公式去表示偏見,而對所有類型的偏見都有一個代數表示也是不可能的。此外,我們還研究了當代社會的刻板印象與經驗數據之間的關系。
使用上述語義關聯的度量方法,已經能夠復現我們測試的每一種刻板印象。我們選擇了研究一般性社會態度的IAT測試,而不是針對一些子群體進行研究,并且這些測試的目標詞和屬性詞(非圖像)列表都是可以得到的。測試的結果總結在表1中。
Greenwald等人通過對他們認為在人類中普遍存在而沒有引起社會關注的偏見的研究,引入和驗證了IAT[5]。我們為了同樣的目的,復現了這些無害的結果。具體而言,他們根據人們對四對組合(鮮花+令人愉快的、昆蟲+令人不快的、鮮花+令人不快的和昆蟲+令人愉快的)的反應延遲情況,證明花明顯比昆蟲更令人感覺愉快。Greenwald等人以Cohen’s d來衡量效應值。Cohen’s d計算方式為兩個延遲時間(毫秒記)對數的差值除以標準差。一般d的小、中、大值分別為0.2、0.5和0.8。他們進行的比較鮮花和昆蟲的IAT測試有32名參與者,產生了值為1.35(P<10-8)的效應值。我們采用我們的方法也進行了測試,觀察到同樣的預期關聯,效應值大小為1.50(P<10-7)。同樣,我們也復現了Greenwald等人的發現[5],證明樂器明顯比武器更令人愉快(見表1)。
值得注意的是,這些詞向量之所以“了解”鮮花、昆蟲,樂器和武器的屬性,并不是根據對世界的直接體驗得到的,而是根據詞與鄰近詞的共現統計學習得到的隱含信息。
接下來,我們使用相同的技術來證明機器學習像其他事物一樣容易吸收刻板印象。Greenwald等人[5]發現僅僅通過姓名就可以發現種族的極端影響。他們發現,與一系列非裔美國人姓名相比,人們更容易把歐裔美國人姓名與令人愉快的詞語聯系起來。
在復現這一結果時,因為一些早期的非裔美國人姓名出現頻率不夠高,并沒有出現在語料庫中,我們被迫對測試樣例作了微小調整。我們隨機刪除了相同數量的歐裔美國人的姓名,以平衡這兩種姓名中樣例的數量。我們在關鍵字列表中列出了省略和刪除的樣例(見補充材料)。
在另一個廣受矚目的研究中,Bertrand和Mullainathan[7]給1 300份招聘廣告發出了近5 000份簡歷,這些簡歷除了候選者的姓名不同,其他并無差別。他們發現,歐裔美國候選者獲得面試機會的概率比非裔美國候選者提高了50%。在后續的研究中,他們認為隱含偏見有助于解釋這些影響[8]。
我們使用詞向量為這個假設提供了額外的佐證。我們測試了他們研究中用到的姓名,以獲得它們和愉悅程度的關聯。和之前一樣,我們需要刪除一些低頻的姓名。我們使用“令人愉快/令人不快”兩組不同的樣例證實了這種關聯:這些樣例來源于最初的IAT論文和后發表的一個較短的修訂版本[9]。
談到性別偏見,我們復現了一個發現:與男性姓名相比,女性姓名相較于與職業詞匯的關聯,更多地與家庭詞匯關聯在一起。這個IAT測驗是在線進行的,因此擁有一個更大的主題池,但是有更少的關鍵詞。不過即使只有這些縮減的關鍵詞集,我們仍然復現了IAT的結果。我們還復制了一個在線的IAT測試,發現男性詞匯與數學詞匯關聯更強,而女性詞匯(例如“女人”和“女孩”)與藝術詞匯關聯更強[9]。最后,我們還復現了一項實驗室研究,表明女性詞匯與藝術詞匯關聯更強,而與科學詞匯關聯較弱[10]。
在確定了IAT記載的刻板印象也存在于詞向量中之后,我們進而研究相同的詞向量如何與性別分布的真實數據相關聯。有研究者發現,隱含的性別-職業偏見與職業參與中的性別差距有關;然而,性別和職業之間的關系是復雜的,它們可能是相輔相成的[11]。為了更好地揭示這種關系,我們研究了職業詞匯與性別的關聯和勞動力參與數據之間的相互關系。圖1的x坐標軸的數據來源于美國勞工統計局(https://www.bls. gov/cps/cpsaat11.htm)發布的2015年數據,該數據提供了職業的類別和在這些類別下具有確定工作的女性所占百分比的相關信息。通過應用我們設計的第二種方法——詞向量事實聯想測試(WEFAT),我們發現GloVe詞向量與2015年美國的50個職業中女性所占百分比強相關。
同樣,我們研究了性別與中性姓名的真實關聯,中性姓名這里指的是兩性都可以使用的姓名。我們能夠找到的與這個研究相關的最新信息是1990年人口普查時的姓名和性別統計數據。也許是因為我們的姓名數據來源于較早的時期,姓名和性別的關聯弱于2015年的職業與性別的統計關聯,但仍然十分顯著。圖2中,x軸數據來自1990年美國人口普查的數據(https://www.census.gov/main/www/cen1990.html),y軸的數據與前一個測試相同。
詞向量是將單詞表示為向量空間中的點[12]。對于本文中的所有結果,我們使用當前效果最好的GloVe詞向量,其中兩個詞向量的相似度大體上與這兩個詞在文本中共現的詞的相似程度相關[13]。以GloVe為代表的詞向量算法,通過降維來顯著增強簡單共現概率中發現的信號。在與本文實驗相仿的早期實驗中(基于自由關聯而不是隱式關聯),原始的共現概率方法的結果非常差[14-15]。
我們使用作者預訓練好的GloVe詞向量,不再自己訓練詞向量。這樣做能夠確保公正性,簡化了重現我們結果的過程,也讓我們能夠復現詞向量在機器學習真實應用中的效果。我們使用了四種語料庫中最大的語料庫,即從互聯網的大規模爬取中獲得的“Common Crawl”語料庫,其中包含8 400億個詞次(也就是詞)。這個語料庫中的詞是區分大小寫的,最終包含220萬個不同的詞項。每個詞項對應一個300維的向量,這個向量由此詞在大小為10的窗口中與其他詞的共現次數學習得到。
在補充材料中,我們使用另一個語料庫和對應詞向量,也展示了一個大致相似的結果。
下面我們將描述WEAT方法的細節部分。借鑒IAT文獻里的術語,考慮兩組目標詞(如程序員、工程師、科學家;護士、老師、圖書管理員)和兩組屬性詞(如男人、男性;女人、女性)。這里我們設置零假設(null hypothesis):兩組目標詞之間與兩組屬性詞的相對相似度沒有差異。置換測試通過計算屬性詞的隨機排列產生觀測的(或比之更大的)樣本均值差的概率來計算零假設的(不)可能性。
這是對兩個分布(目標詞和屬性詞之間的關聯)分離程度的歸一化度量。這里我們再次說明,這里的P值和效應值的意義與IAT中的意義不同,因為在我們的實驗中“對象”是詞語而不是人。
WEFAT方法使我們能夠進一步研究詞向量,如何捕獲隱含在文本語料庫中的關于世界的經驗信息。這里我們考慮一組目標概念,例如職業,以及與每個概念相關的且可用實值度量的真實世界屬性,例如相應職業中女性所占的百分比。我們想研究與一個概念相對應的向量是否隱含了這些屬性的知識,即給定一個向量,是否有一種算法可以提取或預測其中的屬性。原則上,我們可以使用任何算法,但在這篇文章中,我們選擇仿照WEAT,對目標概念與某些屬性單詞的關聯進行測試。
形式上,現在考慮一組目標詞W和兩組屬性詞A、B。每個單詞w∈W有一個屬性pw與之相關聯。與每個詞向量相關聯的統計量是該詞與對應屬性的歸一化關聯分數,如下所示:
下面我們詳細闡述這個成果的深層含義。在心理學領域,我們通過一個不同的設定來復現IAT測試的結果,增加了I AT測試的可信度。此外,我們的方法可能會產生一種有效的途徑,來探索以前未知的隱式關聯。研究人員在推測隱性關聯時,可以在將人類當作被測對象之前,首先在合適的語料庫上使用WEAT方法進行測試。類似地,給定各個群體創造的大型語料庫,我們的方法可以用來快速發現不同群體之間的偏見差異。如果WEAT通過測試和復現得到證實,它也可以為我們提供探索無法被測試的隱性關聯的途徑,例如探索歷史上的人群的隱式關聯。
我們已經證明,詞向量不僅隱含刻板印象,而且蘊含其他知識,諸如鮮花令人產生發自內心的愉悅感,或者職業的性別分布情況。這些結果支持了語言學中的分布式假設,即詞匯的統計語境捕捉到了我們表達的語義[16]。我們的研究也將有助于Sapir-Whorf假說[17]的討論,因為我們的工作表明,行為可以被隱含在語言使用過程中的文化歷史所驅動,而這些歷史在不同語言之間有明顯的不同。
需要強調的是,我們復現了每一個我們測試的I AT記錄的關聯結果。我們的研究結果的數量、多樣性和實際意義,提高了所有隱含的人類偏見都被反映在語言的統計特性中的可能性。這一假設需要進一步研究來檢驗,同時,將語言與其他模態數據(特別是視覺數據)進行比較,以觀察它們是否具有相似的強大解釋力,也需要進一步的研究驗證。
我們的研究結果還提出了一個零假設來解釋人類偏見行為的起源,即語言隱含地傳遞群體內/群體外的身份信息。也就是說,在為個人作出有偏見的決定提供一個明確或慣常的解釋之前,我們必須確定這不是一個簡單的由語言吸收的統計學規律再現產生的結果。同樣,在為刻板印象如何實現代際傳遞或群體擴散設計復雜的模型之前,我們必須檢查,僅通過語言學習是否足以解釋(一些)觀察到的偏見的傳播現象。
我們的工作對人工智能和機器學習也會有影響,因為這些技術可能會延續文化中的刻板印象[18]。我們的研究結果表明,如果我們建立一個智能系統,充分學習語言的屬性以便能夠理解和使用它,在這個過程中,該智能系統也將獲得歷史文化的關聯,而其中一些可能是令人反感的。一些流行的在線翻譯系統已經包含了我們研究的一些偏見(見補充材料)。隨著人工智能在我們的社會中被賦予更多的代理職責,這個問題可能會引起更多的關注。如果機器學習技術被用到簡歷篩選過程中,那么它將會引入文化的刻板印象,可能會隨之導致帶有偏見的結果。對此,我們建議明確指明這些技術導致的哪些行為是可以接受的行為。在研究機器學習中的公平的新興領域中,有類似的方法,它在做決定時規定和執行沒有偏見的數學公式[19-20]。另一種方法存在于模塊化的人工智能系統,如認知系統中。在這種系統中,統計規律的隱性學習可以被劃分出來,并通過適當行為規則進行顯式指導[21-22]。當然,在將無監督機器學習方法構建的模塊引入決策系統時,我們需要謹慎對待。
( 原文:Caliskan, A., Bryson, J.J. and Narayanan, A., 2017. Semantics derived automatically from language corpora contain human-like biases. Science, 356(6334), pp.183-186. Vancouver, 2017.)
參考文獻略
總結
以上是生活随笔為你收集整理的中国人工智能学会通讯——从语料库中习得的语义包含类人的偏见的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ffmpeg截取视频指定帧方法
- 下一篇: 多wan口路由虚拟服务器,简单的多WAN