女性和少数族裔,正成为无监督预训练模型偏见的“受害者”
圖片出處:unsplash
本文作者:REN
隨著機器學習技術的發展和普及,越來越多的科學家注意到這項技術背后隱藏著 “偏見” 和 “歧視”。
它們與人類社會的偏見相似,并且廣泛存在于人臉識別算法、圖像數據集構建、圖像識別和分類、自然語言處理等常見的機器學習實踐中。
用于訓練圖像分類 AI 模型的知名數據集 ImageNet,就被許多研究人員指出了問題,比如在它從互聯網上無差別收集的大量圖像中,存在一定程度上的少數群體代表性不足,以及關于性別、種族、膚色的偏見。用它訓練出來的模型,很可能繼承了這些偏見。
這些偏見到底有多嚴重?偏見程度是否可以量化?
最近,為了解決上述問題,卡耐基梅隆大學的 Ryan Steed 和喬治華盛頓大學的 Aylin Caliskan 發表了一篇名為《無監督預訓練的圖像表示方法包含類似人類的偏見》(Image Represnetations Learned With Unsupervised Pre-Training Contain Human-like Biases )的論文。
兩名研究者基于 ImageNet 2012 數據庫,對 iGPT 和 SimCLRv2 兩個知名的無監督計算機視覺模型進行了分析和測試,尋找它們是否存在內在偏見并對其進行量化。
最終得出的答案是肯定的,而且這些偏見與人類社會廣泛存在的偏見十分相似,比如男性與事業相關,女性與家庭掛鉤。甚至在一項測試中,對女性圖片有 52.5% 的補全圖片由比基尼或低胸上衣構成。
要知道,iGPT 的底層架構來自 OpenAI 的 GPT-2,SimCLRv2 則出自谷歌研究院,均是兩家業內頂尖機構在 2020 年發布最新模型,且均采用無監督學習方法預訓練,在性能測試中表現優異。
即便如此,它們也難以避免偏見和歧視問題,尤其是與種族、性別相關的刻板印象。這說明,即使是無監督學習,數據集中固有的人類社會偏見也會傳遞給模型。
偏見測試的構建與實施
一般來說,偏見測試主要針對 NLP 或其他與文字有關的模型,比較常用的是單詞嵌入關聯測試(Word Embedding Association Test,WEAT)。
但對于 iGPT 等圖像分類模型來說,它們生成的像素難以直接與語義對應 —— 一塊黑色像素并不能代表任何有價值的語義。
因此,為了對圖像進行偏見測試,研究人員在 WEAT 基礎上開發了圖像嵌入關聯測試(iEAT),可以對模型生成的文本標簽進行詞嵌入處理,將詞轉化為向量,最后通過比較不同模型生成的向量數值來評估結果。
圖 | iEAT 判斷花朵和昆蟲與親和度之間的關系
常見測試評估的偏見可以分為兩大類,分別是 “親和度(pleasantness)” 和 “刻板印象(stereotype)”。而在這項研究中,研究人員還介紹了幾種新的測試方法,用于交叉檢驗親和度、性別刻板印象、種族之間的關系。數據代表程度最高的 “白人男性” 被選為參照群體。
偏見測試構建完成后,研究人員選擇了 iGPT 和 SimCLRv2 作為測試模型。主要原因是它們都采用了無監督學習進行預訓練,通過捕捉訓練集中的隱形特征生成標簽。
此外,這兩個模型都使用了 ImageNet 2012 數據集進行與訓練,其中包含來自 Flickr 等圖片分享網站的 120 萬張已標記圖像,共分為 200 個物體類型。
研究者認為,雖然 ImageNet 的 “人物” 類型圖片已被移除(許多研究已指出其中的偏見),但它仍是廣泛使用的基準測試之一,包含了相當多的圖片數據,足以在很大程度上反映出網絡上的人物肖像風格。
在關于 “廣泛接受的偏見(Widely Accepted Biases)” 測試中,考察兩套模型的是昆蟲和花朵與親和度之間的關系。不出研究者所料,它們表現出了與人類參與者類似的喜好:花朵親和度更高(令人愉悅),昆蟲親和度更低(令人不適)。
在種族測試中,兩套模型對阿拉伯穆斯林人群的圖像展示出的親和度更低。與此同時,它們更容易將黑人和武器聯系起來,而作為對比,白人則更容易與工具相關聯。
另一項有關性別的測試也顯示出模型的偏見,比如男性與事業、辦公室等職場屬性關聯度更高,女性則更加與兒童、家等家庭屬性相關。類似的,男性還與數學、工程等科學屬性關聯度更高,女性則與藝術、寫作的關聯度更高 —— 不過這一點僅出現在 iGPT 模型上。
研究者還進行了針對老人、肥胖、殘疾人等特定人群的刻板印象測試,其中 iGPT 展示了針對肥胖人群的負面偏見。這意味著它更容易認為瘦弱的人是 “令人愉悅的”,卻 “不待見” 超重的人。
在性別和種族的綜合測試中,女性整體上比男性要更正面,無論是什么種族或膚色。其中白人女性是最正面的群體(親和度較高),黑人男性的親和度最低,但白人女性和黑人女性之間的偏見程度并不明顯。
有意思的是,僅考慮 “種族” 偏見呈現出的統計學結果,與 “男性 + 種族” 偏見的結果很相似。
然而,當考慮性別和職業的綜合偏見時,結果卻呈現出許多自相矛盾的地方。比如如果將白人男性和白人女性放在一起對比,前者更偏向事業,后者更偏向家庭。但如果對比白人男性和黑人男性,結果卻是白人男性更偏向家庭,黑人男性更偏向事業。
研究人員認為,這可能是黑人圖片代表性不足所致,尤其是那些與黑人刻板印象相左的圖片數量不足。
還有一些群體從統計學上看不出偏見的跡象,比如白人女性和黑人女性的種族偏見不明顯。此外,美國原住民和亞裔美國人在刻板印象、殘疾偏向性、年齡偏向性三個測試中均未表現出明顯的偏見。
不過整體上看,研究人員在測試之初提出的偏見假設大多得到了驗證,足以說明模型繼承了來自人類社會的偏見。
偏見來源
接下來,研究人員進一步分析了可能的偏見來源。
由于 ImageNet 數據集中的圖片都來自于互聯網上,在收集過程中,少數群體天然存在代表性不足的問題。
比如 “婚禮” 是一個令人愉悅的場景,但相較于黑人,白人在婚禮圖片中出現的頻率更高,模型就會自動傾向于將其視為高親和度,盡管無監督學習的預訓練過程沒有給婚禮打上任何與白人相關的標簽。
類似的情況也出現在性別與職業中。女性所在場景更多的是 “家或賓館”,而男性則更多出現在 “工業和建筑” 場景。這無形中給模型灌輸了和人類相似的職業和社會偏見。
另外一個偏見來源是模型所采用的自回歸算法(Autoregression)本身,盡管利用下一個像素預測特征的方式可能不會帶有太多偏見,但在實踐中,還是會難以避免地引入刻板印象。這個問題也受到了許多機器學習研究者的關注。
像是 iGPT 這樣的生成式模型,可能會采用帶有偏見的描述方式來進行預測。
為了證明這一點,研究人員先用 StyleGAN 生成了 10 張虛假人像,然后只保留人物頭像作為 iGPT 的輸入值,讓它補全剩下的圖像。每張人像補全 8 次,總共生成 80 張圖片,男女各占一半。
圖 | iGPT 補全的男性圖片
結果顯示,iGPT 的表現帶有顯著的性別色彩。對于女性頭像來說,有 52.5% 的補全圖片由比基尼或低胸上衣構成,而對于男性而言,有 42.5% 的圖片是身著西裝或其他職業相關服飾的,赤裸上身或低胸上衣的圖片只有 7.5%,其中還有一張是持槍的。
綜合分析結果之后,研究人員指出,盡管無監督學習可以從數據中捕捉許多有價值的規律,但它似乎對人類社會中常見的偏見和歧視照單全收,許多文字或 NLP 領域的偏見和歧視問題也體現在計算機視覺任務中。
造成這種現象的原因之一是現階段人類社會固有的偏見。它們廣泛存在于人們上傳到網絡上的圖片中,基于這些數據(集)的預訓練模型繼承了這些問題。
盡管此類模型可能對量化社會偏見很有用,但研究人員強調,目前在圖像上大規模使用無監督預訓練反而有可能傳播和擴散有害的偏見,因此他們建議計算機視覺研究人員謹慎使用遷移學習技術,盡可能地減少預訓練模型中已經存在的偏見的傳播,降低其可能造成的不良影響。
Reference:
https://arxiv.org/pdf/2010.15052.pdf
關于數據實戰派
數據實戰派希望用真實數據和行業實戰案例,幫助讀者提升業務能力,共建有趣的大數據社區。
總結
以上是生活随笔為你收集整理的女性和少数族裔,正成为无监督预训练模型偏见的“受害者”的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Linux文件内容查阅 - cat, t
- 下一篇: 用户、组及权限控制