【NLP】NLP哪个细分方向最具社会价值?
文 | 小戲
讓我們來大膽設想一個場景,老板突然發財搞到一筆錢,大手一揮給你五百萬,讓你去做自然語言處理的研究,你該先研究哪一個細分領域?
機器翻譯好像不錯,信息抽取也很必要,對話系統更是 NLP 落地的重要方向。而如何評估這些 NLP 任務的重要程度是一個極其開放的問題,從商業價值應用前景的角度出發是一套評價體系,從科學研究學科貢獻角度出發又是另一套排名標準,但如果將我們的高度拔高一點,站在一個社會成員的角度,如何評估 NLP 任務的社會效益,將是一個十分有意義的研討話題。
而這篇被今年 ACL Findings 收錄的論文從社會效益的角度出發提出了一整套針對 NLP 任務的社會效益的評價指標,并給出了從社會效益最大化的角度出發應當被優先研究的 NLP 的課題,讓我們一起來看看吧!
論文題目:
How Good Is NLP? A Sober Look at NLP Tasks through the Lens of Social Impact
論文鏈接:
https://arxiv.org/pdf/2106.02359.pdf
Arxiv訪問慢的小伙伴也可以在 【夕小瑤的賣萌屋】訂閱號后臺回復關鍵詞 【0621】 下載論文PDF~
何為一個好的 NLP 技術?
無疑,NLP 已經滲透到了我們生活的方方面面,一些典型 NLP 應用的名字也都被我們所共享,比如某天開的一個關于 Siri 的笑話,某次復制到谷歌翻譯里的英文。凡此種種使得 NLP 從一個學科領域的概念走進了我們的日常生活,而一旦 NLP 的技術不再是僅存于共享某一領域知識的一小部分研究者中時,面對它的社會影響的關注便會登上臺前。
估計沒有一個人會盼望放在自己床頭的對話機器人會說出“心跳不好,為了更好,請確保刀能夠捅進你的心臟”這樣的話語,當然也總會有人擔憂一個冷冰冰的自然語言處理系統充滿種族歧視與性別歧視的內容結果。
因而,相關人工智能倫理的研究從這個方面入手,開始探討諸如算法的歧視、算法的公平性、透明性、正義性等方面的問題。其實相關人工智能倫理的說法由來已久,甚至可以說自所謂 AI 誕生以來,就引起了形形色色關于倫理的探討。倫理學所關心的問題,其實質上是在為道德立法,明確道德力所能及的邊界,在跨越地域與文化的鴻溝中討論人之為人的共識,明確特定場景下,善與惡的定義。
因此,人工智能倫理學的研究,所希望定義的,就是這樣一個問題——“何為一個好的人工智能系統?”,而回到這篇論文,論文作者所期望解決的,正是這樣一個問題:
給定具有特定技能 的研究者或研究團隊和一組他們可以進行研究的 NLP 技術 ,對于研究者而言,為了實現更好的社會效益 ,什么是最值得進行研究的技術?
審視這個問題,我們可以發現它的難點集中于:
如何定義所謂好的社會效益?
不同的 NLP 技術如何影響社會效益?
如何確定研究的優先級?
針對這些問題,在論文中,作者首先通過倫理學的經典理論與觀點,給出了一種評估好的社會效益的定性方法,其次,作者通過因果結構模型將現有 NLP 技術分類,從而依據層次結構關系討論不同種類的 NLP 技術對社會效益的不同影響,之后,作者借助全球優先研究(Global Priorities)領域的分析框架,提出一系列衡量技術優先級的有用指標,最后,作者通過對 ACL 2020 570篇論文的分析研究,給出了一套基于社會效益的評估課題研究意義的思考方法與 NLP 領域內應當被優先研究的課題。
何為好的社會效益?
每年 3 月,聯合國旗下的可持續發展解決方案網絡組織都會發布一份世界幸福報道,分別從經濟水平,預期壽命、慷慨友善度、社會支持、自由以及腐敗程度 8 個方面衡量不同國家的幸福指數。
然而,通過評估經濟水平,預期壽命等等真的可以定義幸福嗎?恐怕答案永遠是千人千面,總會有失偏頗。
而針對好的社會效益的定義也是如此,常常陷入吊詭的是:如果我們認為節約能源會造成好的社會影響,那么也一定會有在零下 20 度生活的人抱怨天寒地凍沒有足夠的煤炭燒起爐子。
從哲學上講,基于一些不同的假設可以部分規避這樣兩難的選擇,一種很簡單的假設是基于直覺,比如直覺上講消除貧困總會提升社會效益,因此消除貧困總是具有好的社會影響。然而,這種直覺主義的觀點顯然不足夠嚴密支持評估社會影響,因而這篇論文選擇了倫理學的三種主流理論,用以衡量好的社會影響,這三種理論分別是義務論,目的論以及美德論。
為了更好的理解這三種理論的不同觀點,我們引入一個大家耳熟能詳倫理學思想實驗——電車難題。
其中義務論者主張內心道德原則的絕對性,即人們的行為必須要由道德賦予其正當性,因此,面對電車難題時,義務論者會認為拉下搖桿會使得一人死亡,而不行惡是道德原則之一,因此義務論者認為自己沒有權利拉下搖桿,從而選擇不作為。
而目的論者,也常常被稱為功利主義者,其觀點則會認為人應當做出符合“最大善”的行為,因而,目的論者將會選擇拉下搖桿,從而不得不接受義務論者對其道德性的譴責。
最后,美德論者試圖區別義務論者與目的論者,通過將人群中某些特殊的人的特殊行為抽離出來,譬如我們將孔夫子的言行舉止抽離出來作為道德的人所能達到或所應該達到的美德境界,從而以此規范人們的行為。盡管預期美德論者對電車問題會做出與義務論者一樣的選擇,但其內在的驅動因素是不盡相同的。
使用這三種理論我們可以從三種不一樣的角度去評估所謂好的社會影響,但是我們無法得知哪一個理論是對的,或者是說,我們根本無法評判哪一個理論是正確的,此時,我們就陷入了一個被定義為“道德不確定性”的狀態,而根據學者 William MacAskill 等人提出的理論,盡管我們身處于道德不確定性之中,但我們仍然可以做出一些簡單的排序與選擇,譬如認可被所有標準都承認的選擇,以及放棄被所有標準都拒斥的選擇。
從而,針對社會效益我們便擁有了一種評估工具,與其說這是對社會效益定量的排序,不如說這種工具更加類似為每一種 NLP 技術可能造成的社會影響提供了思維的角度,類似雷達圖與 SMART 分析。對于某一項具體的 NLP 技術,譬如是否應當使用 NLP 技術應用于醫療領域之中,在三種理論下選擇以 NLP 技術治病救人都是道德并可取的,我們就可以認為這具有良好的社會效益,而另一些技術,當理論的觀點產生了沖突,我們便應該做出合理的權衡。
根據這種評估方法,結合倫理學家的意見,作者提出了一些具有良好社會效益的 NLP 研究領域,例如欺詐信息識別、模型可解釋性、低資源學習、模型魯棒性研究等等,這些研究被視為是具有良好社會效益的 NLP 技術及研究領域。
不同的 NLP 技術如何影響社會效益?
很明顯,不同的 NLP 任務對社會效益的影響不盡相同,我們可以說訓練出種族歧視言論的亞馬遜 Alexa 機器人對社會具有負面影響,但很卻很難討論對話系統內部應用的語言識別或是某個預訓練模型對社會效益是有利還是有害。
因此,這篇論文將不同的 NLP 技術基于一種因果結構,分為了四個階段。
第一階段是指基礎理論,這種基礎理論是直接決定一門學科性質的理論,譬如對于 NLP 而言,縱使有“每當我開除一個語言學家,語音識別系統就更準確了”的笑話,但語言學的基本理論仍然是 NLP 中最流行的基礎理論。
第二階段是模塊化工具,這類工具是下游任務的重要組成部分,譬如分詞、序列標注、信息抽取等等。
第三階段是應用研究,這類研究是商業化應用的雛形,例如機器翻譯、問答系統、對話系統等等。
第四階段是商業化產品,經過一個從前往后的發展,已經到達可以被部署與應用的成熟產品,例如谷歌翻譯、小度智能音箱等等。
作者將 ACL 2020 的論文按四個階段的劃分方法進行了分類,統計出了每個階段最流行的主題。可以看到,就論文數量而言,第二階段 > 第三階段 > 第四階段 > 第一階段,從這個統計規律之中我們多少可以看到一點現階段主要的研究領域與方法。
這種分類,使得 NLP 技術具有了一個層級結構,根據每層技術之間的因果關系,可以將 NLP 技術的四個階段用一個樹狀圖表示出來,如下圖所示:
作者認為 NLP 技術之中存在著一個因果關系,即只有當樹上層的技術被發明出來時,下層的技術才有存在的可能,例如只有當機器翻譯的技術成熟時,才有可能出現谷歌翻譯的產品,而機器翻譯的技術又必須建立在諸如詞向量等技術的基礎之上。
因此,只要有了對第四階段商業化產品的社會效益影響的衡量,就可以依循因果圖從而統計每一個節點對社會效益的間接影響。作者定義每一個 NLP 技術 的社會影響為 ,且:
其中,指 NLP 技術對社會施加影響的不同方面,比如有些技術可以提升人們的隱私保護,有些技術可以為人們創造更多的空閑時間,而另一些技術則可以提升人們的受教育程度。而代表技術在方面的應用規模,代表技術技術在方面的社會影響。
OK,現在我們有了方法去衡量第四階段的技術對社會的影響,那么如何衡量更基礎的技術對社會的影響呢?論文認為任何技術的社會影響都是其所有后代在第四階段技術影響的加和,因而公式為:
其中, 是子節點技術可以被成功開發的概率, 是技術 對子節點技術的貢獻, 即子節點技術的影響,最終使用第四階段技術的社會影響公式代替。
根據這種評估方法,我們可以在一定程度上刻畫這樣兩個結論:
由于累加作用,對于第一階段與第二階段的 NLP 技術,隨著它們創造出更多的有利于社會效益的技術,其總體影響總是趨于積極的。
社會影響好壞的不確定性主要集中于第四階段的技術,這也就意味著第四階段技術的開發者應當對于技術的社會影響抱以最大程度的關注。
如何確定研究優先級?
現在我們對不同的 NLP 技術有了評估他們的社會影響的工具,到了做選擇的時候了,面對五花八門琳瑯滿目的 NLP 技術與理論,我們該如何確定他們的研究優先級?
其實問題又回到了我們的開頭,我們如何把老板給的五百萬更有意義的花出去?這其實也正是全球優先研究(Global Priorities)所關注的問題,全球每年用于社會公益的支持有五千億美元,而福利機構則不得不考慮一個問題,面對這個世界形形色色的問題——饑餓、貧困、謀殺、歧視……我們該優先支持哪一個領域?
進行全球優先研究的學者提出了一個被稱為是 INT 的研究框架,INT分別指Important/Neglected/Tractable,根據 INT 框架,對于一個需要確定優先級的待解決問題集合,需要進行三個方面的考慮:
這個問題重要嗎?
這個問題被廣泛關注過嗎?
這個問題是可以被解決的嗎?
根據這個框架,一個問題越重要,越容易解決,且越被廣泛忽視,那么一個問題的優先級就越高。這個框架往往被用于解決一些公益的事項安排,而論文作者將這個框架利用一些數學與經濟術語進行定義,從而借助它來評估 NLP 技術的研究優先級。
首先是重要程度,作者使用 來衡量一項技術預期的社會影響,其中 是研究者 研究技術 的成功概率。而 是指技術 的社會影響。作者認為成功概率是衡量重要程度的重要一環,因為大量技術有可能并不會走向成功,即使其預期對社會可以產生極為正面的影響。
其次是關注程度與解決問題的難易,作者借用經濟學中的邊際效益衡量這兩個維度,定義:
其中, 表示研究者 對技術 每多投入一單位資源所收獲的邊際效益,而 為技術 的社會影響, 為技術 當下的進展, 代表研究者對技術 投入單位資源所能夠帶來的技術改進。
這個定義展現了,如果這個相關技術的領域已經飽和,那么對于一個研究者而言盲目地將資源與時間投入到這一問題的研究中是不明智的。而在另一個方面,如果這個領域有著很高的重要性卻長期被研究者忽視,那么推動這個研究所產生的邊際效益就會很大,因而這部分解釋了為什么研究人員熱衷于創造一個嶄新的研究領域進行研究。
最后,作者引入了機會成本這一概念描述不同技術間的選擇成本。這一概念即試圖表現研究者將資源用于技術 而非其他技術時所造成的潛在損失,例如當我研究綠色 NLP 時,相當于我放棄了研究諸如對話系統與機器翻譯的機會,作者定義:
其中, 表示研究者 在技術 上的機會成本,而代表了研究者的研究最優技術的邊際收益,其中:
其含義為研究者 可能的具有最大邊際效益的替代技術。因此,這個定義強調了并不一定只要做“好事”,而更應該去做“最好的事”,因為有時“好事”意味著極其高昂的機會成本。
什么是最應該關注的領域?
這篇論文主要以 ACL 2020 為分析對象,論文作者首先將 ACL 2020 的文章依據前文的四個階段的分類方法進行了分類,并進行了國別的統計,如下圖所示:
從發文數量而言,美國與中國是當仁不讓的前兩名,但是中國在第一階段,也就是基礎理論的論文發表掛了零蛋,考慮到論文的分類方法,第一階段主要集中在語言理論之上,而很可能我們針對語言理論的研究并沒有以英文的形式發表在 ACL 上。
在對論文進行分類之后,作者使用人工標注的方法,結合上文的評價框架,從 ACL 2020 的570篇文章中標出了 89 篇被評價為具有良好社會效益的文章,這 89 篇文章被分別分類為前文判斷具有良好社會效益的 NLP 領域的標簽內,如減少偏見、提升教育水平、促進平等、消除欺詐、綠色環保、醫療保健、可解釋性、法律應用、低資源學習、心理健康、魯棒性等等。
從結果中我們可以看到,大多數論文致力于可解釋性、錯誤信息消除與醫療保健領域。從國別角度來看,美國學者進行了大量關于模型可解釋性的研究,而中國學者對于模型可解釋性的研究很少。美國學者對提升教育水平與法律應用領域關注度較低,而印度學者則很少關注錯誤信息消除領域。
從ACL 2020發表的論文表現來看,自然語言處理技術并沒有在提升社會效益這一異常宏大的主題上交出滿意答卷。例如教育是聯合國可持續發展目標中第四重要的領域,但 NLP 技術卻很少有涉足這一領域。
事實上,這種現狀的原因之一是 NLP 研究者得到的資助往往并不來自一些十分注重社會公益的機構,甚至我們仔細想想,我們針對 NLP 這一研究領域的研究路徑根本就沒有經歷老板給我們五百萬讓我們仔細思索應當先研究什么后研究什么這一階段,更不論以一個優先級評定框架去評估不同領域的社會影響以及其重要性程度。
那么我們該怎么做呢?論文作者認為我們在開展研究前應該先回答以下這五個問題:
這項技術會使什么樣的人從中受益?
這項技術可以幫助到哪些弱勢群體?
這項技術是否有助于實現聯合國可持續發展目標中的其一其二?
這項技術可以提升人們的生活質量嗎?
這項技術會給人們帶來哪些問題?
例如,對于機器翻譯而言,機器翻譯會使得其他語言的使用者受益(Q1),并且有助于縮小第二語言者與母語者的差距(Q2),機器翻譯技術可以直接提升信息與知識的共享,可以被廣泛的應用在優質教育、體面工作與全球伙伴之中(Q3),機器翻譯可以被認為直接提升了人們的社會質量(Q4),但它有可能擴大有經濟條件穿戴智能設備與沒有經濟條件的人群之間的差距(Q5),因此我們可以將其認為是對社會有益的。
基于這個自檢框架,作者歸納出具有良好社會效益的 NLP 研究主題,并對每個主題提出了建議的研究方向如下,其中比如以 NLP 技術應用于殘疾學生教育,用 NLP 技術應用于表達障礙者的輔助語音生成,針對氣候變化認知問題的跨文化研究等等都十分具有現實意義。
總結
這篇論文為定性的分析 NLP 技術的社會效益開了一個好頭,誠然如作者所說,他們的工作目標并非是給予一個自然語言處理技術的社會效益的確定答案,而是在這個自然語言處理技術已經開始從科研領域進入大眾生活的時間拐點處,試圖向全面理解自然語言處理技術的社會意義邁出一小步。
隨著自然語言處理的研究與工業應用走向成熟,一種清醒的與高屋建瓴的對一項技術的社會意義的理解是必不可少的,我們的研究不能僅局限于什么領域好發,什么技術好做,而更是要在動機層面意識到真正的“研究意義”。恰如我們從學校到企業明白了什么才是這項技術的商業意義一樣,研究也需要有一個過程去理解這項技術現有的與潛在的社會意義。
計算機科學是一個典型的應用學科,在刻板印象里程序員亦或是計算機領域的研究者往往不存在什么類似天下大同的理想與目標,整個領域往往被粗暴的定義為學了“能賺錢的”商品。我們可以看到學法者站在法律是社會效益最大的背景下伸張正義,學醫者更是懸壺濟世醫者仁心,探討 NLP 的社會效益,也多少可以在平凡代碼之余暗藏一些超驗的意義與動力,用“我有一個夢想”式的浪漫,投身這個領域的平凡與燦爛。
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯溫州大學《機器學習課程》視頻 本站qq群851320808,加入微信群請掃碼:總結
以上是生活随笔為你收集整理的【NLP】NLP哪个细分方向最具社会价值?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【深度学习】CVPR 2021 全部论文
- 下一篇: 风林火山最新系统win11 32位旗舰版