审视AI界的“SOTA成瘾”丨AI学者万字论述
SOTA,State Of The Art,是一個AI界家喻戶曉的說法。
這個詞意味著某個模型在某些具體任務中達到了“目前最佳水平”。許多AI研究都在追逐最先進的 (SOTA) 數字,而且有理由相信,未來還會有更多的論文以此為出發點。
這個領域的大部分從業者對這種風潮已習以為常,但在AI學者Kenneth Ward Church看來,對SOTA的一味推崇并不全是“獎賞”,也是有相應代價的。
在他與Valia Kordoni合著的文章Emerging Trends: SOTA-Chasing中,他們詳細地闡述了追逐SOTA可能造成的三種負面效應:
1.排行榜強調競爭,這分散了人們對該領域更重要機遇的注意力;
2.對SOTA的追逐阻礙了語言學、詞典編纂、心理學等領域的研究人員進行跨學科合作;
3.一些聲稱SOTA的成果可能會讓業界產生不切實際的期望,這可能會導致又一個人工智能的寒冬。
“數據實戰派”將其中的重點論述部分整理如下:
一、激勵和合作:排行榜的“雙面效應”
你追求的度量是什么,那么你得到的就會是什么,這是老生常談了。
排行榜強調的是贏家和輸家。如果你用谷歌搜索"meme: mine is bigger than yours",你會發現一堆粗魯的、幼稚的、甚至是危險的圖片。
TREC(文本檢索會議)強調合作競爭,而不只是競爭。Voorhees在SIGIR-2020的主題演講中,以及在ACL-2021 benchmarking研討會上的受邀演講中指出:
l 競爭可能會給你更大的蛋糕……
l ……然而合作會讓整個蛋糕變大
TREC參與者被要求簽署一份協議,明令禁止宣傳TREC的結果。這項禁令在TREC成立25周年的錄像中被多次提及。盡管參與者們很欣賞這一原則,但吹噓的誘惑卻難以抗拒。
Voorhees提出了一個重要的觀點。TREC深度學習方面的概述論文,例如(Craswell et al. 2020),其中的方法分為三種類型:nnlm(神經網絡語言模型,如BERT)、nn(其他類型的神經網絡)和trad(傳統方法)。圖1顯示了nnlm的性能最好,而trad的性能最差。通過這種方式,合作競爭產生了重要的洞察力,能夠以有意義的方式推動領域的發展,這與強調競爭的排行榜不同,而更像是我的排行榜比你的排行榜更重要。
圖1. ACL-2021的默認概念
作為合作競爭和競爭的第二個例子,考慮MRQA (Machine Reading for Question answer)。對論文的呼吁強調了許多令人欽佩的目標,如域轉移、可解釋性、健壯性和錯誤分析,但不幸的是,公開任務以排行榜為導向,并祝賀獲獎者,而沒有提到更令人欽佩的目標。
有了稍微不同的設計,公開任務可以為域轉移提供一些有趣的見解。表1列出了18個QA基準測試,分成三組6個基準測試。這三個組分別用于訓練、驗證和測試。假設我們沒有使用這組火車/驗證/測試分割,我們使用了許多不同的分割。我們能發現,一些分割比另一些更好嗎?
表1. ACL-2021的主題
MRQA 確定了 18 個基準測試之間的一些有趣的相似點和不同點:
l 文本來源:Wikipedia/網絡片段/其他
l Wikipedia (7個基準測試): DROP, HotpotQA, QAMR, RelationExtraction, SQuAD, TREC, Natural Questions
l 網絡片段(3個基準測試): TriviaQA, SearchQA, ComplexWebQ
l 其他 (8個基準測試): MCTest, RACE, DuoRC, NewsQA, BioASQ, QAST, BioProcess, TextbookQA
l 問題的來源:眾包/領域專家/其他
l 眾包(9個基準測試):ComplexWebQ, DROP, DuoRC, HotpotQA, MCTest, NewsQA, QAMR, SQuAD, TREC
l 領域專家(5個基準測試):BioASQ, BioProcess, QAST, RACE, TextbookQA
l 其他(4個基準測試):SearchQA, Questions Natural, RelationExtraction, TriviaQA
l 答案的來源:基于文檔/不基于文檔
l 基于文檔(9個基準測試):SQuAD HotpotQA, DROP, RACE, TextbookQA, BioProcess, MCTest, QAMR, QAST
l 不基于文檔(9個基準測試):NewsQA TriviaQA, SearchQA, Natural Questions, BioASQ, DuoRC, RelationExtraction, ComplexWebQ, TREC
知道這些模式是否對遷移來說是重要的,這個問題十分有趣。例如,有相當明確的證據表明,構建(眾包)問題比查詢日志中的問題更容易。
例如,TREC QA 于 1999 年從“構建”問題開始,但由于構建問題對于系統而言太容易且不切實際,因此很快從查詢日志中的后續 TREC QA 方向(2000-2007)轉向“真實”問題。基于這些觀察,在問題、文檔和/或答案的來源方面彼此相似的基準之間遷移也可能更有效。通過這種方式,合作競爭可以產生重要的見解,以比排行榜和競爭更有意義的方式推動該領域的發展。
當基準是現實的時,它還有助于推進該領域。MRQA 中的大多數基準測試都基于學術界的基準測試,自然問題除外。為了構建更現實的基準,建議與行業合作并確保基準代表他們關心的實際問題。多家公司參與了多項基準測試。
TREC QA (1999–2007) 和 IBM Watson之間也有聯系。在這種情況下,IBM 于 2006 年開始使用為 TREC QA設計的系統,發現該系統無法很好地解決Jeopardy問題,正如在 TREC 25 周年慶典上所討論的那樣。
經過 5 年的努力,IBM 系統在 2011 年擊敗了兩個最好的人類 Jeopardy 玩家,但他們 2011 年的系統可能與 2006 年的系統有很大不同,因為除其他外,TREC QA 任務并不能很好地代表 Jeopardy 任務。Jeopardy 任務是IBM市場營銷的一個重要問題,盡管網絡搜索等問題可能比 Jeopardy 更真實。
不幸的是,雖然我們都知道IBM贏了,但人們對它是如何實現的,以及這一成就如何推動該領域朝著更令人欽佩的目標前進的卻少之又少。我們應該聽從Voorhees的建議,以競合取代競爭。關鍵不在于誰獲勝,而在于推動該領域發展的洞察力。
二、吸走房間里的氧氣
過度追逐SOTA的結果是什么?
其中一個結果便是,在一個關于計算語言學的會議上發表計算語言學論文越來越難了。
那些準備發表人生第一篇ACL論文的學生們可能會翻開機器學習的教科書,而不是計算語言學的教科書。
ACL會議過去更具包容性。
我們曾經在會議上看到更多來自不同領域的人,比如語言學、哲學、詞典編纂、心理學等。ACL的領域曾經延伸到HLT(人類語言技術),結合了計算語言學、語音和信息檢索/網絡搜索。很多人曾經在更多的領域/場所發表文章:計算語言學(ACL, EMNLP, NAACL, EACL, Coling),機器學習(NeurIPS),語音(ICASSP, Interspeech),信息檢索(SIGIR,TREC),網絡搜索(WWW, WSDM),數據挖掘(KDD),語言資源(LREC),等等。
為什么我們在ACL見不到這些人了?
當我們參加了一個為查克·菲爾莫爾舉辦的ACL-2014研討會時,我們清楚地發現他們中的許多人不再受歡迎了。研討會的氣氛真是酸甜苦百般滋味。他們很感激查克獲得了終身成就獎,但是他們也在哀悼他的去世,他們擔心他們的工作與ACL的走向有關。
菲爾莫爾的“Case for Case”在谷歌Scholar上有超過11k的引用,但ACL不再對這種方法或像FrameNet這樣的語言資源感興趣(以及在LREC上討論的大部分內容)。
這些天,評論家們有時會說,由于BERT工作得很好,諸如framet和WordNet這樣的資源已經不再有意義了。這種言論阻礙了多樣性。那些在資源上投入的人可能會覺得這樣的言論是無禮的(和不道德的)。
甚至機器學習領域的人也對SOTA追逐有所保留。
Rahimi在NIPS-2017上發表了題為“機器學習已成為煉金術”的關于時間測試的演講。NIPS(現在被稱為NeurIPS)過去更容易接受嚴格的理論論證。顯然,對SOTA的追逐排擠了許多重要的話題,包括理論和計算語言學。
在其他領域,如詞典學、圖書館學和信息檢索,則有另一種嚴格的要求,在這些領域,正確的歸因是非常嚴肅的。這些領域的人非常關心抽樣(平衡),什么來自哪里,什么代表什么。當追逐SOTA過于迅速而不那么嚴格時,他們會感到不受歡迎。
考慮HuggingFace中對TREC的引用,以及MRQA的表1。到目前為止,已經召開了30場文本檢索會議。對于這30個會議中的每一個,都有許多軌道和許多數據集,有許多人貢獻了許多。我們向熟悉TREC的人尋求幫助,以消除在HuggingFace和MRQA中提到TREC的歧義。
重要的是,特別是在某些領域,在該表揚的地方給予表揚。引用具有恰當屬性的工作將使我們的領域更具包容性,更能吸引其他領域有著不同優先順序和不同觀點的人。適當的引用也會促進復現。
三、不切實際的期望:超人般的表現,真的嗎?
我們現在討論SOTA追求的三種成本中的第三種。
聲稱超人的表現(在任務上比實際情況更真實)會產生不切實際的期望,可能導致人工智能的冬天。
構造CAPTCHAs(完全自動化公共圖靈測試來區分計算機和人類)以及反向驗證并不難,我們稱之為反向驗證。對于標準驗證碼,你可以賭人成功,賭機器失敗,而對于反向驗證碼,你可以賭機器成功,賭人失敗。
技術往往是驚人的,盡管有時令人疲憊、尷尬、不道德和/或危險。在新聞和社交媒體上很容易找到有趣/可怕的“計算機錯誤”的例子。Alexa最近告訴一個10歲的女孩用一便士和電做一些危險的事情。Gmail autocorrect最近發了一封尷尬的郵件,郵件中說他想和一位商業伙伴交談,結果卻莫名其妙地變成了想和這位商業伙伴睡覺。
計算機被用于各種各樣的用例,這引發了一些嚴重的道德問題。在一個案件中,法官裁定谷歌翻譯不夠好,不足以算作同意警方搜查。社會將需要解決更多這樣的道德問題。
如果機器在轉錄語音和機器翻譯方面真的比人更好,那為什么YouTube和Zoom等服務的字幕中會出現這么多“計算機錯誤”?總是有更多的工作要做。有一些任務,比如下棋,電腦比人做得好得多。但是,對于商業應用程序來說,有許多任務是重要的,比如標題,在這些任務中有改進的機會。
在WMT(機器翻譯研討會)和其他學術會議上,有人聲稱機器已經取得了比他們所擁有的更多的成就。社區傾向于記住這個簡單的信息,盡管進行了重新評估,并提出如下警告: 這一結果必須非常謹慎地看待,并考慮到……評估方法的技術細節以及……重要的是,去年達到對等的語言對在今年的評估中沒有得到確認,類似的情況可能會重復出現。
復制是許多領域的一個主要問題。復制危機的根源之一是對科學方法的過度自信。評估也可能具有誤導性,因為對方法和指標(如BLEU)過于自信。社區更有可能記住超人的結果,而不是警告警告/重新評估。
例如,考慮用技術翻譯會議。
這項技術非常好,但與人類相比還差得遠。第一作者對這項技術有相當多的經驗,因為他在一家中國公司工作,不會說中文。當他有了人工翻譯時,他會更投入地參加會議(而且不會那么疲憊地努力自行翻譯)。
當這項技術第一次被引入時,每個人都對它的工作效果印象深刻。現場直播被展示在舞臺上,這樣房間里的每個人都可以讀到現場發言人用中英文實時播放的內容。在一次備受矚目的會議上,主席強調了這項技術。
現在該技術已經出現了幾年,該技術不再展示在舞臺上(也許是因為一些不可避免的尷尬錯誤)。最新版本在手機上運行,所以只有我們這些需要技術的人才能看到(和聽到)英文和中文的所有內容(疣和所有)。該技術甚至比以前更好,尤其是在延遲方面,但即便如此,它仍遠未達到人類水平。
其他不像我們那樣頻繁使用該技術的人可能會被報告超人 BLEU 分數和延遲的評估誤導。雖然在這些方面機器可能比人更好,但 BLEU 和延遲并不是重要的術語。專業口譯員在需要說的時候翻譯需要說的話,人工口譯員不會犯“計算機錯誤”。
當評估產生的數字好得令人難以置信(使用不適當的指標,例如 BLEU 和平均延遲),我們為什么要如此認真地對待這些數字?
我們對評估方法充滿信心,以至于我們相信結果(并掩蓋警告/重新評估),即使知道結果不可能正確:第一原則是你不能欺騙自己,另外要注意你是最容易被欺騙的人。
許多評估報告稱,機器在許多任務上都比人好。
我們都知道這些超人的數字好得令人難以置信,而且不太可能超越學術基準,轉移到對商業實踐很重要的任務。沒有人會記住警告/重新評估,但他們會記住不切實際的期望,這對該領域的長期健康不利。
從這個角度來看,深度網絡在這么多基準上的成功可以解釋為對這些基準的批評。基準測試往往過于關注那些對我們已有的技術來說非常理想的任務。但基準應該更加強調改進的機會。基準應該不同于公關炒作。基準測試的目的不是讓我們的技術看起來更好(或更好),而是幫助設定未來工作的議程。評估提供了對進展的可靠衡量,以及對未來的現實期望。
我們不反對評估和衡量實際進展,但反對那些比進步更多的是噪音、希望或者炒作的“收獲”。排行榜前兩個位置之間的性能差異(例如,正確率、F1等性能指標)可能并不統計意義上顯著、可重復或者引人注目。
四、追逐SOTA的根本原因
下面兩節將討論人們追求SOTA的兩個可能的根本原因:
1.缺乏領導力和長期戰略規劃:歷史上,議程是由學術界、工業界和政府中相對少數有影響力的領導人自上而下確定的,但如今,議程更多地是自下而上地通過 社交媒體和網站,例如帶papers with code和 Hugging Face 的頻繁下載模型和數據集列表。由于這些變化,重點變得更加短期和事務性。
2.由于程序不完善和糾正這些程序錯誤的無效過程,導致審稿人分配不力,進而導致評審不力。
追求SOTA可能是從歷史悠久的評估傳統演變而來的。Raji等人首先總結一下這段歷史。從歷史上看,強調評估是有道理的。評估過去不僅僅是毫無意義地追求SOTA。ACL-2021 基準測試研討會上介紹了許多關于這段歷史的第一手資料:過去、現在和未來。視頻和幻燈片發布在 github 上。
這段歷史的大部分內容都涉及約翰·馬希、弗雷德·杰利內克和查爾斯·韋恩等有影響力的領導人。在 Mashey、Jelinek 和 Wayne 之前,議程主要是由許多其他有影響力的領導人制定的:Pierce、Skinner、Shannon、Licklider、Minsky、Chomsky 等。如今,人們可能會爭辯說,該議程是由 Hinton、Bengio、LeCun、Pearl 等圖靈獎得主自上而下提出的。
例如,Bengio 正在研究人工智能中一些長期存在的難題,例如因果性和組合性。盡管進行了自上而下的努力,但我們認為追求SOTA的動力實際上來源于社區的驅動(例如papers with code和Hugging Face),更多是自下而上地出現。
本文將表明,追求SOTA是缺乏自上而下領導的結果。
學生需要幫助來尋找要從事的項目。成功是通過交易來衡量的。怎樣才能讓一篇論文在下一次會議上被接受?發表或者消失,除非我們提供更有希望的替代方案,否則學生們很可能會求助于 PWC,以找到一個可能在下一輪會議評審中“成功”的項目。對于擁有更多經驗和對該領域長期健康承擔更多責任的更成熟的研究人員來說,長期成功更受關注。
成熟的研究人員,例如教科書的作者,過去常常在制定議程方面發揮更多作用。在過去,教科書和 ACL 會議之間的聯系比現在更加緊密。
如今,議程更多地通過鼠標點擊自下而上地確定。每個人都有平等的投票權。教科書作者的投票權不比剛起步的學生多。因此,短期關注往往會主導長期關注,因為剛起步的學生的投票范圍遠大于相對少數已建立的研究人員。議程不再由教科書作者和John Mashey、Fred Jelinek和Charles Wayne 等影響者決定。
John Mashey是SPEC的創始人之一,SPEC自1988年以來一直是衡量CPU性能的重要基準。SPEC對商業實踐的影響力可能比普華永道所有基準的總和還要大。
Fred Jelinek曾在上世紀70、80年代擔任IBM語音和機器翻譯部門的經理,后來他來到約翰·霍普金斯大學,創建了CLSP(語言和語音處理中心)。
Charles Wayne 在包括 DARPA和 NSA 在內的美國政府資助機構中發揮了重要作用。
在美國政府中,項目通常設計為運行 5 年左右,但不知何故,從 1980 年代中期開始,我們的領域幾乎連續獲得了 30 年的資助。有人將資助的成功歸功于Wayne 對評估的重視。在Wayne之前,有一個“人工智能冬天”,主要是Pierce 在“語音識別向何處去?”中對語音識別的批評,以及 Pierce 在 ALPAC 報告中對機器翻譯的批評。
與以前的人工智能方法相比,Wayne 對評估的強調更具有魅力和欺騙性。這種方法使資金能夠在漫長的“人工智能寒冬”之后開始并持續數十年,因為資助者可以衡量隨著時間的推移而取得的進展。然而,至關重要的是,與我們今天制定的許多基準不同,Wayne 領導下的基準很大程度上是由自上而下的戰略規劃驅動的,具有明確的長期目標。
Wayne 鼓勵跨學科合作。他通過接觸自然語言處理 (NLP)、信息檢索 (IR) 和語音創建了一系列 HLT(人類語言技術)會議。Wayne 在 TREC(文本檢索會議)的創建中也發揮了重要作用。TREC 與美國商務部下屬的 NIST(美國國家標準與技術研究院)密切相關。
我們的領域在其中一些目標上取得了相當大的進展,但仍有許多工作要做。
雖然很容易將當前的 SOTA 追逐熱潮歸咎于這段歷史中提到的許多領導人,但這是不公平的。如上所述,追逐 SOTA 涉及毫無意義的數字,沒有多少長期戰略價值,而這段歷史上的領導者對該領域做出了重要的長期貢獻,主要是因為他們如此重視長期戰略規劃。
除了缺乏領導力之外,追求 SOTA 的另一個根本原因是審查流程不善。
Rogers的博客將 SOTA 追逐歸因于懶惰/糟糕的審查、信息超載(淹沒在論文中)和對基準測試的過譽,盡管在她的個人博客中對糟糕審查的討論多于對基準的贊譽。
遺憾的是,EMNLP 審查是如此地糟糕。EMNLP的缺陷尤其具有諷刺意味,因為我們創建 EMNLP 主要是為了彌補ACL的缺陷。
過去,EMNLP 審查通過構建比AC更快。如今,EMNLP 審查并沒有更快(也沒有更好),因為所有 ACL會議都使用相同的流程。將我們所有的雞蛋放在一個籃子里并不是解決辦法,尤其是在已知籃子有缺陷的情況下。
最近有很多評論批評。Rogers的博客為審稿人提供了許多建設性的建議。雖然我們同意審查是不好的,甚至比以前更糟糕,但責備審查者不太可能導致改進。審稿人做審稿人所做的事情。創建更多教程、規則和流程不太可能有幫助。
人們普遍認為 ACL 審查是一個改進的機會。ACL 最近推出了基于公開審查的新滾動審查流程 (ARR)。也許 ARR 會改善問題,盡管我們對此表示嚴重懷疑。
最佳實踐往往從確定根本原因開始。為了改變而引入改變不太可能帶來改進。更好的做法是,逐步推出新流程,不要同時進行太多更改。
有一點是肯定的,如表 2 所示,ACL-2022 并不比 ACL-2021 快。ARR 的最初目標是在 35 天內完成所有評論和元評論。該過程要求每篇論文有 3 篇評論,一旦完成,則需要一篇元評論。這是一個非常緊迫的轉變。
相比之下,在 ACL 2021 中,從提交到通知的時間為 92 天,幾乎是 ARR 目標的3倍。但是 ACL-2022 使用了 ARR 而 ACL-2021 沒有。如果 ARR 真的快了3倍,為什么表2的時間表中沒有出現這種加速?
圖2. ACL-2022并沒有比ACL-2021快
速度很重要,但質量更重要。為什么審核這么差?正如羅杰斯在她的博客中指出的那樣,審稿人很累而且報酬過低。但這也適用于研究人員。
我們大多數人做所做的事情是因為我們非常關心所做的事情。研究人員也很累且報酬過低,但這不是差評的根本原因。更可能的根本原因是將論文分配給的審稿人。ARR 有許多嚴重的設計缺陷,使得審稿人很可能會比以前更不合格。以前很少有學生被邀請審稿。審稿人通常是被引論文的作者,這增加了審稿人熟悉相關背景材料的幾率,并積極傾向于一般方法。
過去,審稿人在該主題方面的專業知識比論文的目標讀者多。不幸的是,現在情況已不再如此。
追求SOTA是這些新(但未改進)流程的自然結果。由于作者不能假設審稿人是合格的或對該領域有同理心,作者需要提出一個簡單的論點,以便與沒有動力的審稿人一起工作。根據經驗,作者發現強調SOTA對于隨機審稿人是有效的。
我們不能責怪作者所做的事情,也不能責怪審稿人所做的事情。我們已經看到了問題,而且是我們自己造成的。
總結
以上是生活随笔為你收集整理的审视AI界的“SOTA成瘾”丨AI学者万字论述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: task3- python与word
- 下一篇: iOS 边学边记 升级ios14 Xco