Jeff Dean回顾谷歌2021
Jeff Dean回顧谷歌2021
新年伊始,谷歌AI掌門人Jeff Dean的年度總結「雖遲但到」,這篇萬字長文系統回顧了過去一年來機器學習領域的五大趨勢。除了超大AI模型,谷歌去年還做了啥?
2021年,谷歌在機器學習領域可謂是十分高產。 畢竟,這幫人在NeurIPS 2021上就投了177篇論文。 1月11日,Jeff Dean終于用一篇萬字長文完成了總結。
趨勢 1:功能更強大、通用的機器學習模型
研究人員正在訓練出比以往任何時候更大、功能更強大的機器學習模型。近幾年,語言領域的模型規模迅速增長,參數數量從百億級(例如110億參數的T5模型)發展到現在的數千億級(如 OpenAI 的 1750億參數的GPT-3模型和 DeepMind 的 2800億參數的Gopher模型。 在稀疏模型方面,如Google的GShard模型參數為6000億,GLaM模型參數更是達到了1.2萬億)。數據集和模型規模的擴大,使得各種語言任務的準確性顯著提高,標準自然語言處理 (NLP) 基準任務性能獲得全面改進。這些高級模型中,很大一部分模型專注于書面語言的單一但重要的模態,并在語言理解基準和開放式會話能力方面達到了最先進的結果。此外,這些模型可以在訓練數據相對較少的情況下泛化到新的語言任務中,有時甚至不需要新的訓練樣本。比如Google的的LaMDA模型就可以進行開放式對話,并在多輪對話中保留重要的上下文語境信息。
用于圖像識別和視頻分類的Transformer在許多基準測試中取得了SOTA。與單獨的視頻數據相比,在圖像數據和視頻數據上共同訓練模型可以提高視頻任務的性能。 為圖像和視頻Transformer開發了稀疏的軸向注意力機制,為視覺Transformer模型找到了更好的標記圖像的方法,并通過研究視覺Transformer方法與卷積神經網絡相比如何運作,提高了對視覺Transformer的理解。Transformer與卷積操作的結合,在視覺以及語音識別任務中均表現出明顯優勢。 生成式模型的輸出也在大幅提高。尤其是圖像生成模型。最近的模型已經具備這樣的能力:只給定一個類別的逼真圖像,模型就可以對低分辨率的圖像進行「填充」,生成自然的高分辨率對應圖像,甚至可以生成自然的任意尺度的自然場景。圖像甚至可以被轉換為一串離散的標記,然后用自回歸生成模型實現高精度合成。
除了先進的單模態模型外,大規模的多模態模型開始興起。可以接受多種不同的輸入模式(語言、圖像、語音、視頻),并且在某些情況下產生不同的輸出模式,比如從描述性句子或段落生成圖像, 或用人類語言描述圖像的內容。
基于自然文本描述生成的圖像 與現實世界一樣,在多模態數據中有些東西更容易學習。因此,將圖像和文本配對可以幫助完成多語言檢索任務,以及更好地理解如何將文本和圖像輸入配對,可以為圖像字幕任務帶來更好的結果。 同樣,對視覺和文本數據的聯合訓練也有助于提高視覺分類任務的準確性和魯棒性,而對圖像、視頻和音頻任務的聯合訓練可以提高所有模態的泛化性能。
基于視覺的機器人操作系統示例,可以完成從「將葡萄放進碗」到「將瓶子放進托盤」的任務泛化 這些模型一般都是使用自監督學習方法訓練的。自監督學習允許大型語音識別模型以匹配之前的語音搜索自動語音識別 (ASR) 基準準確度,同時僅使用 3% 的帶注釋訓練數據。這可以大大減少為特定任務啟用機器學習所需的工作量,并使在更具代表性的數據上訓練模型變得更容易。
所有這些趨勢都指向訓練功能強大的通用模型的方向,這些模型可以處理多種數據模式并解決數千或數百萬個任務。通過構建稀疏性,以便為給定任務激活的模型的唯一部分是那些已經為其優化的部分,這些多模態模型可以變得高效。 在接下來的幾年中,將在稱為Pathways的下一代架構和總體努力中追求這一愿景,并有望望在這一領域看到實質性進展。
趨勢 2:機器學習模型效率持續提升 計算機硬件設計、機器學習算法和元學習研究的進步推動機器學習模型的效率和性能提升。過去一年里,機器學習模型從訓練和硬件、到架構的各個組件,都實現了效率的不斷優化,同時保持整體性能不降低,甚至提升,大大降低了計算成本,提升了效率。 機器學習加速器性能持續提升 每一代機器學習加速器都在前幾代的基礎上實現性能提升,去年,谷歌發布了TPUv4 系統,這是谷歌的第四代張量處理器,比 TPUv3 的性能測試結果提高了2.7 倍。
每個 TPUv4 芯片的峰值性能是 TPUv3 芯片的約 2 倍,每個 TPUv4 pod 的規模為 4096 個芯片(是 TPUv3 pod 的 4 倍),每個 pod 的性能約為 1.1 exaflops。擁有大量芯片并通過高速網絡連接在一起的 Pod 可以提高大型模型的效率。 移動設備上的機器學習能力也在大幅提升。Pixel 6 手機采用全新的Google Tensor 處理器,該處理器集成了強大的機器學習加速器,以更好地支持重要的設備端功能。
機器學習編譯和負載優化性能持續提升 即使硬件不變,編譯器的改進和機器學習加速器系統軟件的其他優化也可以大大提高效率。 《A Flexible Approach to Autotuning Multi-pass Machine Learning Compilers》 展示了如何使用機器學習來執行編譯設置的自動調整,以獲得 5-15% 的全面性能提升(有時甚至高達2.4 倍改進)用于同一底層硬件上的一套機器學習程序。 在上個月谷歌的題為《神經網絡的通用和可擴展并行化》的博客中,描述了一種基于XLA 編譯器的自動并行化系統,該系統能夠將大多數深度學習網絡架構擴展到加速器的內存容量之外,并已應用于許多大型模型,例如GShard-M4、LaMDA、BigSSL、ViT、MetNet-2和GLaM,在多個領域實現了SOTA。
通過在 150 個 ML 模型上使用基于 ML 的編譯器自動調整實現端到端模型的加速 人類驅動的更高效模型架構的發現 模型架構的持續改進大大減少了為許多問題實現給定精度水平所需的計算量。Transformer架構能夠提高幾多個 NLP 和翻譯基準的最新技術水平,大大降低計算量,同樣,盡管使用的計算量比卷積神經網絡少 4 到 10 倍,但Vision Transformer能夠在許多不同的圖像分類任務上實現最先進的結果。 機器驅動的更高效模型架構的發現 神經架構搜索(NAS) 可以自動發現對給定問題更有效的新機器學習架構。 NAS 的一個主要優點是可以大大減少算法開發所需的工作量,因為只需要每個搜索空間和問題域組合的一次性工作量。此外,雖然執行 NAS 的初始工作在計算上可能很昂貴,但由此產生的模型可以大大減少下游研究和生產設置中的計算,從而大大降低總體資源需求。
最近發現了一種更高效的NAS架構,稱為Primer(也已開源),與普通的 Transformer 模型相比,可以將訓練成本降低75%。 NAS 還被用于在視覺領域發現更高效的模型。EfficientNetV2模型架構是一個神經結構的搜索,對模型的準確性,模型的大小,并且訓練速度聯合優化的結果。
在 ImageNet 基準測試中,EfficientNetV2 將訓練速度提高了 5 到 11 倍,同時比以前的最先進模型顯著減小了模型大小。 使用稀疏性 稀疏性,即模型具有非常大的容量,但對于給定的任務、示例或令牌,只有模型的某些部分被激活,這是又一個可以明顯提高效率的算法進步。 2017 年,引入了稀疏門控混合專家層,該層在各種翻譯基準上展示了更好的結果,同時計算量比以前最先進的密集 LSTM 模型下降了90%。 最近,Switch Transformers實現了將混合專家風格的架構與 Transformer 模型架構的結合,與密集的T5-Base Transformer 模型相比,訓練效率提高了 7 倍。GLaM模型將轉換器和混合專家風格的層結合起來,在 29 個基準測試中平均超過 GPT-3 模型的準確性,而訓練所需的能量減少了三分之二,推理計算量減少了一半。 稀疏性的概念也可以用于降低核心 Transformer 架構中注意力機制的成本。
在模型中利用稀疏性,是一種在計算效率方面具有非常高的潛在回報的方法,目前在這個方向上的嘗試才剛剛開始。
趨勢 3:機器學習造福個人和社區
隨著機器學習模型、算法和硬件的創新,移動設備已經能夠持續有效地感知周圍的環境。這些技術進步提高了機器學習技術的可用性和易用性,也提高了算力。這對于手機拍照、實時翻譯等流行功能至關重要。同時,用戶也能獲得更加個性化的體驗,并加強了隱私保護。 現在,人們比以往任何時候都依靠手機攝像頭來記錄日常生活。機器學習技術不斷提升手機攝像頭的功能,拍出更高質量的圖像。 比如 HDR+、提升在極弱光下拍照的能力、更好地處理人像,拍攝出更符合攝影師視覺的照片。Google Photos 現在提供的基于機器學習的強大工具進一步改進拍攝品質。
HDR+ 可以將多張曝光不足的原始圖像進行合并,合并后的圖像減少了噪點并增加了動態范圍,獲得更高質量的最終圖像(右) 手機除了拍照之外,還是重要的實時溝通工具,用戶可以使用實時翻譯和實時字幕進行電話通話。 由于自監督學習等技術的進步,語音識別的準確性不斷提高,對于重音、嘈雜的條件或重疊語音的環境以及多種語言都有明顯改善。
由于文本—語音合成技術的進步,信息能夠更容易跨越形式和不同語言的障礙。在 Lyra 語音編解碼器和更通用化的 SoundStream 音頻編解碼器中,研究人員將機器學習與傳統編解碼器方法相結合,能夠可靠地傳達更高保真度的語音、音樂和其他聲音。 Duplex 技術的進步,讓自動呼叫篩選等功能更加強大,日常交互變得更自然。即使是用戶可能經常執行的簡短任務,也已通過智能文本選擇等工具得到改進。該工具會自動選擇電話號碼或地址等實體,便于復制粘貼。
研究表明,用戶是否「凝視」屏幕,是衡量精神疲勞的重要生物標志物 Screen Attention機制可防止手機屏幕在用戶注視時變暗。機器學習技術還支持了更多確保人員和社區安全的新方式,比如對可能的網絡釣魚攻擊的警報、更安全的路由檢測手段等。 鑒于這些新功能背后的數據具有潛在的敏感性,因此必須將默認設計為私有的。中的許多都在Android的私有計算核心內運行——這是一個與操作系統的其余部分隔離的開源安全環境。 Android確保在私有計算核心中處理的數據不會在用戶未采取操作的情況下共享給任何應用程序,還要阻止私有計算核心內的任何功能直接訪問網絡。 研究人員利用包括聯邦學習在內的隱私技術,聯合分析和私人信息檢索,在確保隱私的同時實現學習。
聯邦重建」是一種局部聯邦學習新技術 這些技術對于發展下一代計算和交互范式至關重要,個人或公共設備可以在不損害隱私的情況下學習并有助于訓練世界的集體模型。 過去一段時間里,機器學習系統的交互變得更加直觀,更像是一個社交實體而不是機器。只有對目前的技術堆棧(從邊緣到數據中心)進行深度變革,才能廣泛而公平地訪問這些智能接口,更好地支持神經計算。
趨勢 4:機器學習在科學、健康和可持續發展方面的進步
近年來,機器學習在基礎科學領域的影響越來越大,從物理學到生物學,甚至是醫學。 隨著ML變得更加強大和完善,在現實世界中的應用范圍和影響力也將持續擴大,為解決一些最具挑戰性的問題提供幫助。
大規模的計算機視覺應用
過去十年來,計算機視覺的進步使計算機能夠被用于不同科學領域的各種任務。 在神經科學領域,自動重建技術可以從高分辨率的腦組織薄片的電子顯微鏡圖像中恢復腦組織的神經連接結構。 去年,谷歌與哈佛大學的Lichtman實驗室合作,分析了腦組織樣本,并制作了人類大腦皮層中突觸連接的第一個大規模研究,跨越了大腦皮層各層的多種細胞類型。 這項工作的目標是產生一種新的資源,以協助神經科學家研究人類大腦驚人的復雜性。
一個成年人類大腦中大約860億個神經元中的6個神經元 另外,谷歌提出了一種基于深度學習的天氣預報方法。使用衛星和雷達圖像作為輸入,并結合其他大氣數據,從而讓產生的天氣和降水預報比傳統的基于物理學的模型更準確,預報時間長達12小時。 不僅如此,機器學習還可以比傳統方法更快地產生更新的預測,這在極端天氣的時候可能是至關重要的。
2020年3月30日科羅拉多州丹佛上空0.2毫米/小時降水的比較 左:來自MRMS的基準真相;中:由MetNet-2預測的概率圖;右:基于物理學的HREF模型預測的概率圖。 MetNet-2能夠在預測中比HREF更早地預測風暴的開始,以及風暴的起始位置,而HREF錯過了起始位置,但很好地捕捉了增長階段。 將計算機視覺技術應用于衛星圖像可以幫助識別大陸范圍內的建筑邊界,進而提供自然災害后的快速損害評估。 目前,谷歌已經在「開放建筑」數據集中開源,其中包含了5.16億棟建筑的位置和足跡,覆蓋了非洲大陸的大部分地區。
衛星圖像中建筑物的分割實例 左:原始圖像;中:語義分割,每個像素都有一個置信度分數,即是建筑物還是非建筑物;右圖:實例分割,通過閾值處理和將相連的組件組合在一起獲得。 這些案例中的一個共同主題是,ML模型能夠在分析現有視覺數據的基礎上高效、準確地執行專門任務,支持高影響的下游任務。
自動設計空間探索
讓ML算法以自動化的方式探索和評估一個問題的設計空間,也在許多領域產生了出色結果。 比如,一個基于Transformer的自動編碼器學會了創建美觀并實用的文檔布局,同樣的方法可以擴展到家具裝修的布局探索上。
變量Transformer網絡(VTN)模型,能夠提取布局元素之間的有意義的關系,以生成現實的合成文件 或者是讓機器學習自己去探索計算機游戲的規則,通過調整設計來提高游戲的可玩性,幫助人類游戲設計師能夠更快地創建優秀的游戲。 此外,谷歌還將ML用于快速創建ASIC芯片的設計布局,不僅將時間從幾周縮短到幾小時,而且甚至比人類專家給出的結果更好。在即將推出的TPU-v5芯片的設計中,就利用了這種自動布局方法。
在健康方面的應用
除了推動基礎科學的發展,ML還可以更廣泛地推動醫學和人類健康的進步。 以基因組學領域為例,計算從一開始就對基因組學很重要,但ML增加了新的能力并顛覆了舊的模式。 對于新開發的測序儀,更準確、更快速,但也帶來新的推斷挑戰。谷歌發布的開源軟件DeepConsensus以及與UCSC合作的PEPPER-DeepVariant,用最先進的信息學支持這些新儀器。
DeepConsensus的Transformer架構示意圖,可以糾正測序的錯誤 在處理測序儀數據之外,由廣泛的表型和測序個體組成的大型生物庫可以徹底改變理解和管理疾病遺傳傾向的方式。其中,谷歌提出的DeepNull方法更好地利用大型表型數據進行遺傳發現。
生成大規模的解剖學和疾病特征量化的過程,以便與生物庫中的基因組數據相結合 正如ML可以看到基因組學數據的隱藏特征一樣,也可以從其他健康數據類型中發現新的信息和見解。 疾病的診斷往往是關于識別一個模式,量化一個相關性,或識別一個更大類別的新實例,而這些都是ML擅長的任務。 ML輔助的結腸鏡檢查程序就是一個特別有趣的例子。在這一領域,谷歌證明了ML可以幫助檢測難以捉摸的息肉。 在與耶路撒冷Shaare Zedek醫療中心的合作中,平均每次手術可以檢測到一個本來會被遺漏的息肉,使每次手術的錯誤警報少于4次。
A:一般異常情況、B:結核病、C:COVID-19的真陽性,真陰性,假陽性,假陰性的胸部X光片樣本 在每張CXR上,紅色的輪廓表示模型集中識別異常的區域,黃色的輪廓指的是由放射科醫生識別的區域。 另一個雄心勃勃的醫療保健計劃,Care Studio,使用最先進的ML和先進的NLP技術來分析結構化數據和醫療筆記,在正確的時間向臨床醫生提供最相關的信息。
此外,現在谷歌也將ML的應用集成到智能手機當中。 例如手機攝像頭評估心率和呼吸率,在不需要額外硬件的情況下,讓用戶更好地了解夜間的健康狀況。
用于非接觸式睡眠傳感的定制ML模型自動計算用戶存在的可能性和清醒狀態(醒著或睡著)的概率
趨勢 5:對機器學習更深更廣的理解
隨著ML在技術產品和社會中被更廣泛地使用,研究人員必須確保技術的公平和公正,并且使其能夠惠及到所有人。 其中一個重點領域是基于用戶在在線產品中活動的推薦系統。 由于這些推薦系統通常由多個不同的組件組成,理解公平性往往需要對單個組件以及單個組件在組合在一起時的行為進行觀察。 此外,當從隱含的用戶活動中學習時,推薦系統以無偏見的方式學習也很重要。因為從以前的用戶所展示的項目中學習的直接方法表現出眾所周知的偏見。
與推薦系統一樣,背景知識在機器翻譯中也很重要。因為大多數機器翻譯系統都是孤立地翻譯單個句子,從而讓與性別、年齡或其他領域有關的偏見進一步加強。 去年谷歌發布了一個數據集,以研究基于維基百科傳記的翻譯中的性別偏見。
https://storage.googleapis.com/gresearch/translate-gender-challenge-sets/Readme.html 部署機器學習模型的另一個常見問題是分布性轉變:如果模型所訓練的數據的統計分布與模型作為輸入的數據的統計分布不一樣,那么模型的行為有時會無法預測。 對此,谷歌采用了Deep Bootstrap框架來比較一個模型在現實世界和「理想世界」中的表現,前者有有限的訓練數據,后者有無限的數據。由此可以幫助開發出能更好地概括新環境的模型,并減少對固定訓練數據集的偏見。 https://arxiv.org/pdf/2010.08127.pdf 盡管關于ML算法和模型開發的工作得到了極大的關注,但數據收集和數據集的策劃往往得到的關注較少。 這是一個重要的領域,因為訓練ML模型的數據可能是下游應用中偏見和公平問題的潛在來源。而分析ML中的這種數據級聯可以幫助評估整改項目的生命周期,從而對結果產生實質性影響。 不同顏色的箭頭表示各種類型的數據級聯,每一種級聯通常起源于上游,在ML開發過程中復合,并體現在下游 更好地理解數據的總體目標是ML研究的一個重要部分。因為錯誤標記的數據或其他類似的問題會對整個模型行為產生巨大的影響。 谷歌為此建立了「了解數據」(Know Your Data)工具,以幫助ML研究人員和從業人員更好地了解數據集的屬性。 Know Your Data顯示了描述吸引力的詞和性別之間的關系 同樣,了解基準數據集的使用動態也很重要,因為在ML作為一個領域的組織中發揮著核心作用。
盡管對單個數據集的研究已經越來越普遍,但對整個領域的數據集使用動態的研究仍然沒有得到充分探索。 因此谷歌發表了第一個關于數據集創建、采用和重用動態的大規模經驗分析。這項工作為實現更嚴格的評估,以及更公平和社會化的研究提供了深入的見解。
https://arxiv.org/pdf/2112.01716.pdf 創建更具包容性和更少偏見的公共數據集是幫助為每個人改善ML領域的一個重要途徑。 2016年,谷歌發布了開放圖像數據集,這是一個約900萬張圖像的集合,其中有橫跨數千個對象類別的圖像標簽和600個類別的注釋。 去年,谷歌在Open Images Extended集合中引入了More Inclusive Annotations for People(MIAP)數據集。該集合中每個注解都標有公平性相關的屬性,包括感知的性別和年齡范圍。
https://storage.googleapis.com/openimages/web/extended.html 解決網上各種形式的濫用行為,如有毒語言、仇恨言論和錯誤信息,是谷歌的一個核心優先事項。 能夠可靠、高效、大規模地檢測出這些形式的濫用行為,對于確保平臺安全,以及避免通過語言技術以無監督的方式從在線話語中學習到這些負面特征的風險,都是至關重要的。 谷歌通過Perspective API工具開創了這一領域的工作,但大規模的檢測所涉及的細微差別仍然是一個復雜的問題。
https://www.perspectiveapi.com/case-studies/ 在最近的工作中,谷歌與不同的學術伙伴合作,引入了一個全面的分類法來推理網絡仇恨和騷擾的變化情況。 此外,通過定性研究和網絡層面的內容分析,谷歌的Jigsaw團隊與喬治華盛頓大學的研究人員合作,研究了虛假信息是如何在社交媒體平臺上傳播的。
https://medium.com/jigsaw/hate-clusters-spread-disinformation-across-social-media-995196515ca5 另一個潛在的擔憂是,ML語言理解和生成模型有時也會產生沒有適當證據支持的結果。 為了解決問題回答、總結和對話中的這個問題,谷歌開發了一個新的框架來衡量結果是否可以歸于特定的來
源。
https://arxiv.org/pdf/2112.12870.pdf 模型的互動分析和調試仍然是負責任地使用ML的關鍵。 谷歌利用新的能力和技術更新了語言可解釋性工具,包括對圖像和表格數據的支持,從之前What-If工具中延續下來的各種功能,以及通過用概念激活矢量測試技術對公平性分析的支持。 https://pair-code.github.io/lit/ 此外,ML系統的可解釋性也是一個重點問題。 在與DeepMind的合作中,谷歌在理解人類象棋概念在自監督訓練的AlphaZero象棋系統中的獲得方面取得了進展。
探索AlphaZero在下棋方面可能學到的東西 隨著ML模型變得更有能力并在許多領域產生影響,保護ML中使用的私人信息就變得尤為重要了。 而谷歌在最近的一些工作中,既強調了訓練數據有時可以從大型模型中提取,又指出了如何在大型模型中保障隱私。
https://arxiv.org/pdf/2108.01624.pdf 此外,谷歌也在利用其他的ML技術來確保差異化的隱私,例如私有聚類、私有個性化、私有加權采樣等。
差異化私有聚類算法
結論
研究通常是一個持續多年的旅程。 而谷歌近幾年的研究工作已經逐漸開始對其產品,甚至整個世界產生影響了。 例如,在TPU等ML硬件加速器以及TensorFlow和JAX等軟件框架的投資已經取得了成果,而ML模型在谷歌的產品和功能中越來越普遍。 對創建Seq2Seq、Inception、EfficientNet和Transformer的模型架構的研究或批量規范化和蒸餾等算法研究正在推動語言理解、視覺、語音和其他領域的進展。 Jeff Dean表示,現在是機器學習和計算機科學真正令人興奮的時代。計算機通過語言、視覺和聲音理解周圍世界并與之交互的能力在不斷提高。 由此,也開辟了一個讓計算機幫助人類完成現實世界工作的全新疆域。
參考資料:
https://ai.googleblog.com/2022/01/google-research-themes-from-2021-and.html
總結
以上是生活随笔為你收集整理的Jeff Dean回顾谷歌2021的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 拓展ARM研发进展与玩家
- 下一篇: HBM显存技术与市场前景