32 篇论文硬核盘点 2022 年度 AI 热点
2022 超全的 AI 圈研究合集在這!知名博主 Louis Bouchard 自制視頻講解加短篇分析,對小白也超級友好。
雖然世界仍在復蘇,但研究并沒有放慢其狂熱的步伐,尤其是在人工智能領域。
此外,今年人們對 AI 倫理、偏見、治理和透明度都有了新的重視。
人工智能和我們對人腦的理解及其與人工智能的聯系在不斷發展,在不久的將來,這些改善我們生活質量的應用將大放光彩。
知名博主 Louis Bouchard 也在自己的博客中盤點了 2022 年 32 項(!)AI 技術突破。
接下來讓我們一起看看,這些令人驚艷的研究都有哪些吧!
LaMA:基于傅里葉卷積的分辨率穩健的大型掩碼修復
你肯定經歷過這種情況:你和你的朋友拍了一張很棒的照片。結果,你發現有人在你身后,毀了你要發到朋友圈或者小紅書的照片。但現在,這不再是問題。
基于傅里葉卷積的分辨率穩健的大型掩碼修復方法,可以讓使用者輕松清除圖像中不需要的內容。不論是人,還是垃圾桶都能輕松消失。
它就像是你口袋里的專業 ps 設計師,只需輕輕一按,就能輕松清除。
雖然看似簡單,但圖像修復是許多 AI 研究人員長期以來一直需要解決的問題。
STIT:基于 GAN 的真實視頻人臉編輯
你肯定有過這樣的經歷:在看電影時,會發現電影中的演員看起來要比本人年輕得多。
之前,這需要專業人員花費數百甚至數千小時的工作,手動編輯這些演員出現的場景。但利用 AI,你可以在幾分鐘內完成。
事實上,許多技術可以讓你增加笑容,讓你看起來更年輕或更老,所有這些都是使用基于人工智能的算法自動完成的。它在視頻中被稱為基于 AI 的面部操作(AI-based face manipulations),代表了 2022 年的最新技術水平。
NeROIC:利用在線圖庫的神經渲染
神經渲染可以通過物體、人物或場景的圖片,在空間中生成逼真的 3D 模型。
有了這項技術,你只需擁有某物體的幾張圖片,就可以要求機器了解這些圖片中的物體,并模擬出它在空間中的樣子。
通過圖像來理解物體的物理形狀,這對人類來說很容易,因為我們了解真實的世界。但對于只能看到像素的機器來說,這是一個完全不同的挑戰。
生成的模型如何融入新場景?如果照片的光照條件和角度不同,生成的模型也會因此變化,該怎么辦?這些都是 Snapchat 和南加州大學在這項新研究中需要解決的問題。
SpeechPainter:文本條件下的語音修復
對于圖像來說,基于機器學習的修復技術不僅可以移除其中的內容,而且還能根據背景信息填充圖像的缺失部分。
對于視頻修復來說,其挑戰在于不僅要保持幀與幀之間的一致性,而且要避免生成錯誤的偽影。同時,當你成功地將一個人從視頻中「踢出去」之后,還需要把他 / 她的聲音也一并刪除才行。
為此,谷歌的研究人員提出了一種全新的語音修復方法,可以糾正視頻中的語法、發音,甚至消除背景噪音。
GFP-GAN:利用生成性面部先驗,實現真實世界的盲臉修復
你是否有一些珍藏的舊照片,因為年代久遠而畫質模糊?不用擔心,有了盲臉修復技術(Blind Face Restoration),你的回憶會被歷久彌新。
這個全新且免費的 AI 模型可以在一瞬間修復你的大部分舊照片。即使修復前的照片畫質非常低,它也能很好地工作。這在之前通常是一個相當大的挑戰。
更酷的是,你可以按照自己喜歡的方式進行嘗試。他們已經開源了代碼,創建了一個演示和在線應用程序供大家試用。相信這項技術一定讓你大吃一驚!
4D-Net:多模態對齊的學習
自動駕駛汽車如何「眼觀六路」?
你可能聽說過車企正在使用的 LiDAR 傳感器或其他奇怪的相機。但它們是如何工作的,它們如何觀察這個世界,以及它們與我們相比究竟看到了什么不同?
與特斯拉只使用攝像頭來了解世界不同,大多數自動駕駛汽車廠商,比如 Waymo,使用的是普通攝像頭和 3D LiDAR 傳感器。
它們不會像普通相機那樣生成圖像,而是生成 3D 點云,利用 RGB 傳感信息,測量物體之間的距離,計算它們投射到物體的脈沖激光的傳播時間。
盡管如此,我們如何有效地結合這些信息并讓車輛理解它?車輛最終會看到什么?自動駕駛是否足夠安全?Waymo 和谷歌的一篇新研究論文將會解答這些謎題。
Instant NeRF:基于多分辨率哈希編碼的即時神經圖元
如何通過照片模擬世界的樣子?
使用 AI 模型,人們可以將拍攝的圖像變成高質量的 3D 模型。這項具有挑戰性的任務,讓研究人員通過 2D 圖像,創建物體或人在三維世界中的樣子。
通過基于哈希編碼的神經圖元(graphical primitives),英偉達實現 5 秒訓練 NeRF,并獲得了更好的效果。在不到兩年的研究中,將 NeRF 的訓練速度提高了 1000 多倍。
DALL?E 2:基于 CLIP 特征的文本生成圖像模型
去年,OpenAI 發布了文本-圖像生成模型 DALL?E?,F在,升級版 DALL?E 2 又來了。
DALL?E 2 不僅可以從文本生成逼真的圖像,其輸出的分辨率是前者的四倍!
不過,性能方面的提升好像不足以令 OpenAI 滿足,為此他們還讓 DALL?E 2 學會了一項新技能:圖像修復。
也就是說,你可以用 DALL?E 2 編輯圖像,或者添加任何想要的新元素,比如在背景中加上一只火烈鳥。
MyStyle:個性化生成先驗
谷歌和特拉維夫大學提出了一個非常強大的 DeepFake 技術。擁有了它,你幾乎無所不能。
只需給一個人拍上百張照片,就可以對其圖像進行編碼,并修復、編輯或創建出任何想要的樣子。
這既令人驚奇又令人恐懼,尤其是當你看到生成的結果時。
OPT:開放預訓練的 Transformer 語言模型
GPT-3 如此強大的原因,在于其架構和大小。
它有 1750 億個參數,是人類大腦中神經元數量的兩倍!如此巨大的神經網絡使該模型幾乎學習了整個互聯網的內容,了解我們如何書寫、交換和理解文本。
就在人們驚嘆于 GPT-3 的強大功能時,Meta 向開源社區邁出了一大步。他們發布了一個同樣強大的模型,并且,該模型已經完全開源了!
該模型不僅也有超過千億級別的參數,并且,與 GPT-3 相比,OPT-175B 更加開放及便于訪問。
BlobGAN:空間離散的場景表征
對于如何描述一個場景,Adobe 研究團隊給出了一個新的方法:BlobGAN。
BlobGAN 使用「斑點」(blob)來描述場景中的對象。研究人員可以移動這些斑點,將它們變大、變小,甚至可以刪除,這對圖像中斑點所代表的物體都會產生同樣的效果。
正如作者在他們的結果中分享的那樣,你可以通過復制斑點,在數據集中創建新的圖像。
現在,BlobGAN 的代碼已經開源,感興趣的小伙伴,抓緊快上手試試吧!
Gato:通才智能體
DeepMind 構建了一個單一的「通用」智能體 Gato??梢酝?Atari 游戲、做字幕圖像、與人聊天、還能控制機械臂!
更令人震驚的是,它只訓練一次并使用相同的權重,便能完成所有任務。
Gato 是一個多模態智能體。這意味著它既可以為圖像創建標題,也能作為聊天機器人回答問題。
雖然 GPT-3 也能陪你聊天,但很明顯,Gato 可以做到更多。畢竟,能聊天的 AI 常有,能陪玩游戲的不常有。
Imagen:具有深度語言理解的文本到圖像的擴散模型
如果你認為 DALL?E 2 很優秀,那么不妨看看這個來自 Google Brain 的新模型 ——Imagen—— 可以做些什么。
DALL?E 很神奇,但生成的圖像往往缺乏真實感,這就是谷歌團隊研發的 Imagen 所要解決的問題。
根據比較文本到圖像模型的基準,Imagen 在大型語言模型的文本嵌入對文本-圖像的合成方面成效顯著。生成的圖像既天馬行空,又真實可信。
DALL·E Mini
一組小扎的驚悚圖曾在 Twitter 上風靡一陣。這組 San 值狂掉的作品,出自 DALL?E mini 之手。
作為 DALL?E 家族的「青春版」,DALL?E mini 是勝在免費開源。代碼已留,下一個被魔改的人物又會是誰呢?
NLLB:不落下任何一種語言
Meta AI 發布的這款 NLLB-200 模型,模型命名理念來自「不落下任何一種語言」(No Language Left Behind),在 200 多種語言上實現了任意互譯。
研究的亮點在于:研究者讓大多數低資源語言訓練提升多個數量級,同時實現了 200 + 語言翻譯的 SOTA 結果。
Dual-Shutter 光學振動傳感系統
聲音也能被看見?
這篇獲得 CVPR 2022 最佳論文榮譽獎的研究,提出了一種新穎的 Dual-Shutter 方法,通過使用「慢速」相機(130FPS)同時檢測多個場景源的高速(高達 63kHz)表面振動,并通過捕獲由音頻源引起的振動來實現。
由此便可以實現樂器的分離、噪音的消除等各種需求。
Make-A-Scene:基于場景且有人類先驗的文本到圖像生成
Make-A-Scene 不僅僅是「另一個 DALL?E」。
雖然 DALL?E 可以根據文本提示生成隨機圖像,這確實很酷,但同時也限制了用戶對生成結果的控制。
而 Meta 的目標是推動創意表達,將這種文本到圖像的趨勢與之前的草圖到圖像模型相結合,從而產生「Make-A-Scene」:文本和草圖條件圖像生成之間的奇妙融合。
BANMo:從任意視頻中構建目標 3D 動畫模型
基于 Meta 的這項研究,你只需給定捕獲可變形對象的任意視頻,比如上傳幾個小貓小狗的視頻,BANMo 便可通過將來自數千張圖像的 2D 線索整合到規范空間中,進而重建一個可編輯的動畫 3D 模型,且無需預定義形狀模板。
用潛在擴散模型進行高分辨率圖像合成
今年大火的圖像生成模型 DALL?E、Imagen 以及強勢出圈的 Stable Diffusion,這些強大的圖像生成模型有什么共同點?除了高計算成本、大量訓練時間之外,它們都基于相同的擴散機制。
擴散模型最近在大多數圖像任務中取得了 SOTA 結果,包括使用 DALL?E 的文本到圖像,還有許多其他與圖像生成相關的任務,如圖像修復、風格轉換或圖像超分辨率。
PSG:基于場景的圖像生成模型
AI 可以幫你準確識別圖像中的物體,但是理解物體與環境之間的關系則沒有那么輕松。
為此,來自南洋理工對研究人員提出了一種基于全景分割的全場景圖生成(panoptic scene graph generation,即 PSG)任務。
相比于傳統基于檢測框的場景圖生成,PSG 任務要求全面地輸出圖像中的所有關系(包括物體與物體間關系,物體與背景間關系,背景與背景間關系),并用準確的分割塊來定位物體。
利用文本反轉實現文本到圖像的個性化生成
今年各大廠的圖像生成模型可謂是八仙過海各顯神通,但是如何讓模型生成特定風格的圖像作品呢?
來自特拉維夫大學的學者和英偉達合作推出了一款個性化圖像生成模型,可以 DIY 你想要得到的圖像。
用于通用視頻識別的語言圖像預訓練模型
視覺文本模型的學習毫無疑問已經取得了巨大成功,然而如何將這種新的語言圖像預訓練方法擴展到視頻領域仍然是一個懸而未決的問題。
來自微軟和中科院的學者提出了一種簡單而有效的方法使預訓練的語言圖像模型直接適應視頻識別,而不是從頭開始預訓練新模型。
Make-A-Video:一鍵文本生成視頻模型
畫家在畫布上盡情作畫,如此清晰流暢的畫面,你能想到視頻的每一幀都是 AI 生成的嗎?
MetaAI 推出的 Make-A-Video,只需簡單輸入幾個文字,便可在幾秒內生成不同風格的視頻,說成「視頻版 DALL?E」也不為過。
Whisper:大規模弱監督語音識別模型
你有沒有想過有一個翻譯軟件可以快速翻譯視頻中的語音,甚至是那些你自己都聽不懂的語言?
OpenAI 開源的 Whisper 恰好就能做到這一點。
Whisper 在超過 68 萬小時的多語種數據上訓練,能識別嘈雜背景下的多語種聲音并轉化為文字,此外還可勝任專業術語的翻譯。
DreamFusion:用 2D 圖像生成 3D 模型
文本能生成圖像、視頻,還有 3D 模型~
谷歌推出的 DreamFusion 通過使用預訓練的 2D 文本到圖像擴散模型可一鍵生成 3D 模型,在數十億圖像文本對上訓練的擴散模型推動了文本到 3D 模型合成的最新突破。
Imagic:基于擴散模型的真實圖像編輯方法
使用 DALL?E 等文本圖像生成模型,只需輸入一行文字便能得到想要的圖片,但 AI 生成的圖像有時候并不那么完美。
來自谷歌、以色列理工學院、魏茨曼科學研究所的研究者介紹了一種基于擴散模型的真實圖像編輯方法 ——Imagic,只用文字就能實現真實照片的 PS。
例如,我們可以改變一個人的姿勢和構圖同時保留其原始特征,或者我想讓一只站立的狗坐下,讓一只鳥展開翅膀。
eDiffi:更高品質的文本圖像合成模型
比 DALL?E 和 Stable Diffusion 更強的圖像合成模型來了!
這就是英偉達的 eDiffi,它可以更準確地生成更高品質的圖像,此外加入畫筆模具,可以為你的作品增加更多創造性和靈活性。
Infinite Nature:從單幅圖像中學習自然場景的無限視圖生成
你有沒有想過,隨手拍一張照片然后就像打開一扇門一樣飛進圖片里呢?
來自谷歌和康奈爾大學的學者將這一想象變為了現實,這就是 InfiniteNature-Zero,他可從單幅圖像中生成無限制的自然場景視圖。
Galactica:用于科學的大語言模型
Meta 開發的 Galactica 是一種大型語言模型,其大小與 GPT-3 相當,但它擅長的領域是科學知識。
該模型可編寫政府白皮書、新聞評論、維基百科頁面和代碼,它還知道如何引用以及如何編寫方程式。這對人工智能和科學來說是一件大事。
RAD-NeRF:基于音頻空間分解的實時人像合成模型
自從 DeepFake 和 NeRF 的出現,AI 換臉似乎已經是司空見慣了,但有個問題,AI 換的臉有時會因為對不上嘴型而露餡。
RAD-NeRF 的出現可以解決這一問題,它可以對視頻中所出現的說話者進行實時的人像合成,此外還支持自定義頭像。
ChatGPT:為對話優化的語言模型
2022 年度 AI 的重磅作品怎么能少了 ChatGPT,這個已經火遍全網并已經被網友開發出寫小黃文、敲代碼等各種應用的萬能模型,如果你還不了解它,那就快來看看!
可直接用于生產使用的視頻人臉 re-aging
雖然當下計算機視覺模型可以對人臉的年齡進行生成、風格遷移等,但這也只是看起來炫酷,在實際應用中卻幾乎零作用,現有的技術通常存在著面部特征丟失、分辨率低和在后續視頻幀中結果不穩定的問題,往往需要人工二次編輯。
最近迪士尼發布了第一個可實用的、完全自動化的、可用于生產使用的視頻圖像中 re-age 人臉的方法 FRAN(Face Re-Aging Network),正式宣告電影中靠化妝師改變演員年齡視覺效果的技術落幕。
參考資料:
-
https://www.louisbouchard.ai/2022-ai-recap/
本文來自微信公眾號:新智元 (ID:AI_era)
總結
以上是生活随笔為你收集整理的32 篇论文硬核盘点 2022 年度 AI 热点的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 套路化改稿之“我为国家电网改了份 PPT
- 下一篇: 阿里巴巴捐赠1.25亿元 为全国60多万