新AI时代序幕已拉开 不信请看这十四大例
網易科技訊1月21日消息,時間過得比我們預想的要快,并且摩爾定律依然在發揮著作用。但是,仍然有很多事情要做。在接下來的文章中,我希望能夠列出2019年(部分發生在2018年)機器學習(ML)和深度學習(DL)領域的重大事件。這些大部分都是基于神經網絡的模型,給我留下了深刻的印象。
圖1:BigGAN生成的時鐘圖像
伊恩·古德費羅(Ian Goodfellow)曾發布推文,完美地展示了深度學習領域取得的成就:在短短4年半時間里,生成性對抗網絡(GAN)技術在面部生成領域取得的重大進展。即使這與特定的主題有關,GAN取得的進步也很好地表明了已經發生的事情,以及即將發生的事情。一幅畫勝過千言萬語。我有一種感覺,2019年的進步比幾年前迅猛得多。
1 BigGan
BigGan擴展了生成性對抗性網絡(GAN),允許用戶在巨大的可視數據庫上進行訓練,并生成新的可視圖像。該系統的核心是兩個神經網絡,即生成器和鑒別器。生成器創建新的視覺效果,并試圖說服鑒別器它是真實的圖像。而鑒別器將生成的圖像與其“經驗”對照,并將其作為“未通過”發送回生成器。這種反復的相互作用會始終持續下去,直到雙方達成某種“共識”。嘗試使用這款BigGAN功能,用戶可以使用分類條件采樣并創建例如山谷之類的圖像:
圖2:BigGAN生成的山谷圖像
如你所見,BigGan仍然屬于弱人工智能(Weak AI)。該網絡不知道時鐘是什么,它們只是知道,這個東西會是什么樣子:“圓形”,“有字符和箭頭”。我認為AI解釋世界的嘗試與柏拉圖的形式與思維理論有明顯的相似之處:在柏拉圖看來,思維或形式是物質事物的元物理本質。物質的東西不是原作,而只是思維或形式的仿制品。
2 BigGAN蛻變
我們可以更進一步,BigGAN不僅僅能生成帶標簽的圖像,我們還可以使用它和插值函數來合并和變形東西。在BigGAN的情況下,生成的圖像A轉換為生成圖像B是可能的,盡管它們在語義上是不同的。使用這些設置,你可以把約克夏犬變成航天飛機,這種方法開啟了前所未有的可能性,甚至超越了人類的想象。你甚至可以制作出漸變性更強的畫面,并將它們組合成動畫素材。
圖3:狗狗變成了航天飛機
3風格轉換
StyleGAN允許另一種類型的圖像修改——風格轉換,即圖像A的風格被轉移到圖像B中。目前有各種各樣基于深度學習的免費和付費應用程序,可以把你的圖像轉換成世界藝術大師的藝術作品。我用各種藝術家的風格轉換了我的用戶圖片,得到了令人信服的結果。
有人可能很熟悉風格轉換功能,因為Towards Data Science提供了許多關于這個主題的很棒的文章。藝術家基尼·科根(Gene Cogan)將風格轉移運用到迪斯尼的《愛麗絲夢游仙境》(茶會場景)中,并將17個著名的藝術作品的風格轉移到動畫中。最近,StyleGAN2進入人們的視線,其圖像質量得到了提高。此外,新的圖像修改方式也成為可能。例如,StyleGAN投影,與任何可能的圖像中的目標圖像對齊。
4風格轉換的創意運用:繪畫的深度協調性
有些藝術家和開發者使用風格轉換功能來進行創造性的圖像處理。這個想法非常簡單:1)以目標圖像B為例;2)將其風格轉換為要構建到B中元素;3)結合與享受。該方法允許的藝術用途,例如用于數字圖像拼貼中的風格轉移。基尼·科根(Gene Cogan)在自拍照中使用風格轉換功能,將自己植入到世界藝術史中。
5Comixify,將視頻轉換為故事板
華沙科技大學的研究人員都對人工智能和漫畫藝術著迷,為此他們把自己的熱情結合到一個驚人的項目中。1)該模型利用智能視頻摘要對視頻進行分析;2)視頻片段中的場景由深度學習定義的、最具美學影響的幀分隔;3)對圖像的特定風格化進行了風格轉換;4)選定的幀被放入故事板或漫畫布局中。
我是塔爾科夫斯基(Tarkovsky)電影的超級粉絲,所以我很想看看這部超級版《潛行者》會發生什么。結果令人震驚,特別是如果你知道并且喜歡這部電影,你會發現畫面的選擇是多么令人驚訝。它實際上描繪了《潛行者》的核心思想,卻沒有破壞電影。
6 CycleGAN,無輸入輸出對的圖像到圖像轉換
當BigGAN在預先訓練的基礎上生成新圖像,StyleGAN在兩個圖像之間傳輸樣式時,CycleGAN使用單個圖像將其樣式或特征轉換成不同的東西。實際上,這是一個不配對的圖像到圖像轉換,使用的是周期一致的對抗網絡。1) 圖像由GAN進行分析(包括模式和目標檢測);2)應用預先訓練好的特征修改;3)與“1”中的圖像相同,“2”實現了新的視覺效果。
CycleGAN在不引用其他圖像的情況下更改圖像的樣式和視覺特征。它不僅可以把一個預先訓練好的藝術家風格轉化成一張照片,也可以將一幅畫修改成逼真的照片,使用預先訓練的分割特征知識。你甚至可以在“馬與斑馬”之間進行轉換。對我來說最重要的是,深度學習使圖像的可修改性達到了一個新的高度,適合藝術用途。但危險同樣存在,比如濫用情況。
7StyleGAN訓練繪畫
_C0D32_在reddit上訓練StyleGAN使用kaggle提供的24k藝術數據集。通過他修改的代碼,產生了各種風格的新藝術作品。也就是說,StyleGAN用預先訓練過的藝術風格嘗試創作原創藝術品。有趣的是:即使你用這個模型得到了無數獨特的藝術品,但只要有一些藝術史的知識,你就可以猜到,哪些風格、藝術運動甚至藝術家在新的圖像中閃耀著光芒。
8 pic2pix:圖像到圖像轉換
Pix2pix是由菲利普·伊索拉(Phillip Isola)等人開發的,并在2017年迅速走紅。由條件對抗網絡完成的圖像轉換,允許將人造涂鴉呈現為照片級的圖像。
這肯定不只是有趣的草圖轉換:通過預定義的設置,用戶可以將航拍照片轉換為地圖,將日光照片轉換為夜景照片等。條件對抗網絡檢測模式并將其轉換為所需的主題(你必須定義目標圖像任務)。網絡針對特定的標記圖像數據集進行訓練。
英偉達通過GauGan將這種方法提高到了另一個水平,這是他們在AI Playground進行的實驗之一。你可以使用分段驅動草圖:每種顏色都應用于特定的對象或材質。轉換后生成新圖像具有類似CycleGAN的功能,可在各種視覺功能之間切換。
9 pix2pix、face2face、DeepFake以及Ctrl+Shift+Face
深度學習的世界充滿了實驗。人們跳出思維束縛,這是深度學習最鼓舞人心的地方,也是通用人工智能最鼓舞人心的地方。吉恩·科根(Gene Cogan)用動態的Pix2pix進行了實驗:在這種情況下,來源不是草圖,而是網絡攝像頭(他的臉),目標是根據特朗普的照片進行訓練。
這些實驗啟發了研究人員,開發face2face程序。face2face是個模仿德國總理面部表情的Pix2Pix演示程序。1)face2face模型了解面部特征/地標;2)掃描面部特征的攝像頭輸入;3)它最終把這些輸入變成了另一張臉。
后真相時代的另一個前沿已經到來,現在我們不僅可以修改圖像,還可以修改移動的圖像。就像流行即時通訊應用上的AR應用程序一樣,人工智能以完美的方式解釋視頻片段并對其進行修改。像Ctrl+Shift+Face這樣的藝術家將這種方法完善到了令人難以置信的水平:他在face2face幫助下轉換了邪教電影中演員的頑皮面孔。
這種實現在以下方面具有多種可能性:電影制作人可以在試鏡前與演員進行實驗。他們還可以本地化電影,以便更好地同步各種語言,就像Synthesia對大衛·貝克漢姆(David Beckham)所做的那樣。
現在想象一下使用AI驅動的語言翻譯和語音合成進行國際視頻會議的這些可能性。藝術家們可以創作出顛覆性和超現實主義的“Being John Malkovich”之類的杰作。
逝去的人也可以復活。最好的例子是歌手Hibari Misora,他在一年一度的日本新年電視活動NHK Kōhaku Uta Gassen上表演了新歌,即使她30年前就去世了。在AI的幫助下重建視覺,用Voaloid模擬語音。
但深度換臉(DeepFake)的新途徑是開放的。還記得ZAO嗎,這是一款深度換臉搞笑應用程序:可以將普通人的臉換到名人身上,比如萊昂納多·迪卡普里奧(Leonardo DiCaprio)。
10三維肯·伯恩斯效應
這款由西蒙·尼古拉斯(Simon Nikolaus)開發的模型可以將單幅圖像轉換為跟蹤鏡頭。該模型識別背景,模擬深度,用內容敏感的修復來填充缺失的區域,添加新的角度。簡而言之,只需一張圖像,你就可以生成空間3D視頻片段。
11ArtBreeder:不限量生成藝術品
喬爾·西蒙(Joel Simon)將BigGAN和其他模型應用到用戶友好的Web應用程序ArtBreeder中。你有許多不同的可能性來創建和修改面孔、風景、通用圖像等。Artbreder同時在一個生動的社區中成長和發展,在這個社區中,用戶和開發者正在進行持續的對話。
12DeOldify,黑白照片的脫舊彩色化
DeOldify是由詹森·安蒂科(Jason Antic)創建并發布的。這個項目的任務是對舊圖像和膠片進行彩色化和修復。DeOldify使用通過兩個神經網絡生成器和鑒別器之間的迭代交互作用(就像ArtBreeder中的那樣),生成性對抗性網絡。
但與上個模型不同的是,DeOldify中的圖像不會以其形式修改或生成。GAN的力量帶來了顏色,生成器將顏料應用到它訓練過的識別對象上,而鑒別器則試圖批評顏色的選擇。當然,這些顏色不會重復原來的調色板。但它使歷史照片充滿活力,使它們與我們的時代格格不入。
13由AI提供動力的VR
AI驅動的VR是可能的。實際上,這是英偉達一年前發布的新聞,而且非常有前景。在這里,城市和視覺都是在谷歌街景上訓練的,所以VR城市體驗是通過深度學習模型重建的。
為了進行培訓,研究團隊在裝有cuDNN加速PyTorch深度學習框架的DGX-1上使用了NVIDIA Tesla V100 GPU,以及來自Cityscapes和Apolloscapes數據集的數千個視頻。你可以想象這種方法的所有潛力:“從頭開始”逼真的城市模擬,幫助城市發展,交通管理和物流,重塑視頻游戲前景。
14Runway ML
Runway是個終極應用程序,它使用各種ML/DL模型來滿足不同的需求。它可以翻譯Image2Text,在圖像之后生成文本(使用GPT-2),檢測照片和視頻片段中的對象,還可以將各種模型組合成連鎖反應,而且是免費的。
總結
以上是生活随笔為你收集整理的新AI时代序幕已拉开 不信请看这十四大例的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 任正非重返达沃斯:科技向善 人类不用对人
- 下一篇: 马化腾今年不当面发红包了!腾讯取消节后逗