过去五年里,AI 图像生成技术走了多远?
編者按:近年來,AI生成圖像技術已經得到了質的飛躍。作者通過介紹人工智能研究組織 OpenAI 的最新圖像生成技術 DALL-E,向讀者們展示過去五年里這項研究的發(fā)展歷程。本文來自Medium,作者Dave Gershgorn,原文標題:Take a Look at How Far Image Generation A.I. Has Come in Just 5 Years。
圖片來源 Getty Images|攝影 xia yuan
OpenAI (一個非盈利的人工智能研究組織——譯者注)現(xiàn)在已經成為了人工智能工業(yè)體系中最具未來感的原型。
這家由微軟支持的研究機構是創(chuàng)業(yè)孵化器 Y Combinator 的項目,機構創(chuàng)始人是山姆·阿爾特曼(Sam Altman)。該機構以強大的文本生成器 GPT-3而聞名業(yè)界。近幾年來,它還制造了一個可以通過自主學習解魔方的機器手,一個可以譜曲的、為游戲提供復雜策略的算法。
不久前,OpenAI 又發(fā)布了名叫 DALL-E 的新系統(tǒng),這是一種可以基于書面文本自動生成圖像的系統(tǒng)。例如,輸入文字“牛油果形狀的皮革錢包”,該系統(tǒng)就會通過這一指令進行數(shù)次迭代,最終生成各類圖像。
圖片來源 :OpenAI
DALL-E 的名字靈感來自超現(xiàn)實主義畫家薩爾瓦多·達利(Salvador Dalí)和動畫形象 WALL-E。此次發(fā)布新系統(tǒng)時,公司并未將系統(tǒng)對公眾開放,甚至沒有邀請?zhí)囟ǖ拈_發(fā)人員嘗試系統(tǒng)。但其網站上的圖畫表明,該系統(tǒng)已經能夠創(chuàng)建極其逼真細致的圖像了。
DALL-E 還可以生成各種風格的圖像,包括插圖和風景。它還可以在圖片上生成一些文本,比如在建筑上建立文字標志,或者在制作草圖和全彩成品圖之間作區(qū)分。
人工智能研究人員將這種技術稱之為泛化技術(generalization,有時也稱作概念化技術——譯者注),因為這種技術意味著算法對每一項指令多會進行多種風格的創(chuàng)作,而不會滿足于特定的某一種風格。
OpenAI 的算法之所以如此熟練,要歸因于兩個因素。首先,這種算法使用了120億參數(shù),這使得它能更快的理解文本內容。在分析文本的過程中,這120億參數(shù)可以使它生成精確、令人驚嘆的圖像作品。
其次,將圖像和文本資料放進算法里也是有講究的。一言蔽之,這些圖像和文本都被轉化成了算法更容易理解的文本或Token令牌。
在 OpenAI一篇關于DALL-E的博客文章上,作者這樣解釋Token令牌:它們代表了一種碎片化的、更易于電腦讀取的概念,一種專門為算法設計的語言。這種計算機語言字母表包含了16384個和文本有關的Token令牌,還有8192個和圖像有關的Token令牌。這種將人類可讀文本自動轉換成機器可讀文本的方法被稱之為“transformer 模型”。
當我們給算法一個文本或者一個圖片注釋時,人類語言會被轉化成不超過256個Token令牌,圖片會被轉化為最多1024個Token令牌。這使得算法可以通過較少的文本匹配較復雜的圖像。
最后,這種算法會通過分析圖像和圖片注釋進行學習。通過數(shù)百萬次的迭代,它可以將文本片段和圖像的特點相關聯(lián)。OpenAI 此次并沒有發(fā)布關于數(shù)據(jù)集大小和圖像內容的相關信息。
該公司不是第一個致力于研究文字生成圖像技術的公司,只不過該公司推出的是算法類別的最新版本,目前來說功能或許是最強大的。雖然公司尚未發(fā)布描述該系統(tǒng)的相關文章,但該算法的創(chuàng)建者的確在其博客文章中描述了 DALL-E 的前身。通過對這一算法發(fā)展狀況的觀察,我們可以追蹤到這一技術的發(fā)展狀況。
2016年
OpenAI 曾引用了密西根大學和馬克斯·普朗克研究所的一篇關于文本生成圖像的研究論文,這篇論文講述了如何通過生成對抗網絡(generative adversarial networks, 簡稱GAN)來生成圖像。簡言之,這種方式會使用兩種算法以對抗的方式生產圖像:第一個算法生成圖像,如果該圖像不夠真實,那么第二個算法就會駁回圖像。
圖片來源 :Reed et. al
2017年
一年后,羅格斯大學、利哈伊大學和香港中文大學的研究人員采用了另一種生成對抗網絡法,這一次他們將成對的算法“堆疊”起來。第一組算法對場景的形狀和顏色布局,然后第二組算法再對細節(jié)進行細化。
圖片來源 :Zhang et. al
2019年
到2019年,一個隸屬于微軟的團隊開始嘗試一種與眾不同的“兩步法”:第一步是生成一個僅顯示對象所在位置的地圖,第二步是通過上述地圖,再生成具體的對象。
圖片來源 :Li et. al
2020年
到了去年,艾倫人工智能研究所發(fā)表了一項使用 OpenAI 的Transformer模型所做的研究。在《麻省理工科技評論》中,凱倫·豪解釋了他們所研發(fā)的“遮蓋法”:他們在一句話中把幾個詞藏起來,然后要求模型預測被掩蓋的單詞和短語。通過讓算法學習這種直觀的跳讀,研究人員發(fā)現(xiàn)圖片生成的質量大大提高了。
圖片來源 :Cho et al.
總結
通過回顧這些過去的研究事例,我們可以直觀地看到 OpenAI 和 DALL-E 在技術上的飛躍。這種先進的科技已經發(fā)展到可怕的地步——在這項技術展示了不同的牛油果形狀的椅子后,一位叫歐文·威廉姆斯(Owen Williams)的專欄作家表示他想購買這種椅子。
這樣的技術或許會在未來使得家具設計師、圖像藝術家或者數(shù)字藝術家感到恐懼。
譯者:Michiko
總結
以上是生活随笔為你收集整理的过去五年里,AI 图像生成技术走了多远?的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 美国伟哥多少钱啊?
- 下一篇: 里程碑式成果!人类首次发现银河系超高能宇
