机器之心 Synced 08月12日 20:59
分享到微信朋友圈
打開微信。點擊 “ 發(fā)現(xiàn) ” ,
使用 “ 掃一掃 ” 即可將網(wǎng)頁分享至朋友圈。
由于回答的問題存在一問多答、問題駁雜混亂的情況,機器之心對所有問題進(jìn)行了分類、整理、編輯,且對里面推薦的論文、演講 PPT 進(jìn)行了下載壓縮,讀者可點擊閱讀原文進(jìn)行下載。
本文目錄:
一、Geoffrey Hinton
二、Jeff Dean
關(guān)于 TPU/FPGA/CPU/GPU
Google Brain 與 DeepMind?
機器學(xué)習(xí)、量子計算、算法
團隊、研究與文化
三、Google Brain 團隊其他成員
Google Brain 開展自己工作的方式:
發(fā)表相關(guān)研究論文;
建立并開源 TensorFlow 這樣的軟件系統(tǒng);
與谷歌和 Alphabet 其他團隊合作,將我們的研究成果推廣到大眾;
通過實習(xí)和 Google Brain Residency 項目訓(xùn)練新的研究人員;
一、Geoffrey Hinton
1.Dropout 是如何構(gòu)想出來的?是否曾有過頓悟(aha)的那一刻?
Geoffrey Hinton:確實有三個頓悟的時刻。一次發(fā)生在 2004 年,當(dāng)時 Radford Neal 對我說,大腦規(guī)模可能會很大,因為它正在學(xué)習(xí)一個大型模型系統(tǒng)。我認(rèn)為,既然相同的特征需要被不同模型分別創(chuàng)造,這是一種非常低效的硬件使用方式。然后,我意識到,所謂的「模型」可能僅僅是活躍神經(jīng)元的子集。這使得許多模型成為可能,也有可能解釋為什么尖峰脈沖中的隨機性是有幫助的。
不久之后,我去了一趟銀行。出納員不停在換,我問為什么。其中一位回答說,他也不知道,但是他們變動很大。我猜原因可能是為了防止雇員之間通過合作來欺詐銀行。這讓我意識到,根據(jù)每個樣本,隨機移除一個不同的神經(jīng)元子集可以防止共謀,也會因此減少過度擬合。
2004年,我相當(dāng)草率地嘗試了一下(那時我還沒有導(dǎo)師),結(jié)果似乎并不理想,采用維持較小平方權(quán)重的方法也可以得到這個結(jié)果,因此,我也就淡忘了這個想法。
2011年, Christos Papadimitriou 在多倫多發(fā)表了一次談話,談及性繁殖的整個要點在于打破復(fù)雜的相互適應(yīng)(co-adaptations),或許言者無心,但作為聽者,我就是這樣理解的。這個思想和隨機去除神經(jīng)元子集這一抽象觀念一樣。因此,我又返回去更加努力地嘗試,并與我們的研究生們一起合作,結(jié)果證明這個方法真的管用。
2.按照 Khaneman 的快速思考和慢速思考的比喻,深度學(xué)習(xí)無疑是快速思考。有什么方法可以用來對慢速思考建模嗎?
Geoffrey Hinton:研究視覺感知的心理學(xué)家過去常常使用一種被稱為 tachistoscope(視覺記憶測試鏡)的設(shè)備來在短時間(brief time)內(nèi)顯示圖像。這意味著受試者不能使用多次眼睛注視來理解圖像。我認(rèn)為可以說單次通過前饋神經(jīng)網(wǎng)絡(luò)的工作方式類似于視覺記憶測試鏡( tachistoscope )感知。
過去幾年,在如何使用多次注視( multiple fixations)以及如何整合每一次注視的信息以進(jìn)行學(xué)習(xí)來提升神經(jīng)網(wǎng)絡(luò)的性能表現(xiàn)方面有大量的研究工作。Larochelle 和 Hinton (2010) 做了一篇早期的論文,你可以使用谷歌學(xué)術(shù)搜到相關(guān)的一些近期的論文。
使用多次注視的一個巨大進(jìn)步是:在每次注視時的注視點(fixation point)附近使用高分辨率像素,而在更遠(yuǎn)的位置則使用分辨率遠(yuǎn)遠(yuǎn)更低的像素。這極大地減少了需要處理的像素的數(shù)量。一個巨大的復(fù)雜之處是:如果注視點是根據(jù)所獲得的信息智能地選擇的,那么多次注視就會非常有用。這就進(jìn)入到了強化學(xué)習(xí)領(lǐng)域。
除了感知之外,即時的直觀推理和需要許多步驟的推理之間也存在相當(dāng)明顯的差異。如果我問「意大利相當(dāng)于巴黎的城市是?」羅馬(或者米蘭)立即就出現(xiàn)在我們的腦海里。學(xué)到的詞嵌入可以支持這種類型的即時推理(Mikolov et. al. 2012)。你只需要拿出巴黎的嵌入向量,減去法國的向量,加上意大利的向量,然后你就得到了羅馬。(事實上,你沒有得到,但你可能能夠得到一個與羅馬很近的向量,比其它任何詞的向量都近。)
我認(rèn)為在我們得到一個很好的故意的序列推理的神經(jīng)網(wǎng)絡(luò)模型之前,我們還有很長的路要走,但我認(rèn)為在「思想向量(thought vectors)」上的研究是一個很有前途的開始。如果我們可以使用循環(huán)神經(jīng)網(wǎng)絡(luò)將一個句子轉(zhuǎn)換成一個包含其含義的思想向量,我們應(yīng)該就能學(xué)習(xí)思想向量的模型序列了。那會是一種自然推理的模型。
3.在 capsule-based 神經(jīng)網(wǎng)絡(luò)上的研究做到哪一步了?
Geoffrey Hinton:過去 3 年中,我在谷歌投入大量的精力想要在 capsule-based neural network 上取得重要成果。如今還未能做到,這是由于基礎(chǔ)研究的問題。即使它們看起來是可行的,但該想法還是沒有保證。可能目前最好的成果就是 Tijmen Tieleman 的博士論文中所介紹的。但在 Terry Sejnowski 和我創(chuàng)造出玻爾茲曼機器學(xué)習(xí)算法之后,花費了 17 年的時間我才找到一個它能有效工作的版本。如果你真的相信該思路,你要做的就是繼續(xù)嘗試。
4.你如何看待內(nèi)存增強神經(jīng)網(wǎng)絡(luò)(MANNs):以他們目前的表現(xiàn),有哪些不足?未來的方向又是什么?你認(rèn)為 MANNs 與你和 Schmidhuber 關(guān)于「Fast Weights」的想法相似嗎?你如何看待 Lake 等人的「One Shot Learning」論文以及他們提出問題的長期相關(guān)性?你如何看待上述三種技術(shù)的結(jié)合?
Geoffrey Hinton:由于 NTMs 的成功,最近人們再度燃起對神經(jīng)網(wǎng)絡(luò)額外內(nèi)存形式的興趣,這份姍姍來遲的復(fù)蘇讓人激動不已。我一直相信,突觸強度的臨時改變是實現(xiàn)一種工作存儲器的顯著方法,也因此為表征系統(tǒng)當(dāng)前正在思考的內(nèi)容而釋放出了神經(jīng)活動。現(xiàn)在,我認(rèn)為,我們還沒有做出足夠的研究來真正理解 NTMs,MANNs ,Associative LSTMs 以及 fast weight 關(guān)聯(lián)內(nèi)存的相對優(yōu)點。One shot learning 非常重要,但我認(rèn)為它不是神經(jīng)網(wǎng)絡(luò)不可克服的難題。
5.你在 YouTube 視頻上的一個演講中描述過在前向和反向傳播中用不對稱關(guān)系對網(wǎng)絡(luò)進(jìn)行測試,另外還描述了這些測試對神經(jīng)科學(xué)的意義,你能分享一下你對大腦理論的看法嗎?
Geoffrey Hinton:如果反向連接只有固定的隨機權(quán)重,反向傳播或許會仍然起作用。這個想法來源于牛津大學(xué)的 Tim Lillicrap 及其合作者。他們稱它為「反饋比對(feedback alignment)」,因為前向權(quán)重某種程度上是在學(xué)習(xí)與自己的反向權(quán)重比較,因此,由反向權(quán)重計算的梯度是大致正確的。Tim 偶然發(fā)現(xiàn)了這個奇怪的現(xiàn)象。它一定消除了關(guān)于大腦為什么無法做一個反向傳播的形式,以調(diào)整早期的特征探測器,從而使它們的輸出對后期的感知路徑是更加有用的。
之后,MIT 的人發(fā)現(xiàn)這個想法能用于比 Tim 嘗試的更復(fù)雜的模型。Tim 和我目前正在合作一篇相關(guān)論文,里面包含了很多我們目前關(guān)于大腦工作方式的想法。
二、Jeff Dean?
關(guān)于 TPU/FPGA/CPU/GPU
1.關(guān)于 TPU 看到的都是碎片信息,你們能系統(tǒng)的介紹下嗎?TPU 運行什么算法?當(dāng)新算法出來時要再制備芯片嗎?相比于 CPU/GPU ,有沒什么性能或能量節(jié)約上的數(shù)字說明?
Jeff Dean:不久之后,TPU 團隊打算寫一個關(guān)于該芯片架構(gòu)的詳細(xì)技術(shù)論文。目前解答如下:
TPU 的設(shè)計是為了完成深度神經(jīng)網(wǎng)絡(luò)中的計算。它沒有那么專門化,只運行一個特定模型。但也針對神經(jīng)網(wǎng)絡(luò)中的密集數(shù)字運算進(jìn)行過調(diào)整,像矩陣相乘、非線性激活函數(shù)。我們同意為一個特定模型制備一個芯片可能過于專門化了,但這不是 TPU 做的事。
關(guān)于最后一問,Sundar Pichai 在谷歌 I/O 2016 的 keynote 中,分享了一些高層次的數(shù)字。尤其是,Sundar 提到,「比起商業(yè)化的 GPU 和 FPGA,TPU 在每瓦特能耗的情況下能提供高出一個量級的性能。」
2.對于未來谷歌 TPU ASIC 的發(fā)展有什么看法?可能用于移動設(shè)備嗎?
Jeff Dean:一般來說,能便宜和/或更少功耗地運行深度神經(jīng)網(wǎng)絡(luò)的硬件肯定是一個讓人感興趣的領(lǐng)域。比如說,有很多創(chuàng)業(yè)公司在從事這方面的研發(fā),也有很多有趣的不同的設(shè)計思路(數(shù)據(jù)中心可以有高通量和更高的功耗,手機和其它移動設(shè)備需要更低功耗的組件等等)。
3.IIRC Inception 是首個完全在 CPU 上訓(xùn)練的 ImageNet 冠軍嗎?作為能耗/性能上的明智選擇,CPU 是完全不可行的嗎?我們會看到每個人都跳到專門硬件上嗎?
Jeff Dean:我不太確定。但我懷疑,早于 2012 年 ImageNet 獲勝者(AlxeNet 之前的)的一些模型會是在 CPU 上訓(xùn)練的,所以我不認(rèn)為 Inception 是首個在 CPU 上訓(xùn)練的 ImageNet 冠軍。2011 年 ImageNet 的獲勝者在 PPT 中沒提到 GPU,2010 年的提到在 100 個工作人員參與下使用 Hapoop,大概是在 CPU 上訓(xùn)練的。我打算用更多的關(guān)于使用 CPU 訓(xùn)練計算密集型深度神經(jīng)網(wǎng)絡(luò)的內(nèi)容回答你這個問題。
我認(rèn)為 ,CPU 訓(xùn)練這樣的系統(tǒng)并非完全不可行。但是,實際情況是,在性價比和能耗上,CPU 可能不是相當(dāng)好的選擇,而且在擴展到一個更大的低 FLOP 設(shè)備集群上相比于擴展到一個更小的高 FLOP 設(shè)備集群上時,它面臨的挑戰(zhàn)也更大,其他方面基本對等。
4.你認(rèn)為機器學(xué)習(xí)能成為一個真正的即插即用的( plug-and-play)的商業(yè)工具嗎?讓很多門外漢能挑選算法并使用 AWS、TensorFlow、Algorithimia 等工具即插即用的能力運行這些算法?如果是,短期內(nèi)能否實現(xiàn)?如果不是,為什么?
Jeff Dean:答案是肯定的。在很多案例中,谷歌的機器學(xué)習(xí)研究員已經(jīng)開發(fā)出針對一類問題的新型的、有趣的算法和模型。創(chuàng)造這樣的算法和模型需要考慮機器學(xué)習(xí)專業(yè)知識和洞見,但它們一旦在一個領(lǐng)域展現(xiàn)出好的能力,采用同樣通用的解決方案就變得很簡單,并且可以將它們應(yīng)用到完全不同的領(lǐng)域。
此外,從研究角度來看,我認(rèn)為一個相當(dāng)有潛力的領(lǐng)域是在學(xué)習(xí)合適的模型結(jié)構(gòu)的同時能學(xué)習(xí)如何解決任務(wù)的算法和方法(這與如今的大部分深度學(xué)習(xí)工作大相庭徑,如今是一個人專門化使用的模型架構(gòu),然后根據(jù)架構(gòu)所在的環(huán)境,在連接上通過優(yōu)化流程調(diào)整權(quán)重)。我們團隊的一些初始工作有(論文): Net2Net: Accelerating Learning via Knowledge Transfer。我們也開始探索一些變革性的方法加快模型架構(gòu)的發(fā)展。
如果我們能夠開發(fā)出有效的方法,這將真的打開一扇大門,讓有較少機器學(xué)習(xí)專業(yè)知識的人能更直接的應(yīng)用機器學(xué)習(xí)。
Google Brain 與 DeepMind
1.你如何對比 Google Brain 和 DeepMind?你們和 DeepMind 合作嗎?
Jeff Dean:我們與 DeepMind 有一些合作與交流。
至于如何對比,Google Brain 和 DeepMind 都專注于同樣的目標(biāo),就是建立智能機器。有點不同的是研究的途徑,但我相信兩個團隊都在做優(yōu)秀的、互補性的工作。不同之處:
DeepMind 傾向于在可控環(huán)境中做大部分研究,像視頻游戲模擬、圍棋,然而我們傾向于在現(xiàn)實的、真實世界難題和數(shù)據(jù)集上做研究。
某種程度上,我們的研究路線圖發(fā)展基于研究興趣以及我們集體認(rèn)為值得努力的登月(moonshot)領(lǐng)域,因為我們相信它們將為智能系統(tǒng)帶來新的功能。在建造通用智能系統(tǒng)的道路上,DeepMind 研究的驅(qū)動力更多來自一張自上而下的難題線路圖,他們相信通過打造通用人工智能,就能解決這些難題
我們更強調(diào)將世界一流的機器學(xué)習(xí)研究員與一流的系統(tǒng)構(gòu)建者結(jié)合起來,規(guī)模化解決機器學(xué)習(xí)問題中的困難。我們也專注于構(gòu)建大規(guī)模工具和基礎(chǔ)設(shè)施(比如 TensorFlow)來支持我們的研究以及研究社區(qū),也和谷歌硬件設(shè)計團隊合作幫助指導(dǎo)建立機器學(xué)習(xí)硬件,解決正確的難題。
由于在山景城,我們能夠與眾多不同的產(chǎn)品團隊密切合作,將我們的研究成果傳遞給產(chǎn)品團隊和谷歌用戶手中。
DeepMind 的招聘流程是獨立的,也與谷歌的招聘流程不同。
2.谷歌大腦、 DeepMind 和谷歌量子人工智能實驗室團隊的關(guān)系是什么?特別是:這三個團隊之間有多少交流/合作? ?在作出決策時你們會考慮彼此的工作,還是你們相當(dāng)獨立地工作、各行其是?
Jeff Dean:我們與量子人工智能實驗室沒有太多合作,因為他們從事的是與我們的相當(dāng)不同的研究。
我們與 Deepmind 分享構(gòu)建智能機器的研究愿景,我們緊跟彼此的工作,而且我們在各種項目上有大量合作。例如,AlphaGo 一開始就是谷歌大腦與 DeepMind 合作的項目。其它合作還包括我們共同發(fā)表的論文「 ?Continuous Deep Q-Learning with Model-based Acceleration 」。谷歌大腦的人經(jīng)常去參觀 DeepMind ,DeepMind 的人也是一樣。最近 DeepMind 要從 Torch 切換到 TensorFlow ,谷歌大腦的成員前去 DeepMind 幫助他們完成這次過度。在應(yīng)用機器學(xué)習(xí)于醫(yī)療方面,我們都積極開展項目,并且會定期舉辦會詳細(xì)議討論我們的研究路線和下一步計劃。
總之,谷歌大腦和量子人工智能實驗室沒有太多合作,而谷歌大腦和 DeepMind 以各種形式密切合作著。
3.你們?nèi)匀辉谑褂?luaJIT/Torch 嗎?DeepMind 呢?
Jeff Dean:我們的團隊(Brain)從來沒有非常依賴于使用 Torch。DeepMind 倒曾是 Torch 的重度用戶,但最近也已經(jīng)決定轉(zhuǎn)到 TensorFlow。過去幾個月來,他們基本上已經(jīng)完成了對他們的大量代碼的遷移,但是我敢肯定 Torch 還有一些用法目前還不能遷移。
機器學(xué)習(xí)、量子計算、算法
1.你們?nèi)绾握雇糜跈C器學(xué)習(xí)(通用機器學(xué)習(xí),以及特別是深度學(xué)習(xí))量子計算的未來?
Jeff Dean:我的個人觀點是,量子計算幾乎不會對深度學(xué)習(xí)造成特別明顯的影響,特別是在中短期內(nèi)(比如接下來十年)。對其他機器學(xué)習(xí)類別來說,可能會有影響,如果能利用量子計算優(yōu)勢的機器學(xué)習(xí)方法能夠以足夠吸引人的規(guī)模影響到真實難題的解決。我認(rèn)為,用深度學(xué)習(xí)芯片(比如 Tensor Processing Unit ,簡稱 TPU )構(gòu)建出來的新的硬件平臺會對深度學(xué)習(xí)產(chǎn)生更為巨大的影響。不過,我可不是一位量子計算的行家。
Vincent Vanhoucke:我有預(yù)感卻無證據(jù)支持這一點,深度學(xué)習(xí)實際上可能真的會成為一個特別好的量子退火法( quantum annealing )試驗場:制造適合量子芯片的中等規(guī)模、重要的深度學(xué)習(xí)問題,似乎是合乎邏輯的,而且我們樂于使用的架構(gòu)和優(yōu)化方法會與 Ising 模型有各種自然聯(lián)系。我密切留意 Hartmut 的團隊(谷歌量子人工智能實驗室)的工作,不過實際上,我認(rèn)為,我們還無法就以下情況進(jìn)行預(yù)測:在可預(yù)見的未來,這類方法是否會對機器學(xué)習(xí)造成任何顯著的影響。
2.大腦是一個量子計算機嗎?
Jeff Dean:個人相信量子計算在中短期內(nèi)不會對機器學(xué)習(xí)產(chǎn)生重大的影響(大概是十年內(nèi))。我十分肯定真實的大腦不是量子計算機,神經(jīng)科學(xué)里也沒有證據(jù)顯示這一點。
3.你認(rèn)為反向傳播算法在 10 年內(nèi)將成為訓(xùn)練神經(jīng)網(wǎng)絡(luò)的主要算法嗎?
Jeff Dean:我認(rèn)為是這樣。從 20 世紀(jì) 80 年代末到現(xiàn)在,反向傳播算法就一直是訓(xùn)練神經(jīng)網(wǎng)絡(luò)的主要算法。期間許多人曾試著提出表現(xiàn)更好的替代方案,但反向傳播算法長盛不衰,這已經(jīng)預(yù)示著反向傳播算法很可能將持續(xù)鞏固重要地位。
4.你認(rèn)為演化計算(evolutionary computation),比如遺傳算法、神經(jīng)演化、novelty search 等,在商業(yè)化/主流人工智能中是否有未來?(特別是有大量不可微分組件的難題,在這里反向傳播沒用)。是否可以認(rèn)為,在未來架構(gòu)工程將被一個更系統(tǒng)的方法取代?我認(rèn)為不可微分是其核心,演化計算是否可能會提供幫助?
Jeff Dean:我非常相信演化方法將在未來扮演一定角色。確實,我們正在開始探索一些演化方法學(xué)習(xí)模型架構(gòu)(還處于早期階段,所以還沒有報告成果)。我相信對大型模型而言這會起作用,我們可能需要大量的計算。想一下訓(xùn)練的內(nèi)循環(huán),在數(shù)百個計算機上訓(xùn)練數(shù)天,這對我們的大型模型而言是不正常的。然后,在這種大小的模型的每一代上做演化是必然相當(dāng)困難的。
5.你們都是怎么涉足機器學(xué)習(xí)的?你們第一個涉及機器學(xué)習(xí)的項目是什么?
Jeff Dean:我必須寫一篇論文才能以優(yōu)異的成績從明尼蘇達(dá)大學(xué)畢業(yè),所以我和我的導(dǎo)師 Vipin Kumar 一起工作,在我們學(xué)院的一臺 64 位處理器的立體機器上,解決了探索神經(jīng)網(wǎng)絡(luò)的并行訓(xùn)練(parallel training)的問題。由于神經(jīng)網(wǎng)絡(luò)是計算密集型的,并行訓(xùn)練在更早的時候也是一個有吸引力的概念,它能擴展到更現(xiàn)實的問題上。神經(jīng)網(wǎng)絡(luò)的計算模型有著多層次抽象,每層建立在另一層之上,在當(dāng)時真的很吸引我,我走進(jìn)學(xué)校想要學(xué)習(xí)并行計算,但最終被編寫高級面向?qū)ο蟮恼Z言的編譯器的吸引力所誘惑,并完成了我在那個領(lǐng)域的博士研究工作。然而那一絲覺得神經(jīng)網(wǎng)絡(luò)很有意思的感覺從來沒有真正消失過,而大約五年前,我覺得它似乎值得再次探索,現(xiàn)在無論是計算能力還是有趣的數(shù)據(jù)集,在過去的 20 年里,都已經(jīng)大幅增長。這導(dǎo)致了 Google Brain 項目的起源(最初由我、吳恩達(dá)以及 Greg Corrado 共同發(fā)起)。
6.機器學(xué)習(xí)中,除了人工神經(jīng)網(wǎng)絡(luò),還有哪些領(lǐng)域也受益于 當(dāng)前「深度學(xué)習(xí)」的熱度?
Jeff Dean:總的來說,機器學(xué)習(xí)領(lǐng)域在過去的 5、6 年里極大地增長了。更多的人們想要學(xué)習(xí)機器學(xué)習(xí),NIPS 和 ICML 的參加者快頂破屋頂了。深度學(xué)習(xí)無疑是人們開始對此感興趣的原因之一,通過吸引更多的人進(jìn)入該領(lǐng)域,就會有更多的不僅限于深度學(xué)習(xí)的研究。例如,更多的人開始對強化學(xué)習(xí)、非凸函數(shù)的優(yōu)化技術(shù)、高斯過程,深度理解理論,非凸模型和數(shù)十種其它領(lǐng)域感興趣。人們對解決各種機器學(xué)習(xí)問題的計算機系統(tǒng)的興趣也與日俱增,另外,還有建造專門的硬件,用于機器學(xué)習(xí)計算(在深度學(xué)習(xí)的驅(qū)動下,但是該硬件也可能幫助其它機器學(xué)習(xí)算法)。
7.在性能的提升上,每天都有不同的改進(jìn)和技巧出現(xiàn)。你認(rèn)為在推動學(xué)習(xí)的準(zhǔn)確度增長之外,深度學(xué)習(xí)還有哪些需要重點關(guān)注的領(lǐng)域?
Jeff Dean:如果你有一個你關(guān)心的單個任務(wù),使用了大型且強大的深度神經(jīng)網(wǎng)絡(luò)的監(jiān)督學(xué)習(xí)的效果可以做到很好。但是,真實世界真的是一團糟,如果我們想要得到能在一團糟的真實世界環(huán)境之中運行的智能系統(tǒng),我們要關(guān)心的就不是什么單個任務(wù)了。這意味著需要遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)、通過生成模型的想象等等;我們需要所有這些都集中到一起來構(gòu)建出靈活的、可適應(yīng)的智能與解決問題的技巧,而不是為在單一的任務(wù)上做得極其好而進(jìn)行優(yōu)化。在目前,靈活性和適應(yīng)性還是區(qū)分人類智能和機器智能的顯著特點。
8.最近的一篇論文(Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings)表明,Word2vec 用于量化單詞意義和關(guān)系的方法,將文化和語言的偏見編碼進(jìn)了它們的詞向量表征之中。在這篇論文中,他們將這種性別偏見視為向量空間的扭曲,并且向空間應(yīng)用變換來「矯正(unwrap)」詞空間,從而消除模型的性別偏見。我很好奇,你會如何看待一個人訓(xùn)練某個模型的責(zé)任(該模型可能會被數(shù)以百萬計的人所使用)來優(yōu)先處理并輔助決策以確保系統(tǒng)沒有傳播那些可能會在訓(xùn)練數(shù)據(jù)中顯現(xiàn)出來的歧視。尤其當(dāng)它是這種有爭議的閉源模式,被用于罪犯再犯的可能性預(yù)測。第二點,我很好奇你如何處理深度神經(jīng)網(wǎng)絡(luò)這樣的問題,其訓(xùn)練結(jié)果比一些像是可轉(zhuǎn)化的向量空間要含糊得多。
Jeff Dean:是的,這篇論文很有趣。最根本的問題是,機器學(xué)習(xí)模型是從數(shù)據(jù)中學(xué)習(xí),它們將如實嘗試著去捕捉它們在數(shù)據(jù)中所觀察到的相互關(guān)系。大多數(shù)的這些相關(guān)性是好的,而且給了這些類型的模型以權(quán)力。然而有些則反映了「世界是什么」而非「我們希望的世界是什么」。我認(rèn)為這個方向的研究是為了「保留好的偏見」,卻刪除模型中那些我們寧愿不存在而偏偏存在于現(xiàn)實中的偏見,是一個相當(dāng)有趣的研究方向。決定我們需要消除哪種偏見以及想保留哪種偏見,這不是一個簡單的問題。例如在預(yù)印本中他們提到:
男人:計算機程序員::女人:家庭主婦
這種偏見存在于龐大的自然語言文本語料庫中,而這是用于詞向量訓(xùn)練的地方,但是就我個人而言,我寧愿它不存在(而且預(yù)印本展示了一些技術(shù)來消除部分偏見,但是保留了單詞向量的其他有用的特性)。
但是要說哪些偏見應(yīng)該被保留而哪些應(yīng)該被淘汰,這有點困難,更別說裁決它是否正將一種編輯偏見的形式引入系統(tǒng)中。比如這種像是「蹣跚學(xué)步:學(xué)齡前兒童::孩子:學(xué)校」的關(guān)系,它們看起來并不那么可怕。又比如年老 vs 年輕的關(guān)系呢?可能更含糊了。
事實上當(dāng)出自同一作者的較早預(yù)印本于今年六月下旬出版時,在我們谷歌員工內(nèi)部的 Google+系統(tǒng)中,有一個關(guān)于這些特殊話題熱烈討論,那絕對是一個棘手而復(fù)雜的領(lǐng)域。我同意你的看法,在更復(fù)雜的深度模型中消除不必要的或有害的偏見形式可能更難,而其解決方案或許比一個簡單的向量空間扭曲來得更復(fù)雜。
團隊、研究與文化
1.想更多了解谷歌大腦團隊文化、戰(zhàn)略以及愿景。最重要的問題,你們準(zhǔn)備完成的長期規(guī)劃是什么?為什么?你們有什么樣的權(quán)利?谷歌大腦團隊成員可以設(shè)置自己的日程,權(quán)利范圍很大:)你們能分享年度預(yù)算嗎?團隊能作為一個整體共享 KPI 嗎?你們有任何與收入掛鉤的目標(biāo)嗎?另外,共享文化對你們有幫助嗎?對谷歌和 Alphabet 有幫助嗎?
Jeff Dean:我們的權(quán)力其實是相當(dāng)廣泛的。基本上,我們想從事能幫助我們構(gòu)建智能機器的研究,還想使用智能機器改善人們的生活。
我不會披露我們預(yù)算的細(xì)節(jié)。
我們真的沒有 KPI ,也沒有任何與收入相關(guān)的目標(biāo)。我們顯然要做有科學(xué)價值或商業(yè)價值的研究,但是,只要研究成果促進(jìn)了科學(xué)進(jìn)步,有沒有商業(yè)價值不是那么重要(因為什么研究將有商業(yè)價值,并非一目了然)。我們只是想從事現(xiàn)在或?qū)韺κ澜缬幸娴氖聵I(yè)。與谷歌許多團隊合作得到的研究成果,已經(jīng)在諸多方面產(chǎn)生實質(zhì)性效益,比如語音識別、谷歌圖片、 YouTube 、谷歌搜索、 Gmail 、 Adwords 和 AlphaGo 等。這些產(chǎn)品有關(guān)的各種指標(biāo),已經(jīng)表明我們的工作對谷歌帶來顯著影響。
我們堅信開放文化的力量,因為這利大于弊。例如,通過開源工具 TensorFlow ,外來參與人員也能與我們一起工作,讓它變得更好。這也讓我們與谷歌外部的人開展研究合作變得更加容易,因為我們可以經(jīng)常彼此分享代碼。發(fā)表我們的研究成果,研究社區(qū)就會給予我們有價值的反饋,還能向世界證明我們在做有趣的工作,這有助于吸引更多想從事類似工作的人。有些研究,我們也沒必要披露其細(xì)節(jié)(比如,搜索排名和廣告系統(tǒng)的機器學(xué)習(xí)研究工作)。
2.你們能預(yù)測一下,谷歌大腦團隊在接下來幾年如何發(fā)展嗎?
Jeff Dean:展望接下來幾年谷歌大腦的發(fā)展,一種方法是回顧最近幾年我們團隊發(fā)生的改變:
我們從事機器學(xué)習(xí)領(lǐng)域的許多研究,包括機器學(xué)習(xí)算法、新模型、知覺、語音、語言理解、機器人、人工智能安全等許多方面,并在 NIPS、ICML、ICLR、CVPR、和 ICASSP 等會議上發(fā)表了我們的研究。
我們開啟機器學(xué)習(xí)研究培訓(xùn)項目,期待在接下來幾年發(fā)展壯大,從而幫助培養(yǎng)新一代機器學(xué)習(xí)研究員。
我們設(shè)計、構(gòu)建和開源 TensorFlow ,并且正在與越來越多的研究員和開發(fā)者一起工作,持續(xù)改進(jìn)這個系統(tǒng),還與我們谷歌云服務(wù)的同事一起工作,讓 TensorFlow 成為谷歌云機器學(xué)習(xí)平臺的基礎(chǔ)。
在機器學(xué)習(xí)研究問題上,我們已經(jīng)與其他研究和產(chǎn)品團隊的同事合作,讓我們的科研成果觸及數(shù)十億人(這些成果有 RankBrain、Smart Reply、谷歌圖片、谷歌語音識別和谷歌云視覺等。)
我們開始了一項針對機器人研究的機器學(xué)習(xí)。
我們圍繞將機器學(xué)習(xí)應(yīng)用于醫(yī)療而開始付出極大的努力。
2.在研究和構(gòu)建系統(tǒng)的五年時間里,你們研究和應(yīng)用的方法經(jīng)歷了怎樣的轉(zhuǎn)變?
Jeff Dean:根據(jù)學(xué)習(xí)內(nèi)容的情況,我們的研究方向肯定也會變化和演進(jìn)。例如,與五年前相比,現(xiàn)在,我們更加頻繁地使用強化學(xué)習(xí),尤其是將強化學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)結(jié)合起來。較之最初開啟這個項目時,現(xiàn)在,我們更加強調(diào)深度遞歸模型,因為我們要努力解決更多復(fù)雜的語言理解問題。另一個例子就是我們從 DistBelief 轉(zhuǎn)移到 TensorFlow 。建構(gòu) TensorFlow 主要就是為了回應(yīng)DistBelief 程序設(shè)計模型欠缺靈活性所帶來的教訓(xùn),當(dāng)我們邁向一些新的研究方向(如前文所提及的),這些問題就會呈現(xiàn)出來。在過去幾年中,我們在醫(yī)療和機器人方面的工作受到的重視要多得多,而且我們經(jīng)常摸索新的研究路線,比如人工智能安全問題。
3.近期發(fā)表的成果/自己研究工作,團隊創(chuàng)業(yè)精神或者定義更為寬泛的公司業(yè)務(wù)需求所揭示出的一些尚未得到充分開發(fā)的應(yīng)用研究領(lǐng)域,是不是就是你們主要的探索領(lǐng)域?
Jeff Dean:我們嘗試找到哪些領(lǐng)域顯然存在開放研究問題,以及解決這些問題能有助于打造更加智能代理和系統(tǒng)的領(lǐng)域。我們有一套登月(moonshot)研究領(lǐng)域,將我們的一些研究項目集中在了很棒的主題下。比如,該登月研究之一就是開發(fā)能真正理解,總結(jié)和回答長文本問題的學(xué)習(xí)算法(長文件,收集數(shù)百個文件,等等)。這樣的工作在沒有任何想好的產(chǎn)品雛形下完成,盡管很明顯的是,如果我們成功了,它會在很多不同語境中,它會很有用。
其他的研究僅僅處于好奇心。因為全年都有很多讓人興奮的年輕研究人員到我們這里來,有的成為固定成員,有的是實習(xí),我們也常常談到能讓大部分機器學(xué)習(xí)社群中的人興奮的方向。
最后,我們的某些研究是與我們的產(chǎn)品團隊合作完成的,這里面有很多機器學(xué)習(xí)方面的難題。我們持續(xù)與我們的翻譯,機器人和自動駕駛汽車團隊合作,過去也與語音團隊、搜索排名團隊以及其他團隊有類似的合作。這些合作通常涉及開放的未解決的研究問題,解決這些問題將會賦予這些產(chǎn)品新的能力。
在接下來幾年,我希望我們繼續(xù)發(fā)展和擴大團隊規(guī)模,以多種形式影響世界:通過學(xué)術(shù)論文、開源軟件以及在機器學(xué)習(xí)研究方面解決困難的開放問題等。有很多事亟需去做。所以,我們正在招聘全職研究員、軟件工程師、研究實習(xí)生等。
4.你能教一個學(xué)習(xí)機器創(chuàng)造另一個學(xué)習(xí)機器嗎,也就是說,創(chuàng)造一個能夠創(chuàng)造其它人工智能的人工智能?
Jeff Dean:我確實相信這是一個非常有前景的方法。有一些不同的超參數(shù)調(diào)諧系統(tǒng)和算法(tuning systems and algorithms)在向這個方向發(fā)展。本質(zhì)上看,這是人類在機器學(xué)習(xí)上的精巧設(shè)計和計算之間的權(quán)衡。
這個方面一個更有雄心的方向是在學(xué)習(xí)合適的模型結(jié)構(gòu)的同時學(xué)習(xí)完成各種各樣的任務(wù),這是目前一個開放的研究問題。目前大部分深度學(xué)習(xí)模型和算法本質(zhì)上都依賴人類機器學(xué)習(xí)專家來特定模型之間的連接,而優(yōu)化過程實際上只是在這些連接中沿著邊(edge)調(diào)整權(quán)重,這讓我很困擾。而人類呢,在童年的早期階段,我們的大腦每秒都會形成 700 個新的神經(jīng)連接(或者說每年 220 億)。
5.大腦的能量效率 vs 用于傳統(tǒng)深度學(xué)習(xí)模型的大量電力和計算資源,這經(jīng)常被用于去做更多「激發(fā)大腦的學(xué)習(xí)」的論據(jù):這是一個公平比較嗎?如果公平的話,你認(rèn)為是什么導(dǎo)致了二者的根本性差異?能源效率是 Google Brain 團隊目前正在試圖解決或是想于未來解決的一個目標(biāo)嗎?如果是的話,你可以在這個主題的不同方向上闡述一下嗎?
Jeff Dean:關(guān)于能源效率,真正的大腦肯定更節(jié)能,而且比目前的機器有更多的計算能力。但是二者的差距也許并不像看起來那么大,因為真正的大腦需要大約 20 年來「訓(xùn)練」,而鑒于我們是一幫不耐煩的機器學(xué)習(xí)研究人員,因此想在一周內(nèi)就完成實驗。如果我們愿意讓自己的實驗周期時間是 20 年而非 1 周,我們顯然可以得到更好的能源效率,但我們傾向于更短的實驗周期,即使它會花費我們的能源效率。
6.Brain Residency 項目可能招本科生嗎?
Jeff Dean:Brain Residency 項目實際上接受各種教育背景的人,包括一些剛走出大學(xué)校園的本科生。我們最關(guān)心的是一個人是不是有學(xué)習(xí)如何研究機器學(xué)習(xí)的強烈興趣,以及他們是否有做研究所必需的背景(合適的數(shù)學(xué)和編程技能)。對于 2016 年 Brain Residency 最早的這個 27 人班來說,差不多一半有本科學(xué)位、一半有碩士和博士學(xué)位。在這 27 個人中,大約有一半一畢業(yè)就直接來找我們了,另一半有一些工作經(jīng)驗。
如果你正要結(jié)束本科學(xué)習(xí),如果有興趣,你應(yīng)該考慮申請下一年的這個項目:g.co/brainresidency(明年的項目申請在今年秋天開放,項目預(yù)計將在 2017 年 7 月開始,盡管我們?nèi)栽诖_定具體的日期)。我們的團隊還有實習(xí)項目,這主要招研究生,但我們常常有一些本科的實習(xí)生。
三、Google Brain 團隊其他成員
1.在人工智能領(lǐng)域中看起來有很多的充滿了直覺性方法( hackiness)。有一段時間 dropout 不錯,但現(xiàn)在過時了,無監(jiān)督預(yù)訓(xùn)練也是這樣。你認(rèn)為什么時候理論將趕上實踐?這很重要嗎?
Martin Abadi:同意直覺性方法( hackiness)的觀點,這可能很重要。
現(xiàn)實進(jìn)展飛速。另一方面,偶然會有一些領(lǐng)域理論走在了實踐的前面。機器學(xué)習(xí)中,在隱私上的研究可能就是這樣一個例子。另一個可能就是在數(shù)據(jù)流計算,這是一個很老的領(lǐng)域,但是,現(xiàn)在有時候它與我們在 TensorFlow 上的工作非常相關(guān)。
Samy Bengio:如今在深度學(xué)習(xí)中,理論落后于實踐,但越來越多的人對縮減理論與實踐的差距感興趣,這明顯是好的,因為理論經(jīng)常(并非總是)幫助指導(dǎo)新的實踐。理論和實踐都需要,但是,一個不需要「等」另外一個。
2.目前自然語言處理中最激動人心的事是什么?
Quoc Le:在我看來,神經(jīng)機器翻譯是目前最激動人心的。我們開始見證機器翻譯方面取得了重大進(jìn)展,因為這一方法及其formulation 已經(jīng)足夠通用,可用于其他任務(wù)。
其他令人激動的事情:在改進(jìn)監(jiān)督學(xué)習(xí)上,無監(jiān)督學(xué)習(xí)和多任務(wù)學(xué)習(xí)所帶來的好處。
這是一個有著大量優(yōu)秀想法,發(fā)展迅速的領(lǐng)域。其他激動人心的事情包括在神經(jīng)網(wǎng)絡(luò)中使用記憶(DeepMind、FAIR)和外部函數(shù)(Google Brain、DeepMind)。
3.我們的很多文本推理都是來自于對場景的視覺理解。經(jīng)典的例子是:一個物體無法放進(jìn)書包,因為物體太大或者書包太小。我們從場景視覺推理中知道大這個詞指的是物體, 小指的是書包。可以肯定是,推斷這些知識或許是可能的,給出足夠的文本例子,一個人可能會對我們的世界和它的物理定律有一個相當(dāng)合理的理解。然而,似乎更可能的是,我們(人類)使用我們的視覺理解世界來對文本信息進(jìn)行推理,是這樣嗎?
Quoc Le:你的問題很有意義,所以我的回答很長。第(3)部分可能是你最關(guān)心的,但是(1)和(2)可以提供一些背景信息。
(1)將一些句子映射到一些嵌入(「記憶」)中,這些記憶會被解碼回到原來的句子。這個想法與「序列自編碼器」類似,這篇論文里有描述:Semi-supervised Sequence Learning?。
序列自編碼器基于另一種叫用神經(jīng)網(wǎng)絡(luò)進(jìn)行序列到序列學(xué)習(xí)的技術(shù):Sequence to Sequence Learning with Neural Networks ,這個技術(shù)學(xué)習(xí)將一條英語句子映射到一條法語句子上,
(2)從你的評論看出你關(guān)心的是視覺方面的模型。研究者們已經(jīng)整合了多個神經(jīng)網(wǎng)絡(luò)進(jìn)行跨領(lǐng)域工作。比如,將圖像映射到文本上。這里有一些使用卷積或循環(huán)網(wǎng)絡(luò)自動生成圖像字幕的相關(guān)研究。例如,
Explain Images with Multimodal Recurrent Neural Networks;
Show and Tell: A Neural Image Caption Generator;
Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models;
Long-term Recurrent Convolutional Networks for Visual Recognition and Description;
Deep Visual-Semantic Alignments for Generating Image Descriptions
(3)我們 Google Brain 團隊也將許多視覺、非視覺的任務(wù)(翻譯、圖像描述、序列自編碼器)整合到了一起:Multi-task Sequence to Sequence Learning。我們通過聯(lián)合訓(xùn)練( joint training)模型而在單個任務(wù)的精確度上取得了一些溫和的進(jìn)步。所以這意味著使用視覺信息提升文本信息是可能的。
這些網(wǎng)絡(luò)一般有一個編碼器(卷積網(wǎng)絡(luò)或循環(huán)網(wǎng)絡(luò))和一個解碼器(循環(huán)網(wǎng)絡(luò))。編碼器可將輸入(圖像、句子)映射到密集向量( dense vector,),而解碼器可將密集向量映射到一些輸出句子。但這個例子中的「記憶(memory)」是該密集向量,人類并不能輕易理解它。換句話說,你不能在這個向量中看見「物體(objects)」和「位置(locations)」。但這個向量可被很好地解碼為原句子。
就我所知,在深度學(xué)習(xí)領(lǐng)域,還沒有什么把句子映射到一個稀疏的、人類可讀的向量中的研究(該向量可被解碼成原句子)。而這可能是一個很好的未來研究主題。
然而我很擔(dān)心:因為我們不能輕易理解編碼器和解碼器之間的密集向量,所以我們就不知道模型做了哪種類型的推理。
盡管聯(lián)合訓(xùn)練( joint training)有我在(3)中提到的那樣的好處,但我認(rèn)為使用視覺信息學(xué)習(xí)「常識」和改進(jìn)文本信息的想法仍然是一個仍待研究的開放領(lǐng)域。
4.在開發(fā) TensorFlow 時,為什么選擇 Python 進(jìn)行圖形構(gòu)建(graph construction)、選擇 C++ 庫進(jìn)行執(zhí)行(execution)?為什么不使用 Go 語言呢?你們考慮過使用 Go 語言嗎?
Vijay Vasudevan:我認(rèn)為我們選擇 C++ 作為核心有以下一些原因:
1)大部分 TensorFlow 的開發(fā)者在他們的職業(yè)生涯中都一直在使用 C++,所以這對我們來說是最具生產(chǎn)力的語言。這可能是最重要的原因——真的沒什么更重要的。
2)我們所使用的高性能的數(shù)學(xué)庫也是 C++ 的(Eigen、CuDNN 等)——盡管你可以將一些 C++ 庫和其它一些語言結(jié)合起來。
3)大部分核心開發(fā)者都不精通 Go 語言,盡管我們現(xiàn)在有一些人有 Go 語言開發(fā)經(jīng)驗了。
也就是說, TensorFlow 的目標(biāo)一直都是將多種前端語言與 C++ 內(nèi)核結(jié)合起來。目前在 Python 上有全功能的支持(這是我們的內(nèi)部和外部用戶喜歡的一點),但我們也在努力開發(fā)以便支持更多的前端語言。比如說,我們有基本的 C++ 圖形構(gòu)建 API,可以讓那些只想用 C++ 的人使用。我們在 GitHub 上有一個 Go 語言前端的分支:https://github.com/tensorflow/tensorflow/tree/go;盡管目前它只能用于運行圖形,而不能構(gòu)建圖形。
類似地,我們希望能看到開發(fā)出大量的結(jié)合了 C++ 內(nèi)核的前端,我們正在努力讓這項工作變得更簡單!
5. 大多數(shù)圖形用戶界面( GUI )專注于幫助解釋機器學(xué)習(xí)流程期間或結(jié)束時的結(jié)果,你是否看到過任何面向?qū)W⒂?pipeline 本身 GUI 的工作?
Fernanda Viegas:是的。我們已經(jīng)開始將訓(xùn)練數(shù)據(jù)可視化,通過這種方法來理解深度學(xué)習(xí)網(wǎng)絡(luò)在訓(xùn)練之前所攝取的內(nèi)容。機器學(xué)習(xí)的許多問題來源于不能輕易地檢查輸入系統(tǒng)的數(shù)據(jù),那會使得讓其成為可能的前端工具變得相當(dāng)重要。
6.在強化學(xué)習(xí)方面 Rich Sutton 曾預(yù)言,強化學(xué)習(xí)將把對價值函數(shù)的關(guān)注轉(zhuǎn)移到對實現(xiàn)價值函數(shù)估計的結(jié)構(gòu)的關(guān)注;即其所謂的建構(gòu)主義(constructivism)。如果你們對這個概念很熟悉,能推薦一些有關(guān)此類主題的研究工作嗎?
Sergey Levine:廣義價值函數(shù)(generalized value functions)原則上有兩個好處:(1)事件預(yù)測的一般框架;(2)無需昂貴的策略學(xué)習(xí)就能夠拼湊新任務(wù)行為的能力。
(1)到目前為止還沒有在實踐中成功過,因為經(jīng)典的完全監(jiān)督預(yù)測模型很容易使用反向傳播和 SGD 來訓(xùn)練,但是(2)實際上相當(dāng)重要,因為離策略學(xué)習(xí)(off-policy learning)對于樣品有效的強化學(xué)習(xí)是至關(guān)重要的,它將使得強化學(xué)習(xí)被運用于現(xiàn)實世界的真實物理系統(tǒng)之中(比如機器人、你的手機等等)。
麻煩的是即使在理論上,「離策略(off policy)」方式在實踐中也只是有點離策略而已,而當(dāng)你太過離策略時,則會快速下降。這是一個正在進(jìn)行的研究領(lǐng)域。關(guān)于廣義價值函數(shù)的一些最近工作,我推薦這篇論文:Successor Features for Transfer in Reinforcement Learning。
7.你們認(rèn)為現(xiàn)在這一領(lǐng)域最讓人興奮的事情是什么?第二,你們認(rèn)為這里領(lǐng)域什么東西被低估了?可能是一些大家不熟悉或者很管用但并不流行的技術(shù)方法。
Dan Mané:最讓人興奮的事情:個人來看,是增強人類創(chuàng)造力的潛在技術(shù)(尤其是生成模型)。例如,神經(jīng)涂鴉(neural doodle),藝術(shù)風(fēng)格轉(zhuǎn)換(artistic style transfer) ,現(xiàn)實的生成模型,Megenta 即將完成的音樂生成模型。
現(xiàn)在的創(chuàng)新需要一定的品味和視野,但是也需要很多技術(shù)技巧,例如需要擅長在小規(guī)模的圖像上PS,還要招聘大量的做過大片的動畫制作人員和工程師。我認(rèn)為人工智能有潛力大大減少這些技術(shù)壁壘,釋放更多的創(chuàng)造力。
Vincent Vanhoucke:令人興奮的事情:機器人!我認(rèn)為不被環(huán)境約束的機器人是當(dāng)下被忽視的,缺少深度學(xué)習(xí)技術(shù)讓它無法在現(xiàn)實世界中發(fā)揮強大作用。
被低估的:好的舊的 Random Forests 和 Gradient Boosting 沒得有得到應(yīng)有的重視,特別是在學(xué)術(shù)界。
Doug Eck:讓人興奮的事情:超越監(jiān)督學(xué)習(xí)。我對還沒有一個明確數(shù)字衡量成功的領(lǐng)域里的研究特別感興趣。但是,我現(xiàn)在做的是 Magenta 的工作,谷歌大腦的一個研究,用深度學(xué)習(xí)和強化學(xué)習(xí)來生成藝術(shù)和音樂作品。被低估的問題:認(rèn)真清理數(shù)據(jù),例如,投入大量精力用元數(shù)據(jù)找出系統(tǒng)性問題。機器學(xué)習(xí)的實踐包括了三個同等比例的部分:數(shù)據(jù)接口,數(shù)據(jù)質(zhì)量,算法開發(fā)。(那比較樂觀。確實有很多下面的數(shù)據(jù)接口工作和數(shù)據(jù):)
8.你們做的研究和工作與大學(xué)里教授做的有什么不同?是不是你們的工作比較關(guān)注應(yīng)用而不太關(guān)注理論?還是說你們做的工作幾乎是一樣的?
George Dahl:我們做的工作幾乎一樣,包括基礎(chǔ)研究或者我們認(rèn)為更偏向應(yīng)用的研究。(學(xué)院派也做應(yīng)用研究!)和學(xué)院派很像的是,我們也會發(fā)表論文,與研究社群互動,我們也參加各種大會和 Workshop,并在那里展示我們的工作成果,有時也會和其他機構(gòu)同行合作研究。
可以這么說,我們與學(xué)界研究有一些不一樣的地方,這會影響到我們選擇研究項目,以及我們?nèi)绾巫鲰椖俊@?#xff0c;與大多數(shù)學(xué)院派團隊相比,我們有更多的計算資源,包括全新的硬件(比如,TPU)。在團隊組合上,我們很容易就能合并不同的團隊一起做項目,無論他們是高級研究員還是普通研究員或者工程師,只要需要他們,都可以參與進(jìn)來。跟大學(xué)一樣,我們在訓(xùn)練很多能力強的初級研究員,他們能給我們團隊帶來許多新的想法和能量。在我們的團隊中,有固定的成員也有實習(xí)生。此外,我們能接觸到很多實際應(yīng)用中的問題,有機會通過 Alphabet 的產(chǎn)品產(chǎn)生實際的影響;另一方面,大學(xué)通常走的是另外一條我們很少考慮的路。例如,參與政府項目并培訓(xùn)下一代研究員(我們的實習(xí)生和固定成員項目也有一個訓(xùn)練過程,所以或許更大不同是我們在其他地方不會培養(yǎng)太多的本科生)。
考慮這些因素后,我們還是喜歡發(fā)揮我們自己的優(yōu)勢,在我們所處的獨特位置上 ,來解決大問題。
9.你們與神經(jīng)科學(xué)家(尤其是理論上的/偏計算機方向的)有多少合作?機器學(xué)習(xí)和神經(jīng)科學(xué)是否都能從日益增多的合作中收益,或者你覺得現(xiàn)有的合作水平已經(jīng)是足夠了?你們計劃用新創(chuàng)造出來的 Galvani Bioelectronics 進(jìn)行任何研究工作嗎?
Greg Corrado:我們團隊中只有幾個人有計算神經(jīng)科學(xué)/理論背景,但是現(xiàn)在這兩個領(lǐng)域分歧很大,各執(zhí)一詞:計算神經(jīng)科學(xué)的任務(wù)是理解生物學(xué)上的大腦如何計算,而人工智能的任務(wù)是建構(gòu)智能機器。例如,機器學(xué)習(xí)研究員可能設(shè)計一條可以在計算硬件中實際運行的學(xué)習(xí)規(guī)則,而研究突觸可塑性的神經(jīng)科學(xué)家卻想要從生物化學(xué)角度發(fā)現(xiàn)真實大腦的學(xué)習(xí)規(guī)則。這兩種學(xué)習(xí)規(guī)則相同嗎?實際上沒人知道。
因此,雖然長遠(yuǎn)看來,兩個領(lǐng)域存在相互學(xué)習(xí)借鑒的機遇,但是,目前未知情況太多,兩個領(lǐng)域仍舊處在相互啟發(fā)的交流層面,而不是可測試的研究假設(shè)階段。
10.要在人工智能上取得成功,需要很擅長數(shù)學(xué)嗎?
Greg Corrado:這要看「擅長數(shù)學(xué)」和「在人工智能上取得成功」是什么意思了。
if "在人工智能上取得成功" == "使用機器學(xué)習(xí)開發(fā)出一些有趣的東西":
then assert "擅長數(shù)學(xué)" >= "知道向量、矩陣和梯度并知道它們的使用方法"
else if "在人工智能上取得成功" == "在頂級機器學(xué)習(xí)大會上發(fā)表論文":
then assert "擅長數(shù)學(xué)" >= "線性代數(shù)、矢量微積分和優(yōu)化上研究生水平的教育"
else if "在人工智能上取得成功" == "開發(fā)出世界上第一個通用人工智能":
then "非常擅長數(shù)學(xué)" is 保守估計還要十年的學(xué)習(xí).
else:
請明確.
11.在人工智能安全問題上,谷歌大腦會有值得期待的進(jìn)一步研究嗎?在不久的將來有哪些特別的研究方向值得追逐?另外,你們對 Effective Altruism Global (簡稱 EA Global )有什么印象或評論嗎?
Chris Olah:Dario 和我發(fā)表了論文「Concrete Problems in AI Safety 」,我們對自己在這些問題上取得進(jìn)步感到非常興奮,谷歌大腦和 OpenAI 的其他成員也很興奮。在探索可擴展監(jiān)督的方法方面,我們尚處于早期階段,我們也在思考其它一些問題。更廣泛地說,就此安全問題展開合作,谷歌大腦和 OpenAI 都對此抱有極大熱情:我們都真正想解決這些問題。我也對此很興奮。
至于 EA Global ,我是 GiveWell 的狂熱粉絲,也是抗瘧疾基金會的捐助者。在這場大會上,因為一些人對人工智能安全非常感興趣,我做了關(guān)于那篇論文的簡短演講,我認(rèn)為我們表達(dá)了相當(dāng)與眾不同的觀點。
12.有個問題我很好奇:你的團隊里有誰的機器學(xué)習(xí)背景是非典型的嗎?非典型是指那些雖然不是真正的計算機科學(xué)家、數(shù)學(xué)家或統(tǒng)計學(xué)家,卻在這些方面有某項很強的基礎(chǔ),因而有不同的關(guān)注點/技能集/背景的人。
Geoffrey Hinton:我不喜歡實驗心理學(xué)。他們想研究的那種理論太簡單了。所以我當(dāng)了一年木匠。我不是很擅長做木匠活,所以我念了一個人工智能的 PhD。不幸的是,我關(guān)于人工智能的想法是一個能從數(shù)據(jù)中進(jìn)行學(xué)習(xí)的大型神經(jīng)網(wǎng)絡(luò)。盡管那個時候它還無法真正進(jìn)行學(xué)習(xí),但是,據(jù)我判斷,它就是圖靈所堅信的那個東西。
Chris Olah:好吧,我沒有任何大學(xué)學(xué)位,所以我猜是下面這幾點令我與眾不同。總的來說,我就是這么走到今天的:
在高中,我旁聽了很多數(shù)學(xué)課并寫了很多程序。
我在多倫多大學(xué)學(xué)了一年純數(shù)學(xué)。然而,我的一個朋友因為在多倫多 G20 峰會做安全研究而被捕了——警察在他家找到了一個作為業(yè)余愛好的科學(xué)實驗室,并認(rèn)定他在做炸彈——所以,我花了很多時間為我的朋友提供法庭支援。到那年年末,我已經(jīng)花了一年的時間支持我的朋友,同時研究 3D 打印機(例如 ImplicitCAD)。
我的朋友終于澄清了,我也因為 3D 打印機的成果獲得了泰爾獎學(xué)金,該獎學(xué)金是用來支持我做兩年研究的,并不資助我繼續(xù)讀完本科學(xué)位。
通過我的朋友 Michael Nielsen,我接觸到機器學(xué)習(xí),我們一起做一些研究。
在 Yoshua Bengio 招研究生的時候我與其接觸。他幫助了我很多,我?guī)状螀⒂^過他的組。
我在谷歌討論了我的研究。Jeff 給了我一份在 Brain 的實習(xí),實習(xí)兩年后我成為了一個全職研究者。這差不多是一份完美的工作。
Doug Eck:我本科念的是創(chuàng)意寫作方向的英國文學(xué)。我可能是 Brain 里唯一一個擁有這種背景的研究人員:)同時,我自學(xué)數(shù)據(jù)庫,做了幾年數(shù)據(jù)庫程序員。我也是一個活躍的音樂家,但沒到專業(yè)水平。最終我遵循我對音樂的熱情,回到母校念音樂和人工智能方向的計算機科學(xué) PhD。然后進(jìn)入學(xué)術(shù)界(用 LSTM 生成音樂的博士后工作;蒙特利爾大學(xué)學(xué)院的 LISA/MILA 實驗室)。六年前,我得到了作為研究科學(xué)家加入谷歌的機會。我真的喜歡我研究生涯的每一步,而且我仍然確信我本科時的文科專業(yè)是幫助我走到這里的至關(guān)重要的一步。
13.你怎么從使用隨機方法創(chuàng)造的模型中進(jìn)行學(xué)習(xí)?在什么情況下,模型(以及人類從該模型中得到的見解)比該模型的輸出更具有價值?你認(rèn)為信息/數(shù)據(jù)可視化在機器學(xué)習(xí)中扮演了怎樣的角色,尤其是在模型的驗證和了解模型的工作方式上?
Martin Wattenberg:可視化可以扮演很多角色。在研究方面,可以參考一個經(jīng)典的比喻:對大腦的研究在一個多世紀(jì)前被某種形式的「可視化」革新,即由 Santiago Ramón y Cajal 畫出的那些美麗的神經(jīng)元圖。這種影響持續(xù)到了今天的使用功能 MRI 的技術(shù)。我認(rèn)為我們還沒有「深度網(wǎng)絡(luò)的 MRI」,但我們已經(jīng)看到許多使用可視化幫助理解復(fù)雜模型所學(xué)習(xí)到的特征的論文了。
可視化在教學(xué)方面也具有重要作用。比如,Chris Olah 和 Andrej Karpathy 創(chuàng)作的交互式文章就非常強大。而且我們也已經(jīng)在 TensorFlow Playground 上得到了很好的響應(yīng),這讓人們可以僅僅通過 GUI 控制就實現(xiàn)對小型神經(jīng)網(wǎng)絡(luò)的操作。
回到第一個問題,如果一個模型在一些任務(wù)上的表現(xiàn)優(yōu)于人類,人們很自然就會問機器學(xué)習(xí)是否會變成人類學(xué)習(xí)——也就是說,我們可以明白該模型在做什么,然后我們自己可以將它做得更好嗎?如果某一天模型不僅能夠提供答案,而且還能提供見解,那一定非常激動人心。
總結(jié)
以上是生活随笔為你收集整理的机器之心 Synced 08月12日 20:59的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: RNN 怎么用?给初学者的小教程
- 下一篇: 一句话介绍区块链是什么