谷歌深度学习四大教训:应用、系统、数据及原理(附数据集列表)
谷歌深度學(xué)習(xí)四大教訓(xùn):應(yīng)用、系統(tǒng)、數(shù)據(jù)及原理(附數(shù)據(jù)集列表)
新智元mp 2016-10-28 19:22:55 閱讀(809) 評(píng)論(0)新智元原創(chuàng)
參考來(lái)源:airsassociation.org
作者:聞菲、弗格森
新智元啟動(dòng)新一輪大招聘:COO、執(zhí)行總編、主編、高級(jí)編譯、主筆、運(yùn)營(yíng)總監(jiān)、客戶經(jīng)理、咨詢總監(jiān)、行政助理等 9 大崗位全面開(kāi)放。
簡(jiǎn)歷投遞:jobs@aiera.com.cn
HR 微信:13552313024
新智元為COO和執(zhí)行總編提供最高超百萬(wàn)的年薪激勵(lì);為骨干員工提供最完整的培訓(xùn)體系、高于業(yè)界平均水平的工資和獎(jiǎng)金。
加盟新智元,與人工智能業(yè)界領(lǐng)袖攜手改變世界。
【新智元導(dǎo)讀】剛剛結(jié)束的倫敦深度學(xué)習(xí)峰會(huì)上,曾與吳恩達(dá)在 Google Brain 共事的谷歌高級(jí)研究員 Greg Corrado 分享了他對(duì)何時(shí)、何地、如何使用深度學(xué)習(xí)等非常實(shí)用的經(jīng)驗(yàn)。Corrado 表示:某些情況下,盡管深度學(xué)習(xí)十分有用,也完全可以使用其他方法;沒(méi)有谷歌那樣強(qiáng)大的系統(tǒng)也能做深度學(xué)習(xí)。Corrado 盡管是神經(jīng)科學(xué)出身,但他認(rèn)為 AI 從腦科學(xué)研究成果中受益非常有限。本文結(jié)合吳恩達(dá)、RNN 之父 Jürgen Schmidhuber 的觀點(diǎn)對(duì)其做了進(jìn)一步闡經(jīng)驗(yàn)。
在深度學(xué)習(xí)和人工智能上,谷歌聘請(qǐng)了一些世界上最聰明的研究研究員,聽(tīng)聽(tīng)他們?cè)趺纯创@一領(lǐng)域并不是個(gè)壞主意。在剛剛結(jié)束的倫敦深度學(xué)習(xí)峰會(huì)上,谷歌高級(jí)研究員 Greg Corrado發(fā)表演講,就何時(shí)、為什么以及怎么樣使用深度學(xué)習(xí)提出了幾點(diǎn)建議。
深度學(xué)習(xí)并非必須,即便它可能會(huì)有用
Corrado 給出的最有用的建議也許就是:深度學(xué)習(xí)并不一定都是解決問(wèn)題的最佳方式,即便它也許能得到最好的結(jié)果。現(xiàn)在,深度學(xué)習(xí)計(jì)算成本高昂,而且通常都要求有大量的數(shù)據(jù),如果你是自己搭建系統(tǒng)的話,可能還需要一些內(nèi)行的專(zhuān)業(yè)知識(shí)。所以,深度學(xué)習(xí)可能最終在一些結(jié)構(gòu)化數(shù)據(jù)基礎(chǔ)之上的模式識(shí)別任務(wù)上可以做得很好,比如欺詐檢測(cè)、股票市場(chǎng)預(yù)測(cè)或者是銷(xiāo)售管道分析等等。
Corrado 說(shuō),在一些已經(jīng)得到廣泛采用的領(lǐng)域,調(diào)整(justify)會(huì)更容易進(jìn)行。“機(jī)器感知上,深度學(xué)習(xí)就比其他方法要好得多得多。” 但是,在別的領(lǐng)域,深度學(xué)習(xí)和其他方法之間的差距其實(shí)并沒(méi)有那么大。
實(shí)際上,從新智元之前的報(bào)道《11 位機(jī)器學(xué)習(xí)大牛最?lèi)?ài)算法全解》中就能發(fā)現(xiàn),在深度學(xué)習(xí)如此流行的今天,即使是大牛最喜歡用的也不一定是深度學(xué)習(xí)。
小“引擎”也能做深度學(xué)習(xí)
Corrado 說(shuō),即使當(dāng)一家公司已經(jīng)決定使用深度學(xué)習(xí)技術(shù),它也沒(méi)有必要像谷歌、Facebook 或者百度一樣建立那么巨大的系統(tǒng)。臺(tái)式計(jì)算機(jī)如果有一塊高效的 GPU,也能發(fā)揮作用。
Corrado 解釋說(shuō),谷歌需要一個(gè)巨大的系統(tǒng),是因?yàn)樗麄冇写罅康臄?shù)據(jù),并且,隨著研究的演進(jìn),他們要能夠迅速推動(dòng)項(xiàng)目才行。但是,如果你知道自己想干什么,或者沒(méi)有大的時(shí)間限制,那么小的系統(tǒng)也足夠了。
“答案肯定是沒(méi)有必要,”Corrado 重復(fù)道:“……你的系統(tǒng)只要大到能存下火箭燃料就行了。”
Corrado “火箭燃料”的比喻來(lái)自他的前同事、現(xiàn)在的百度首席科學(xué)家吳恩達(dá),這是后者經(jīng)常提到的比喻(現(xiàn)在是“AI 是新的電力”)。不過(guò),關(guān)于什么才是“火箭燃料”,吳恩達(dá)自己也有兩種說(shuō)法。
2015 年初,吳恩達(dá)在未來(lái)論壇創(chuàng)立大會(huì)發(fā)表主旨演講《機(jī)器學(xué)習(xí)與AI人工智能》,以百度語(yǔ)音識(shí)別為例,對(duì)“火箭論”做了比較詳細(xì)的介紹。其中,吳恩達(dá)說(shuō):
“為什么深度學(xué)習(xí)現(xiàn)在開(kāi)始火了?我要做一個(gè)比喻,你想象一下我們建造火箭,火箭有兩個(gè)部分,第一部分是火箭發(fā)射機(jī),第二個(gè)是燃料。如果發(fā)動(dòng)機(jī)小,燃料很多是不可能的;如果發(fā)動(dòng)機(jī)很小,燃料很少也不行,所以火箭必須要有一個(gè)大發(fā)動(dòng)機(jī)和很多的燃料。深度學(xué)習(xí)和這個(gè)差不多,現(xiàn)在神經(jīng)網(wǎng)絡(luò)就是發(fā)動(dòng)機(jī),它推動(dòng)著 AI 的發(fā)展,燃料就是我們所用的數(shù)據(jù),社會(huì)數(shù)據(jù)化給我們提供了大量的數(shù)據(jù)輸入發(fā)動(dòng)機(jī)中給作燃料。AI最近發(fā)展的主要推動(dòng)力,是因?yàn)槟軌蚪ê艽蟮纳窠?jīng)網(wǎng)絡(luò)。百度這樣的公司能夠收集很多的數(shù)據(jù),還有一個(gè)很大的技術(shù)網(wǎng)絡(luò),這樣當(dāng)然深度學(xué)習(xí)可以越來(lái)越好了。
“我再給大家舉一個(gè)例子,解釋我剛才做的發(fā)動(dòng)機(jī)核燃料的比喻。我現(xiàn)在和大家展示一個(gè)關(guān)于語(yǔ)音識(shí)別的例子。百度在語(yǔ)音識(shí)別方面投入了很多,直到最近基本上所有語(yǔ)音識(shí)別都是很簡(jiǎn)單的軟件實(shí)施,一個(gè)方塊里是一個(gè)復(fù)雜的體系。我們最近決定改用神經(jīng)網(wǎng)絡(luò)——就是我們的發(fā)動(dòng)機(jī)——會(huì)取得什么效果(參見(jiàn)下面的PPT)。百度早期在 GPU 投入很多,所以能夠建造很大的火箭發(fā)動(dòng)機(jī)。燃料是什么?在語(yǔ)音識(shí)別方面,大部分學(xué)術(shù)人士都利用數(shù)據(jù),有一些人有300個(gè)小時(shí),最大的是2000個(gè)小時(shí),最開(kāi)始百度用了幾個(gè)小時(shí)的語(yǔ)音數(shù)據(jù),后來(lái)有幾千個(gè),再后來(lái)建立了合成的語(yǔ)音數(shù)據(jù),最后一共達(dá)到了10萬(wàn)個(gè)的語(yǔ)音數(shù)據(jù),按照語(yǔ)音識(shí)別的標(biāo)準(zhǔn),這是無(wú)法想象的數(shù)據(jù)量。將火箭燃料和火箭引擎放在一起,就提高了語(yǔ)音識(shí)別的性能,而且也有很好開(kāi)放的OPI進(jìn)行發(fā)現(xiàn)。”
但是,吳恩達(dá)在今年 2 月接受《財(cái)富》雜志采訪時(shí),對(duì)“火箭引擎”做了更改:“計(jì)算能力的提高和數(shù)據(jù)的增多,推動(dòng)機(jī)器學(xué)習(xí)領(lǐng)域取得了很大的進(jìn)步,盡管這種觀點(diǎn)在學(xué)術(shù)界并不受歡迎。以造火箭來(lái)打個(gè)比方……在這個(gè)比喻中,火箭引擎便是大型計(jì)算機(jī)——在百度,也就是我們正在建造的超級(jí)計(jì)算機(jī)——而火箭燃料便是我們擁有的大量數(shù)據(jù)。
在倫敦深度學(xué)習(xí)峰會(huì)當(dāng)天早些時(shí)候,本文作者對(duì)吳恩達(dá)進(jìn)行了采訪,吳恩達(dá)介紹了深度學(xué)習(xí)是如何驅(qū)動(dòng)百度的廣告服務(wù)的。但是,吳恩達(dá)也建議說(shuō),數(shù)據(jù)中心的運(yùn)營(yíng)方式(也就是谷歌正在探索的)可能更適合。
總之,Corrado 建議,“臺(tái)式計(jì)算機(jī)如果有一塊高效的 GPU,也能發(fā)揮作用”,只要你知道自己想做什么就行了。
但是,你可能需要很多數(shù)據(jù)
不過(guò), Corrado 也指出,訓(xùn)練深度學(xué)習(xí)模型確實(shí)需要大量的數(shù)據(jù)。理想情況是,把你能拿到是所有數(shù)據(jù)都用上。如果他要給決策層提建議,什么時(shí)候該使用深度學(xué)習(xí),那么主要考慮的兩個(gè)問(wèn)題便是:
你需要解決的是不是機(jī)器感知的問(wèn)題;
你是不是擁有大量的數(shù)據(jù)。
他說(shuō):“為了讓系統(tǒng)運(yùn)轉(zhuǎn),你必須要擁有大量的數(shù)據(jù)。” 如果沒(méi)有大量的數(shù)據(jù),他的建議是可以去想辦法拿到數(shù)據(jù)。保證在每一個(gè)你希望訓(xùn)練的特征上都有不少于 100 次的可訓(xùn)練觀察,這是一個(gè)很好的開(kāi)始。
Corrado 表示,花上幾個(gè)月的時(shí)間去對(duì)模型進(jìn)行調(diào)整和優(yōu)化浪費(fèi)時(shí)間,想辦法在早期獲得更多的訓(xùn)練數(shù)據(jù)能讓你更快地解決問(wèn)題。
Corrado 還說(shuō),他對(duì)自己工作的定位不是在建立智能計(jì)算機(jī)(人工智能)或者打造會(huì)學(xué)習(xí)的計(jì)算機(jī)(機(jī)器學(xué)習(xí)),而是開(kāi)發(fā)一種能學(xué)著變得智能的計(jì)算機(jī)。
訓(xùn)練這樣一個(gè)系統(tǒng)需要大量的數(shù)據(jù)
設(shè)想一下,假如有(采用相對(duì)統(tǒng)一的數(shù)據(jù)格式保存的)世界各國(guó)地圖數(shù)據(jù)庫(kù)、各種語(yǔ)言的語(yǔ)料庫(kù)……會(huì)是件非常美好的事情。除了各大巨頭開(kāi)源的和 Github、Reddit、Kaggle 這些比較知名的數(shù)據(jù)庫(kù),新智元根據(jù) Wikipedia 整理了一些開(kāi)放的大規(guī)模(英語(yǔ))數(shù)據(jù)庫(kù),希望對(duì)你有所幫助:
跨學(xué)科數(shù)據(jù)庫(kù)、搜索引擎:
-
https://www..com/datasets
-
http://usgovxml.com
-
http://aws.amazon.com/datasets
-
http://databib.org
-
http://datacite.org
-
http://figshare.com
-
http://linkeddata.org
-
http://thewebminer.com/
-
http://thedatahub.org
-
http://ckan.net
-
http://quandl.com
-
Open Data Inception(這里有 2500+ 開(kāi)源接口)
單一數(shù)據(jù)集和數(shù)據(jù)庫(kù):
-
http://archive.ics.uci.edu/ml/
-
http://crawdad.org/
-
http://data.austintexas.gov
-
http://snap.stanford.edu/data/index.html
-
http://data.cityofchicago.org
-
http://data.govloop.com
-
http://data.gov.uk/data.gov.in
-
http://data.medicare.gov
-
http://www.dados.gov.pt/pt/catalogodados/catalogodados.aspx
-
http://data.sfgov.org
-
http://data.sunlightlabs.com
-
https://datamarket.azure.com/
-
http://econ.worldbank.org/datasets
-
http://gettingpastgo.socrata.com
-
http://public.resource.org/
-
http://timetric.com/public-data/
-
http://www.bls.gov/
-
http://www.crunchbase.com/
-
http://www.dartmouthatlas.org/
-
http://www.data.gov/
-
http://www.datakc.org
-
http://dbpedia.org
-
http://www.factual.com/
-
http://www.freebase.com/
-
http://www.infochimps.com
-
http://build.kiva.org/
-
http://www.imdb.com/interfaces
-
http://knoema.com
-
http://daten.berlin.de/
-
http://www.qunb.com
-
http://databib.org/
-
http://datacite.org/
-
http://data.reegle.info/
-
http://data.wien.gv.at/
-
http://data.gov.bc.ca
社交網(wǎng)絡(luò)數(shù)據(jù)庫(kù)
-
http://enigma.io
-
http://www.ufindthem.com/
-
http://NetworkRepository.com(有視覺(jué)互動(dòng)分析的機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù))
-
http://MLvis.com
深度學(xué)習(xí)并不是真的基于大腦
Corrado 是神經(jīng)科學(xué)博士,在進(jìn)入谷歌之前,曾在 IBM 研發(fā)了 SyNAPSE 神經(jīng)突觸芯片。他確信,深度學(xué)習(xí)能從人類(lèi)大腦運(yùn)作機(jī)制中得到的借鑒是很有限的。同時(shí),前提條件是我們需要弄明白大腦的工作原理,但是在這一點(diǎn)上我們知之甚少。
同樣,RNN 之父 Jürgen Schmidhuber 的觀點(diǎn)也是如此。在談到腦科學(xué)及其對(duì) AI 影響的時(shí)候,Schmidhuber 表示,他的研究基本不會(huì)因?yàn)槟X科學(xué)的成果而受益。
Schmidhuber 說(shuō):“上一次神經(jīng)科學(xué)對(duì) AI 有啟發(fā)是幾十年前的事情了。最近深度學(xué)習(xí)的成功主要是由于數(shù)學(xué)和工程上的發(fā)現(xiàn),與神經(jīng)科學(xué)基本沒(méi)什么關(guān)聯(lián)。在本世紀(jì)初,我在 IDSIA 實(shí)驗(yàn)室制造出了從數(shù)學(xué)上進(jìn)行優(yōu)化的通用 AI 和問(wèn)題解決程序(例如 Marcus Hutter AIXI 模型,或者我提出的自引用的哥德?tīng)枡C(jī)器),它們都只包含幾個(gè)公式。我認(rèn)為從簡(jiǎn)單的原理綜合得出一個(gè)實(shí)用的智能模型,比起分析現(xiàn)有樣例——也即人類(lèi)大腦——要簡(jiǎn)單得多。從上世紀(jì) 90 年代起,我在演講中就一直談到這樣一個(gè)例子,現(xiàn)在有一個(gè) 19 世紀(jì)的工程師,他懂一點(diǎn)點(diǎn)電的原理,他該如何研究一臺(tái)現(xiàn)代手機(jī)的智能呢?或許他會(huì)用針去戳芯片,測(cè)量各個(gè)半導(dǎo)體特有的曲線(就像神經(jīng)科學(xué)家測(cè)量神經(jīng)元鈣離子通道的細(xì)節(jié)),完全沒(méi)有意識(shí)到半導(dǎo)體的主要存在理由是作為一個(gè)簡(jiǎn)單的二元開(kāi)關(guān)。或許他會(huì)監(jiān)測(cè)微處理器根據(jù)時(shí)間散熱分布的變化(就像神經(jīng)科學(xué)家研究大規(guī)模現(xiàn)象,比如在思考時(shí)腦區(qū)的活動(dòng)),完全沒(méi)有意識(shí)到它上面運(yùn)行的程序的簡(jiǎn)單性質(zhì)。理解智能的原理并不需要神經(jīng)生物學(xué)或電子工程學(xué),而是需要數(shù)學(xué)和算法,尤其是機(jī)器學(xué)習(xí)和搜索程序的技術(shù)。”
大會(huì)當(dāng)天早些時(shí)候,吳恩達(dá)也表達(dá)了相同的觀點(diǎn)。他說(shuō),很多研究者都認(rèn)為人類(lèi)以一種非監(jiān)督式的方法進(jìn)行學(xué)習(xí),但是, 今天大多數(shù)的深度學(xué)習(xí)模型仍然通過(guò)監(jiān)督式方法進(jìn)行訓(xùn)練。也就是說(shuō),計(jì)算機(jī)分析了很多的標(biāo)簽圖像、語(yǔ)音樣本或者其他任何東西進(jìn)行學(xué)習(xí)。
吳恩達(dá)此前也提到,深度學(xué)習(xí)所面臨的一個(gè)重要限制是,其創(chuàng)造的幾乎所有價(jià)值都在輸入-輸出映射當(dāng)中。如果在企業(yè)數(shù)據(jù)中,X 代表亞馬遜的一個(gè)用戶賬號(hào),Y 代表“他們是否曾進(jìn)行購(gòu)物?”你有大量 X-Y 配對(duì)的數(shù)據(jù),那么就可以采用深度學(xué)習(xí)。但在自行檢索數(shù)據(jù)和發(fā)現(xiàn)價(jià)值方面,這類(lèi)算法仍處在起步階段。
拿深度學(xué)習(xí)(或神經(jīng)網(wǎng)絡(luò))與大腦進(jìn)行比較,雖然是比較形象,但也會(huì)導(dǎo)致對(duì)深度學(xué)習(xí)的能力的夸大。Corrado 說(shuō),這種類(lèi)比,現(xiàn)在已經(jīng)被認(rèn)為過(guò)于夸張了。
總結(jié)
以上是生活随笔為你收集整理的谷歌深度学习四大教训:应用、系统、数据及原理(附数据集列表)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 小米宋强:生态化大数据平台的深度应用实践
- 下一篇: CAFFE学习笔记(一)Caffe_Ex