百度吴恩达:图像和音视频搜索是人工智能新方向
百度吳恩達(dá):圖像和音視頻搜索是人工智能新方向
作者:吳恩達(dá)未來論壇創(chuàng)立大會今天在北京舉行。本屆大會的主題是“指數(shù)Exponential ——通向明天的技術(shù)力量(The power of technology for a new tomorrow)”。
百度公司首席科學(xué)家吳恩達(dá)為本次論壇做了主旨演講,他演講的主題是“機(jī)器學(xué)習(xí)與AI人工智能”。在他看來,通過移動互聯(lián)網(wǎng)的興起,交流方式從文本慢慢轉(zhuǎn)向圖像和視頻,所以我們看到越來越多的人搜索圖像和語言,通過AI我們就能夠更好的了解這些文本和圖像,以及語言之間的互動關(guān)系。
吳恩達(dá)還闡述道,對于小孩和老年人來說,有時候可能打字比較困難,如果你能夠讓他們使用語音搜索,就能夠讓他們使用方便的信息產(chǎn)品和服務(wù)。對于我們普通人來說,使用語言識別和語言搜索也越來越方便,百度在語音識別方面投入了很多。
以下是吳恩達(dá)的演講實(shí)錄:
Andrew Ng:在過去幾年中,AI人工智能和深層次的學(xué)習(xí)不斷轉(zhuǎn)變技術(shù),而且給公司創(chuàng)建了巨大的經(jīng)濟(jì)價值,也在更大改進(jìn)人類和技術(shù)獲得的方式。但是關(guān)于AI人工智能也有非常多的炒作,我今天要做的就是向大家傳達(dá)兩個信息,一個,我希望能夠向大家介紹一下AI人工智能領(lǐng)域所發(fā)生的現(xiàn)象,我希望三十年之后,大家能夠講述什么是腳踏實(shí)地,什么是炒作。其次,如果你是組織的領(lǐng)導(dǎo)人,我希望30分鐘之后你能夠有戰(zhàn)略性的思維,思考一下最近的歷史和AI近期的未來,這樣就能夠更好的領(lǐng)導(dǎo)團(tuán)隊(duì)做出更好的關(guān)于AI和技術(shù)的決策,因?yàn)锳I和互聯(lián)網(wǎng)正在改變著我們的生活和我們的經(jīng)濟(jì)結(jié)構(gòu)。
過去十五年間,我們現(xiàn)在都有一個關(guān)于人工智能正循環(huán)的理念,我們認(rèn)為它能夠帶來一個很好的產(chǎn)品,服務(wù)很多的用戶,有著很多的用戶就能夠收集很多的數(shù)據(jù),用戶數(shù)據(jù)、服務(wù)數(shù)據(jù),有很多數(shù)據(jù)就能夠使我們使用AI繼續(xù)改善我們的產(chǎn)品。但是這張圖的問題就在于,直到近期AI這一步其實(shí)做的都不好,傳統(tǒng)來說,即便是你加大投入,但是它的性能也不會提高。我們現(xiàn)在對AI和深度學(xué)習(xí)的理解,只要你現(xiàn)在衡量AI的技術(shù)等等,他的AI性能會越來越高,這樣就能夠減少它的成本,提高它的性能,在大數(shù)據(jù)的時代這些深度學(xué)習(xí)的算法比傳統(tǒng)AI算法要更好,因?yàn)樗軌蛑饾u提高AI的性能,因此歷史上第一次我們能夠在這個圖中完成AI的環(huán)節(jié),得到數(shù)據(jù),得到很好的產(chǎn)品,接觸大量的用戶。
大多數(shù)互聯(lián)網(wǎng)信息都是基于文本的,通過移動互聯(lián)網(wǎng)的興起,我們認(rèn)為這種交流方式同文本慢慢轉(zhuǎn)向圖像和視頻,所以在百度我們看到越來越多的人搜索圖像和語言,我認(rèn)為通過AI我們就能夠更好的了解這些文本和圖像,以及語言之間的互動關(guān)系。我現(xiàn)在想給大家介紹一些例子,向大家解釋一下AI是如何使用今天的互聯(lián)網(wǎng)。
AI如何使用今天的互聯(lián)網(wǎng)
百度這樣的公司在文本上做了很多工作,我們先從圖像開始。七年前我問我斯坦福的學(xué)習(xí),讓他們寫一個算法,在圖像中找到杯子。七年前當(dāng)時最好的算法,他們使用了最好的算法,這就是結(jié)果,在各個地方都找到了杯子,這是錯誤的。對于你和我來說,作為人類來說,很難理解計(jì)算機(jī)為什么無法識別出這個杯子,為什么計(jì)算機(jī)看不到我們能看到的東西?計(jì)算機(jī)很難做到這一點(diǎn),我們詳細(xì)的看一看,我們眼中看到的是杯子,但是計(jì)算機(jī)看到的是很多的像素,所以計(jì)算機(jī)的作用是看這些數(shù)字來考驗(yàn)?zāi)氵@些數(shù)字代表的是什么,代表的是這個杯子的口,看起來這是一個計(jì)算機(jī)的問題,六、七年前如果讓機(jī)器來解決這些問題是非常困難的。
五年前發(fā)生了變化,興起了深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的技術(shù),我們當(dāng)時受到了人類大腦運(yùn)作的啟發(fā),開始創(chuàng)造軟件,模擬這些神經(jīng)元的工作方式。深度學(xué)習(xí)是什么意思?我們建立這些神經(jīng)網(wǎng)絡(luò),深度模擬我們大腦中神經(jīng)源信息傳統(tǒng)的路徑和方式。在AI中有很多炒作,這些炒作的原因之一,很多人說這句話,深度學(xué)習(xí)推動科技發(fā)展,這句簡簡單單的話,這句口號都對AI進(jìn)行炒作。
在午餐的時候我跟饒毅進(jìn)行交談,他是北大的生命科學(xué)家,我們當(dāng)時都感嘆,今天我們其實(shí)都不了解人的大腦是如何工作的,所以我們的確無法來準(zhǔn)確的模擬人類的大腦。我們深度學(xué)習(xí)的軟件雖然模擬人類的大腦,但是他只是大腦,從特別特別淺的方面來模擬大腦運(yùn)作方式,我們真的不了解大腦是如何運(yùn)作的。我們通過不準(zhǔn)確的模擬就已經(jīng)啟發(fā)了我們新技術(shù)的發(fā)展,我們使用計(jì)算機(jī)的視覺,我們給他輸入了很多關(guān)于杯子的數(shù)據(jù)。我們在過去五年間發(fā)現(xiàn)這些算法,能夠從數(shù)據(jù)中學(xué)習(xí),學(xué)習(xí)這個杯子長的是什么樣的,所以我們?nèi)〉昧撕荛L久的進(jìn)步。今天計(jì)算就很容易的識別杯子了。這只是在圖像中找到杯子,這是一個很簡單的任務(wù)。我們的視覺系統(tǒng)能夠做的比這多得多,我希望能夠給大家展示這些圖像,問大家您在這些圖像中看到了什么,如果我想問您為這些圖寫說明,你左邊可能會寫一個黃車在路上行駛,后面是樹林。右面你可以寫是一個起居室,白色的沙發(fā),藍(lán)色的地毯,還有下午的斜陽照進(jìn)了房間。之所以你能夠?qū)戇@些說明,你了解這些圖像是什么意思,所以你才能夠?qū)懻f明。你能做的是詳細(xì)的說明這些圖像的信息,另一方面計(jì)算機(jī)只能識別杯子,這兩者之間有巨大的差異。這些說明和字幕并不是人寫的,過去幾年中通過軟件的發(fā)展,我們現(xiàn)在已經(jīng)有軟件對這些圖像進(jìn)行字幕的說明,有這樣的技術(shù)對我們帶來了新的機(jī)會,使我們軟件通過深度的學(xué)習(xí)分析數(shù)據(jù),使我們有更多的數(shù)據(jù),使計(jì)算機(jī)視覺做到五年前無法做到的事情,在可預(yù)見的未來,這樣的軟件使我們能夠更好的了解醫(yī)學(xué)的圖象。計(jì)算,自覺的識別可能是很難的,未來是我們的目標(biāo)之一,百度眼睛產(chǎn)品是我們對未來的愿景而已。
為什么深度學(xué)習(xí)現(xiàn)在火了?
為什么深度學(xué)習(xí)現(xiàn)在開始火了,現(xiàn)在開始越來越好了,我現(xiàn)在解釋一下深度學(xué)習(xí)的功能,以及他能為我們帶來什么樣的價值,解釋深度學(xué)習(xí)是怎樣運(yùn)作的,為什么越來越好?我現(xiàn)在要做一個比喻,如果你想象一下我們建造火箭,火箭有兩個部分,第一部分是火箭發(fā)射機(jī),是很大的發(fā)動機(jī)。第二個是燃料,如果發(fā)動機(jī)小,燃料很多是不可能的,如果發(fā)動機(jī)很小,燃料很少也不行,燃料燒著燒著就沒了,所以火箭必須要有一個大發(fā)動機(jī)和很多的燃料。深度學(xué)習(xí)和這個差不多,我們現(xiàn)在神經(jīng)網(wǎng)絡(luò)就是我們發(fā)動機(jī),它推動著AI的發(fā)展,燃料就是我們所用的數(shù)據(jù),我們現(xiàn)在有這么多的數(shù)據(jù),社會數(shù)據(jù)化給我們提供了大量的數(shù)據(jù),這樣輸入到我們發(fā)動機(jī)中給我們作為燃料。在AI最近發(fā)展主要推動力,因?yàn)槲覀兡軌蚪ê艽蟮木窬W(wǎng)絡(luò)。另一方面,百度這樣的公司能夠收集很多的數(shù)據(jù),為這些精神網(wǎng)絡(luò)輸入數(shù)據(jù)。我們有一個很大的技術(shù)網(wǎng)絡(luò),同時有很大的數(shù)據(jù),這樣當(dāng)然深度學(xué)習(xí)可以越來越好了。
我今天提到的一件事,我們現(xiàn)在能夠建造很大的神經(jīng)網(wǎng)絡(luò),五年前,2010年的時候在學(xué)術(shù)界用的最大的神經(jīng)網(wǎng)絡(luò)有1000萬的連接,于是模擬神經(jīng)源之間的連接。四年前,2011年的時候我們在谷歌啟動了一個工程,建造很大的精神網(wǎng)絡(luò),使用1000個谷歌的服務(wù)器,我們當(dāng)時的團(tuán)隊(duì)建造神經(jīng)網(wǎng)絡(luò)差不多是原來的十倍大。后來我們發(fā)現(xiàn)我們當(dāng)時的技術(shù)其實(shí)無法更大,后來我們在其他大學(xué)應(yīng)用了其他的技術(shù),你只用三個服務(wù)器就實(shí)現(xiàn)了100億的連接,在百度我們使用GPU新的技術(shù),現(xiàn)在可以建造非常非常大的精神網(wǎng)絡(luò)。在AI和深度網(wǎng)絡(luò)中做出很多的進(jìn)步,都是因?yàn)槲覀兡軌蚪ㄔ炀薮蟮臋C(jī)器,模擬精神網(wǎng)絡(luò),吸收這么多海量的數(shù)據(jù),做出預(yù)測。
人工智能改變用戶交互的方式是語音
我現(xiàn)在和大家展示一個關(guān)于語音識別的例子,解釋一下我剛才做的發(fā)動機(jī)核燃料的比喻。百度在語音識別方面投入了很多,很多人是使用語音的搜索,對于小孩和老年人,有時候可能打字比較困難,如果你能夠讓他們使用語音搜索,就能夠讓他們使用方便的信息產(chǎn)品和服務(wù)。對于我們普通人來說,使用語言識別和語言搜索也是越來越方便的,直到最近基本上所有語音識別都是很簡單的軟件實(shí)施,一個方塊里是一個復(fù)雜的體系,我們最近決定讓我們看一看產(chǎn)生語音識別的軟件,把它扔掉,取而代之是神經(jīng)網(wǎng)絡(luò),所以這也就是我們的發(fā)動機(jī),因?yàn)榘俣仍贕PU早期投入了很多,所以我們能夠建造很大的火箭發(fā)動機(jī)。燃料是什么?在語音識別方面,大部分學(xué)術(shù)人士他們都利用數(shù)據(jù),有一些人他們有300個小時,最大的是2000個小時,最開始我們用了幾個小時的語音數(shù)據(jù),后來有幾千個語音的數(shù)據(jù),后來建立了合成的語音數(shù)據(jù)。后來我們一共達(dá)到了10萬個語音的數(shù)據(jù),按照語音識別的標(biāo)準(zhǔn),實(shí)際上這是無法想象的數(shù)據(jù)量。在百度我們有著非常強(qiáng)大的工具,我們可以利用火箭燃料核火箭引擎,把它們放在一起,這樣我們就有了語音識別更高的性能,而且也有很好開放的OPI進(jìn)行發(fā)現(xiàn)。我們不到一個月之前有很好的結(jié)果,我覺得人工智能會改變用戶交互的方式就是語音,我們有語音,因?yàn)?strong>我覺得這里有越來越多互聯(lián)網(wǎng)的溝通走向語音的溝通,現(xiàn)在像百度的公司業(yè)非常多語音的產(chǎn)品,我們可以利用語音,我覺得整個互聯(lián)網(wǎng)經(jīng)濟(jì)和互聯(lián)網(wǎng)生態(tài)系統(tǒng)只是剛剛開始而已,整個的世界現(xiàn)在都在走向移動的設(shè)備,現(xiàn)在還沒有人設(shè)計(jì)出一個非常好的移動設(shè)備輸入的產(chǎn)品,正因?yàn)槿绱?#xff0c;我們現(xiàn)在花很多的時間在小的鍵盤上進(jìn)行輸字,如果說可以讓語音識別運(yùn)作非常好,在一個安靜的環(huán)境下,它運(yùn)作還是非常不錯的。
現(xiàn)在出去你在開車,你的手機(jī)是放在旁邊的座椅上,沒有人會利用語音的環(huán)境,因?yàn)樵卩须s環(huán)境下語音識別是不行的。如果我們能設(shè)計(jì)很好的,在嘈雜環(huán)境下運(yùn)作良好的語音技術(shù),我們當(dāng)然愿意利用語音技術(shù)。如果我在開車,我的手機(jī)放在旁邊座椅上,我可以跟自己的手機(jī)進(jìn)行溝通,我可以給我妻子發(fā)一個短信,我覺得如果有這樣語音技術(shù),這樣會改變我們整個的世界,會改變我們和移動設(shè)備互動的方式,我想要重新設(shè)計(jì)大家的手機(jī),圍繞著一個語音識別的界面進(jìn)行重新的設(shè)計(jì),除了移動的設(shè)備之外,我覺得語音也在改變著物聯(lián)網(wǎng),包括很多家用電器、可穿戴設(shè)備等等。有一些人知道,現(xiàn)在在物聯(lián)網(wǎng)上,在家用電器中有太多的界面,如果我們能夠和我們的設(shè)備進(jìn)行溝通,進(jìn)行語音識別將會非常好。如果五年前我們說電視的遙控器能夠使你和你的電視進(jìn)行溝通調(diào)頻道,人們覺得你瘋了。我希望可能在我的孩子和孫子輩生命期之內(nèi)有這樣新的技術(shù),也許有一天我的孫子,或者將來你孫子的孫子會告訴你,他們可以直接和電視進(jìn)行溝通,調(diào)頻。也許有一天你可以和你的微波爐溝通,微波爐會忽略你嗎,它不跟你溝通真的太粗魯,它不禮貌了。我們發(fā)現(xiàn)語音在改變著移動世界,也改變著物聯(lián)網(wǎng),而且現(xiàn)在有太多互聯(lián)網(wǎng)的溝通,我們與技術(shù)的互動太多了,我們的互動都是圍繞著文本的,還有很多的圖像和語音。現(xiàn)在AI人工智能技術(shù)還有深入學(xué)習(xí),語音技術(shù)已經(jīng)成為最強(qiáng)大的技術(shù),可以幫助我們了解和識別這些數(shù)據(jù),我覺得人工智能是有著很大的潛力,能夠改變我們和技術(shù)互動的方式,包括百度i和無人駕駛車等等,他有非常大的潛力,改變我們跟技術(shù)的互動。基于如此,我對這樣的技術(shù)感到非常的興奮,我在這個基礎(chǔ)方面開展很多的工作。
當(dāng)然,這方面也有很多的炒作,我覺得不幸的是,AI快速的發(fā)展現(xiàn)在促成了一些炒作,也許人們會想,某一天計(jì)算機(jī)會成為好的機(jī)器人,會掌控整個的世界,和我們創(chuàng)造一個很好的世界,也許它們不會成為邪惡的機(jī)器人,我們現(xiàn)在手機(jī)上還有非常多的代碼,我個人看來不會出現(xiàn)炒作中出現(xiàn)的狀況。我們可以利用這些技術(shù)進(jìn)行預(yù)測,技術(shù)不斷的改變,我們的生活就是圍繞著技術(shù),但是神經(jīng)網(wǎng)絡(luò)你知道是非常好的識別工具,還有預(yù)測的工具,當(dāng)你輸入數(shù)據(jù)的時候它們可以進(jìn)行預(yù)測,但是我們在AI領(lǐng)域中工作的這些人,我們參加會議,我們發(fā)表論文,我們對未來的看法和其他一些有著胡思亂想的人之間有很大的區(qū)別,我們的看法不一樣。我覺得如果我們能夠遠(yuǎn)離炒作,AI發(fā)展是比較健康的,AI創(chuàng)造的挑戰(zhàn)并不是機(jī)器會掌控世界,他很可能會幫助我們替代勞工,我們領(lǐng)導(dǎo)者必須要認(rèn)真考慮技術(shù),要讓人工智能技術(shù)幫助我們替代那些繁雜的勞動。
總結(jié)
以上是生活随笔為你收集整理的百度吴恩达:图像和音视频搜索是人工智能新方向的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 40个良好用户界面Tips
- 下一篇: 周鸿祎对企业的深刻反思,太有借鉴意义了!