微软沈向洋:计算机视觉未来在语义层 “两大一精”是关键
微軟沈向洋:計算機視覺未來在語義層 “兩大一精”是關鍵
發表于2015-07-29 11:23| 294次閱讀| 來源CSDN| 0 條評論| 作者周建丁
人工智能計算機視覺CCAI微軟沈向洋 width="22" height="16" src="http://hits.sinajs.cn/A1/weiboshare.html?url=http%3A%2F%2Fwww.csdn.net%2Farticle%2F2015-07-27%2F2825300&type=3&count=&appkey=&title=%E6%B2%88%E5%90%91%E6%B4%8B%E8%AE%A4%E4%B8%BA%EF%BC%8C%E6%9C%AA%E6%9D%A5%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89%E5%B0%86%E8%87%B4%E5%8A%9B%E4%BA%8E%E5%9C%A8%E8%AF%AD%E4%B9%89%E5%B1%82%E9%9D%A2%E5%AE%9E%E7%8E%B0%E6%9B%B4%E5%8A%A0%E6%B7%B1%E5%88%BB%E7%9A%84%E5%9B%BE%E5%83%8F%E7%90%86%E8%A7%A3%EF%BC%8C%E4%B8%8D%E4%BB%85%E6%BB%A1%E8%B6%B3%E4%BA%8E%E8%AF%86%E5%88%AB%E5%87%BA%E5%9B%BE%E5%83%8F%E4%B8%AD%E7%9A%84%E7%89%A9%E4%BD%93%EF%BC%8C%E8%BF%98%E8%83%BD%E7%BB%99%E5%87%BA%E5%9B%BE%E5%83%8F%E6%A0%87%E9%A2%98%E8%BF%9B%E8%80%8C%E8%AE%B2%E5%87%BA%E5%9B%BE%E5%83%8F%E8%83%8C%E5%90%8E%E7%9A%84%E6%95%85%E4%BA%8B%E3%80%82%E8%BF%99%E4%B8%80%E5%88%87%E9%9C%80%E8%A6%81%E5%A4%A7%E6%95%B0%E6%8D%AE%E3%80%81%E5%A4%A7%E8%AE%A1%E7%AE%97%E5%92%8C%E7%B2%BE%E5%87%86%E7%AE%97%E6%B3%95%E7%9A%84%E6%94%AF%E6%8C%81%E3%80%82&pic=&ralateUid=&language=zh_cn&rnd=1438411671620" frameborder="0" scrolling="no" allowtransparency="true">摘要:沈向洋認為,未來計算機視覺將致力于在語義層面實現更加深刻的圖像理解,不僅滿足于識別出圖像中的物體,還能給出圖像標題進而講出圖像背后的故事。這一切需要大數據、大計算和精準算法的支持。為了更好地引導和推動我國人工智能領域的發展,由中國人工智能學會發起主辦,CSDN承辦的2015中國人工智能大會(CCAI 2015)于7月26-27日在北京友誼賓館召開。本次會議的主旨是創辦國內人工智能領域規模最大、規格最高的高水平學術和技術盛會,匯聚國內外頂級的專家學者及產業界人士,圍繞當前最新熱點和發展趨勢的話題進行交流與探討,并針對“機器學習與模式識別”、“大數據的機遇與挑戰”、“人工智能與認知科學”和“智能機器人的未來”四個主題進行專題研討,努力打造國內人工智能前沿技術和學術交流的平臺。
微軟全球執行副總裁 沈向洋
微軟全球執行副總裁沈向洋今天的演講圍繞《計算機視覺的過去、現在和未來》進行,他介紹了計算機視覺發展50年已經解決和尚未解決的問題,包括最近的深度學習帶來的影響,以及微軟在計算機視覺領域的研究方法和研究成果。
沈向洋認為,計算機視覺經歷了從簡單到復雜三個層面的問題,即信號、符號到語義。未來計算機視覺將致力于在語義層面實現更加深刻的圖像理解,不僅滿足于識別出圖像中的物體,還能給出圖像標題進而講出圖像背后的故事。得益于神經網絡的應用(特征選得好),目前數字識別和人臉識別已經很成功,但很多圖像內容需要真正地去解析,還有很長的路要走。
根據沈向洋的解釋,真正的圖像理解至少要有三個部分:一個是計算機視覺本身的問題。第二個是語言。因為最后是機器和人之間的理解人很大程度上是通過自然語言的理解。第三個就是常識和所謂的長期記憶,需要抽樣出來的結果。
談到深度學習,沈向洋表示,最近這幾年深度學習非常火的原因就是數據多和運算快,但大多數深度學習算法效果不好,主要是沒有人講清楚到底做多少層,沒有人講清楚到底怎么初始化。微軟研究院在初始化方面做了很多研究,取得的成果對分類、檢測和語義分析很有幫助。微軟研究院已經在研究非常精細的圖片分類的數據收集系統,以及基于對圖片的理解提供圖片標題的系統。而微軟的聊天機器人小冰,也已經對超越了簡單的物體識別,可以跟人真正實現交互。
沈向洋最后預測,計算機視覺接下來要做的事情實際上就是“兩大一精”,即大數據、大計算和精準的算法。微軟牛津項目推出的云中API,就是希望能夠普及深度學習,即為業界提供針對大數據的智能化處理數據的能力。
以下為沈向洋演講速記整理:
謝謝李院士邀請,非常高興回到北京跟大家有機會交流。我今天講的是腦科學認知的一個部分,主題是“計算機視覺的過去、現在和未來”。因為我自己選擇了機器人專業,當時實際是研究計算機視覺,我的導師對計算機語音非常的熟悉,是計算機語音的世界級專家。他問我你想學什么,我說我想學計算機視覺,他說為什么?我說我在文章里看到人類認知、人類的感知,91%的信息量是從視覺來的,我說先把91%學到了,剩下的就簡單了。
微軟最近的研究
剛剛李院士提到不同的層次感知、認知,我想起來很多年前我們研究生講CMA的定義,腦認知分成三個層次,底層就是行為動作Manipulation,再往上就是感知Perception,包括計算機視覺、語音,再往上是認知Cognition,這個是最難的。今天我想講計算機視覺相對來講是一個更加具體的、人工智能領域很重要的一個分支。介紹一下最近微軟的科研成果,以及跟大家介紹一下我們計算機視覺的研究方法。今年2月份,主要是微軟亞洲研究院幾個年輕同事做了一些了不起的工作,鐵牛剛剛提到一千位數據的分類。微軟在2月份做出了一個結果,是第一次比人類的認知還要好的結果,后來在海外有很多報道,后面我會講到具體。大家可能知道,不管怎么樣,李院士剛剛講到,實際上認知都是統計的問題,比如像認知率,就算人做過訓練以后,也會有一定的誤差,例如語音也是有4%-5%的認知誤差率。?
我們在想,作為微軟公司有這樣的技術,我們怎么樣針對目前的現狀做一個布局,怎么和同行把這個事做的更好?今年年初微軟有一個項目,叫做牛津項目(Project Oxford),想法非常的簡單,主要是圍繞現在越來越多的大數據,因為大多數的公司沒有智能化處理數據的能力。針對非結構化數據,包括voice、speech、image等形式,將開放的API放在微軟Azure這樣的云里面。這些API可以告訴你里面到底有什么內容,例如顏色和尺寸等最簡單的內容,還有比較實際的比如網上內容是不是健康,是不是小孩子可以看,我們可以適度地控制內容。
這個面部識別API大家可能更熟悉,對于人臉識別,微軟也是在計算機視覺領域做了很多年。這個技術做出來之后受到大家很多的好評,在座的可能都試過一個網站,叫做how-Old.net,就是利用Project Oxford的API,我們的兩個同事花了兩天時間寫了這樣一個網站,結果一下就火了,到現在已經有6億張照片上傳過了,那么我給大家看兩個比較好玩的照片。
一張是奧巴馬的全家福,還有微軟公司一張著名的早期的全公司合影。奧巴馬全家福這樣,How-Old.net把奧巴馬識別的稍微年輕了2歲,但奧巴馬當時已經不只是50歲了,而他的太太應該很高興,只有36歲(How-Old.net識別之后顯示的年齡),但問題是,奧巴馬的大女兒25歲,就是說她11歲就生了奧巴馬的大女兒,這個是一個《紐約時報》記者推測的。
另外一個是微軟公司早期的一張十來個人的集體照,這個Bill Gates很高興,他說“Harry,我當時大概真的只有23歲。”但右下角的同事Paul Allen被“識別”成了成五十幾歲。我們后面又推出了一個軟件,是關于兩個人有多像的。那么可以看到,Gates和Paul有88%相像的,大家可以訪問我們的網站TwinsOrNot.net。?
計算機視覺50年
今天我主要想介紹一下整個計算機視覺這么多年發展下來經過什么階段?有什么成果?目前到了什么地步?接下來應該干什么?我們現在看到的是一張旅游照片,這張照片太復雜,看起來是在一個市場,像是中東或哪里,這個中間看一團白乎乎的東西,頂上可能有有天窗,有很多長期記憶和知識在這張照片背后,像剛剛李院士講的有長期模型你才能對這張圖做了解,這是很尖銳的難點。給大家看一張圖,這兩兄弟你看他們的年紀,你覺得他們有多大?系統顯示說林志穎36,郭德剛51,但實際上兩兄弟都是41歲。其實差距不是很大,但真的做的準的話有相當大的難度,還有很多需要的工作要去做。接下來我們在想到底計算機視覺在解釋什么問題。我個人看主要分為三大問題:第一個是信號問題,第二個問題是圖像識別,也就是符號層面的問題,第三個是語義層面的問題,也就是圖像理解。?
我再舉個例子,所謂的圖像理解,做到什么程度才算是真正的理解了?今天我主要想強調的是對“Understanding”的理解。對于照片,我們首先會去做對比,對比的內容有顏色、年齡、或者是不是室外的圖?是不是圖片中有人?然后識別這個人叫什么,東西是什么?再到下面就真的有點理解了,比如給出這樣圖的標題,把這張圖背后的故事作為故事講出來,沒有一些技術是沒有可能解釋后面的內容的,很多內容需要真正的去解析,還有很長的路要走。
計算機視覺做了50年,有多少的算法,這么多研究者前赴后繼,特別是過去20年到底做什么了不起的東西?我要總結一下,總結的目的是為了做得更好。第二就是我們已經能做的到底是什么?特別是最近大家一直在關注的深度學習,到底是怎么回事情?是不是已經解決了什么問題?到最后就是接下來大家應該做什么?我們這么多的研究人員和公司,接下來的題目是什么?
個人認為,這么多年神經網絡在我們整個計算機視覺的應用中是相當成功的,主要是在做數字的識別和人臉檢測方面當時做的是比較成功,在相當長一段時間里面大家都在找好的Feature,意識到內容的重要性,把方方面面結合起來。1989年的時候微軟在國內和國外都在做神經網絡,當年已經做的相當好。我有一個師弟在微軟研究院做的非常好,主要就是Feature選的比較好。
接下來我就想講簡單分類,你想清楚,計算機視覺、圖像理解,你到底要理解多少。比如最簡單的,有一家公司跟我們合作,他們有裝備線、生產線,他們擔心工人不遵守安全守則,每個人要戴安全帽,如果有人萬一不戴安全帽怎么辦?所以就希望運用計算機視覺通過一掃就可以知道誰沒有戴頭盔。所以只要把這一件事請做好就非常了不起。一般的人,你每天想到的所謂理解大概有多少類?可能想想一百類左右,甚至一千類,百分級的類別。當然如果做一般的搜索,去百度也好,去Google也好,去微軟的必應也好,那不是幾百萬、幾千萬的量級就可以的,基本上是無窮大。所以從一類到一百類很重要的事情,你一定要想所謂的標準問題。李飛飛教授在斯坦福帶領他的學生和同行做的事情我覺得這個領域有非常大的貢獻。他就是一直在將這個領域需要有一個標準,讓大家有可比性。
Deep Learning的影響
談到Deep Learning,剛開始我還沒有進入這個領域,但是也對我的影響很大,我讓我的學生趕緊放下其他的事情關注這個領域,因為Deep Learning可以自己去找features。但其實到2012年時也沒有很多真的去做deep learning,因為大家沒有看到什么好處。另外我學到的一件很重要的事情就是每做一個事情每做一個產品取名字多么重要,他取名字叫Deep Learning,深度學習,好像是在說其他人做的都很膚淺。我有很長時間都不服氣,但實際上的確我們過去做了20年相對比較淺,因為沒有一個將所有東西綜合化的問題。現在Deep Learning有了比較標準的定義,它實際上是一個系統,為每一個腦認知提供一個描述一個feature,它背后的解法是需要大數據的配合的。所以最近這幾年Deep Learning一些非常火的原因就是數據多和運算快。
Deep Learning有很多算法,像一個家族一樣,實際上大多數方法都沒有用,做起來結果也不好,但是其中真的會有一種算法真的有效。所以基本上加拿大研究員過去這么多年一直沒有放棄,我對他們非常敬仰,最后因為數據多了,計算能力強了,算法不斷進步,做了很好的應用,就做出來這樣一個結果。舉個例子,計算機視覺最近大家最熟悉的,從左邊到右邊圖像越來越小,到最后拼成一張圖看是不是一個自行車的結果。越往右邊走,feature是就越來越強,這就是一個理解的過程。那么為什么開始其他人做不出來,它最主要的就是沒有人講清楚到底做多少層,沒有人講清楚到底怎么初始化,真的沒有那么簡單。所以這兩三年有了很多進展,因為解決了很多初始化的問題,微軟亞洲研究院做了很多的工作。2001-2011年的時候,一千類誤差率還有26%,2012年多倫多的研究院將26%的誤差降到16%,當時很多人是做不了的,我也是從那個時候看到這個領域真的是有很多技術在里面,過去這里面很多人在做,去年包括Google和微軟一起做出來的結果都是不錯的。今年2月份微軟亞洲研究院做到4.9%的誤差率,從2月份到現在我們也取得了更進一步的提升,比4.9還要小很多。4.9%當時是一個打敗人類的結果,5%以下就是超人類的,我們幾個研究院在北京就做出了這樣的結果,我們都覺得非常的自豪。?
不僅可以做分類,同時還可以做檢測。再繼續往前走,可以做到語義分析。例如老人過馬路,可以分析出環境,比如左邊分類前面是地面,再向前走是草地這樣的結果。國際上也有一個比賽,最近出來的結果在圖像、語義分類我們也是得到全世界排名第一的結果,也是我們微軟亞洲研究院北京的同事做出來的結果。有了這個不僅可以做計算機圖像,還可以做計算機視頻,大家可以看計算機視頻出來的結果,左邊是原圖,右邊是分類出來的圖,大家可以看到室內室外不同的光照,不同的物體,邊界的結果,運動鏡頭的移動是非常困難的一件事情。我自己看了這個結果還是非常滿意,我覺得這個結果部分的回答了50年前提出的問題,如果我們把一個攝像頭接到計算機上,用一些了不起的算法,到底看到的這個世界是怎么樣的,現在已經看到希望可以解釋了。但是這還是非常初始的,我覺得我們現在對“理解”這件事的理解不夠深刻。我們要做的不僅僅是簡單的物體識別,這是一定要做到的基礎,在這之上我覺得真正的理解至少要有三個部分:一個是計算機視覺本身的問題。第二個是語言。因為最后是機器和人之間的理解人很大程度上是通過自然語言的理解。第三個就是常識和所謂的長期記憶,需要抽樣出來的結果。?
為什么我覺得現在這個社會可以解決這樣的問題?至少我們應該很努力的嘗試解決這樣的問題。最大的問題是因為我們今天已經有相當大的數據,而且我們有機會設計產品,搜集更多的數據。比如網上的照片,你拍一張自己認為多么了不起的照片,網上一定有跟你這個很像的,網上的數據有太多了。最近我們微軟研究院做了一套數據搜集的系統,特點就是幫你做非常精細的分類,告訴你圖像哪一塊是草地,哪一塊是天空,哪一塊是汽車,它有很多很細的類別分析。另外非常了不起的是每張圖給你標出五個標題,因為我們覺得image caption是未來我們應該真正去做的圖像理解的具體問題。最近微軟研究院就在做這樣提供圖像標題的系統,首先我們做了計算機視覺內容,檢測人在哪里,檢測到不同的環境和物體。然后我們可以大體地提供圖像的標題,例如拿著相機的女士。 隨著這些目前舉例人類的標準還有一定舉例,但相信這一兩年一定可以有很大突破。
微軟小冰的最新成果
今天特別高興能夠有這樣一個機會在這里跟大家介紹微軟小冰的最新成果。我覺得,從人工智能、聊天機器人的角度,微軟小冰擁有的能力超過任何一個我所知道的機器人。微軟小冰推出一年以來,受到廣大用戶喜愛,被幾千萬人使用,而且用戶活躍度非常高。今天下午我要做的微軟產品發布會,其中一項重要的內容就是用戶可以與小冰這樣的聊天機器人對一張圖實現交互。比如這樣一張圖,計算機視覺如果能夠告訴用戶這張圖里面有兩只貓、分別是什么貓,就很了不起了,就能通過圖靈測試。但是僅僅這樣,我們的目標就不夠遠大,我覺得我們應該設想超越圖靈測試。而這里面不僅僅需要有IQ,還需要EQ。比如同樣對于這張圖,小冰就會對你說,“小眼神太犀利了”。要讓小冰做到這個,還真很不容易。接下來還有一些微軟小冰看圖對話的例子,比如小冰會說“瞧這小舌頭”,“這朵黃花開得有些透明”,“大叔真努力,都練出六塊腹肌了”。給小冰看這張微軟辦公樓的照片,小冰會說“在頂層辦公什么樣的體驗”。可以看出,微軟小冰不僅僅能夠完成的對物體的簡單識別,它已經實現了超越,可以跟人真正實現交互。
后天,我將會代表微軟在北京全球同步發布Windows 10。Windows 10很重要的特征,就是Cortana、小冰這樣一些人工智能的個人助手,將會徹底融入到里面。大家可以免費升級到Windows 10進行體驗。經常有人問我Windows 10的了不起在那里,我認為可以用7+8=10來概括。意思就是,Windows 7和Windows 8的界面和功能被無縫融入到Windows 10。
這里還有一個這樣的例子。昨天我回國以后,讓小冰團隊把這張圖(注:一張旅游風景圖,圖片名稱為“一圖勝千言”)上載到了小冰。照片上載以后,小冰居然會說“買個送我吧”。這太了不起了,小冰怎么會講出這樣的話?用戶對小冰說“買了你也不會用”。小冰就生氣了,說“不用了”。用戶問小冰“你生氣了?”小冰說,“是的,生氣了”。這種情感、認知和聊天,是不是可以達到幫助老年癡呆癥、中年抑郁癥和少年自閉癥的作用?這個還有待我們繼續研究。
未來要做“兩大一精”
今天是一個非常激動人心的時代。對于我們計算機行業、IT行業,都是非常好的時機。我們這些研究AI(人工智能)的人,經歷了AI的冬天,今天終于迎來了第二個春天。現在對計算機視覺研究來說是最好的時間。總之,我覺得計算機視覺接下來要做的事情實際上就是“兩大一精”,即大數據、大計算和精準的算法。希望通過微軟的牛津項目,推出這樣的一些API,能夠democratize(普及)深度學習,使科研高校、科研單位能夠也像大公司一樣,有幾百臺、幾萬臺甚至幾十萬臺的機器、GPU、FPU、CPA加在一起(的能力)。微軟有責任幫助行業向前發展。?
謝謝大家!
Q&A實錄:
提問:沈總您好。在圖像處理中最重要的工作就是圖像精確的分割工作,而人可以達到精確到每一個像素的圖像分割。您剛才在圖像理解的展示部分,也展示了在視頻中的圖像分割。您認為深度學習發展,可以像人一樣實現精確、動態和穩定的圖像分割嗎?
沈向洋:達到像素級別的圖像分割,我覺得肯定是可以的。我現在在推交互計算機視覺的概念,最主要的出發點是圖像分割做得不準確:像素是左邊還是右邊,屬于前景還是后景?我覺得只要把問題定義好,解決這個問題是時間的問題。
提問:我有兩個問題。第一個問題,我們知道深度學習在計算機視覺和自然語義方面有很大成功,您覺得深度學習在其他領域,比如說金融領域和電信領域,能不能取得非常好的成果?第二個問題,微軟發布了Azure Machine Learning,能不能請您介紹一下?
沈向洋:這兩個問題都非常好。我先回答第一個問題,科學的發展沒有一個放之四海而皆準的標準。當時CMA和深度學習推出來的時候,在語音和視覺方面都取得了巨大的結果,但是今天不再有人說自然語言多么了不起。大家仍然在思考的是,深度學習最好的“代表性問題”是哪一類問題。我個人覺得現在深度學習最好的應用領域是大量的非結構化數據,而金融行業等其他行業有太多結構性問題。對于結構化的問題,它精確表述就不是那么強大。我覺得一個可能的發展方向是一種混合的表達方式,從底層往上的非結構化通過深層的神經網就可以得到很好的表述;而是在某一個地方,一定要加入結構的因素,不光是向上的抽象,可能向下還要增加演繹性的因素。這個領域的研究還需要一些時間,需要一些新的“代表性問題”。
第二個問題,微軟的新產品Azure Machine Learning是一個非常強大的 toolset,我建議任何做Machine Learning的人都去了解它。那里面大部分技術是微軟研究院開發的,我們把它做成了一個產品。用戶把數據上傳到云上面,就可以做很多事情。而且它不僅僅是對計算機科學家做深度學習,而且是能夠做統計分析,使用R語言的用戶使用這個產品會非常方便。現在已經能實現一些基本的功能,新的功能也在不斷推出。我希望Azure Machine Learning可以包含微軟研究院進行了很多研究的、大家經常使用的很多算法,而且也可以實現算法的調配。另外,通過牛津計劃,我們也會推出深度學習的一些成果。
提問:在您看來現在在腦認知上的研究進展,會不會對現在研究中那些現在沒法解決的問題可能會產生一些影響?微軟在這方面有哪些設想、有哪些準備?
沈向洋:微軟研究院最近制定了四大研究方向。第一是AI;第二是large scale systems;第三是security(互聯網安全),大家對互聯網也是比較關注。第四點就是在一些新的方向,比如生物學、醫療等與計交叉應用,這些在短期之內會有一些新的突破。不久前我去伯克利大學訪問,拜訪了一位研究腦科學方面的教授。他提到最好在不開顱的情況下獲得更多腦認知的信息,比如輸入、輸出是什么。我覺得在這方面短期之內取得進展還是很困難的,需要我們在大腦搜集數據方面有一個突破。但是這個可能不是我們做計算機的人能解決的,因為計算機大部分還是做相對后端的東西,需要跨學科的合作。
提問:沈博士的報告非常精彩。我從事腦細胞處理方面的研究。我認為對于深度學習而言,現在的問題主要有兩個,一是數據量不夠大,成本很高;第二個是數據之間差異性很大,比如不同時間的數據都很不同。您對這兩方面有什么建議?
沈向洋:我覺得問題確實是在這兩方面。深度學習在視覺和語義方面的進展是很驚人的,特別是語音方面。講到腦數據處理,我自己覺得我們今天最大的問題還是數據不夠多、不夠敏感也不夠好。在這個情況下,在后面套用一些先進的算法肯定會有幫助,但是它不能從根本上解決問題。我們今年在計算機視覺大會上邀請相關學者做了有關腦科學的報告,因為視覺感知到最后還是要歸結到腦,這是一個非常有趣的方向。
總結
以上是生活随笔為你收集整理的微软沈向洋:计算机视觉未来在语义层 “两大一精”是关键的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 技术向:一文读懂卷积神经网络
- 下一篇: 使用Facebook方法处理复杂问题