人工智能学术论坛参会总结【附PPT】
作者:楊鵬@yige.ai、吳金龍@yige.ai
責編:何永燦,關注人工智能,投稿請聯系heyc@csdn.net或微信號289416419
10月17日,中科院自動化研究所慶祝建所60周年舉辦了人工智能學術論壇,論壇邀請人工智能相關領域的專家學者做主題學術報告。筆者有幸到場聆聽幾位專家的報告。由于時間原因,參加了下午3場報告,以下是我們對報告的感受和總結。
美國華盛頓大學教授譚自忠(TJ Tarn):Next Big Things in Robotics and Automation
譚老師首先介紹了機器人的發展,新技術的應用使得機器人越來越精細,智能。硅谷帶來的革命就是把原來大、貴、復雜的系統替換成小、便宜、高性能的微系統。微芯片能夠感知、思考、行動甚至互相交流,最終它們將帶來智能機器。
譚教授根據不同時期人機交互程度把機器人分為:工業機器人,服務機器人,合作機器人。 譚教授指出,未來機器人的一個發展方向是生物與機械的結合,它們在生物技術、環境、信息技術甚至新藥物研發中都會有很好的應用。
華為諾亞方舟實驗室主任李航:擁抱自然語言處理新時代【PPT】
李老師的報告分成兩部分,第一部分介紹人類語言的5個特性,這5個特性讓自然語言處理很困難。雖然我們到現在都搞不清楚人腦是怎么處理語言的,但技術上還是可以做一些事讓計算機看上去能理解一點人類語言,第二部分就是介紹目前技術上的一些方法。
一、人類語言的5個特性
在第一部分開始,李老師從規模,速度,計算模型,容量四個方面,對比人腦和計算機工作方式的不同:
李老師之后提出導致NLP很難的五個語言特性。第一個特性是人類語言不僅有很多語法規則,還有很多特例(不遵守語法規則)。人類語言是由成千上萬的人在漫長的時間內逐步創建而成,很像現在維基百科的創建過程。正是由于這種多人長期的協作導致語言既有規則又有很多特例。
語言的第二個特點是遞歸性,也即可把短句通過遞歸的方式組合成很復雜的長句。(好像有本英文書就只有一個句子。)這個特點是由著名的喬姆斯基提出的。雖然很多動物如大猩猩也掌握簡單的單詞,但它們的語言并不具有遞歸性,所以其表達能力和人類語言不在一個層級上。更多介紹可見語言的對決:喬姆斯基攻防戰。
語言的第三個特點是比喻性。通過比喻可以把多個不相關的概念組合起來產生新的概念。比如“在微信里潛水”就是組合了潛水和在微信中不說話的行為這兩個原始概念,還有“上廁所”、“下廚房”也是通過比喻來組合不同的原始詞匯。有小孩的朋友應該經常能聽到小孩自創的一些比喻性說法。
語言的第四個特點是語言與世界外部知識是相關聯的。這也是為什么現在大家都在搞知識圖譜。 第五個特點是語言具有互動性。
這五個人類語言特性使得人類語言和計算機工作方式不同,從而導致了讓計算機完全理解人類語言變成一大難題。雖然我們現在沒法讓計算機以人腦理解語言的機理去理解人類語言,但我們可以讓計算機去模擬理解語言的結果。報告的第二部分,李老師提出了一些讓計算機理解人類語言的技術策略。
二、讓計算機理解人類語言的一些技術策略
第一種策略叫任務驅動策略(Task-Driven Strategy)。
任務驅動策略比如我們可以把人類理解問題的機理簡化,只保留計算機能處理的步驟。以QA為例,人類的處理邏輯包括問題分析、理解、推斷、檢索、決策、答復產生6個步驟,但我們可以把這個過程簡化為分析、檢索和答復產生3個步驟,這樣計算機就可以解決QA問題了。
任務驅動策略-簡化問題-QA我們也可以通過限定任務所在領域來把計算機之前沒法做的事變成它能做的。以多輪對話舉例,雖然在開放領域很難做好,但是如果只是限制在特定領域,計算機就可能做的很好。我們的一個AI(www.yige.ai)平臺就是為了幫助開發者創建特定領域的QA系統,大家可以嘗試一下。
任務驅動策略-限制問題-多輪對話而且通過AI LOOP(系統-用戶-數據-算法)我們可以持續優化計算機對人類語言的處理效果。
第二種策略叫融合策略(Hybrid Strategy)。我們可以將基于規則,基于統計和基于深度學習的NLP方法進行融合,不斷提升計算機的自然語言處理能力。
融合策略360首席科學家,人工智能研究院院長顏水成:Facial Entertainment–Techniques and Applications
顏老師是國際知名計算機視覺與深度學習專家,現在是360人工智能研究院院長。他的報告主要包括兩個方面:深度學習上的一些探索、人臉處理技術和產品。下面分別做簡單介紹。
一、深度學習的探索
Network In Network (NIN)
顏老師首先介紹了他們兩年前的工作:Network In Network (NIN)。NIN主要包含了兩個創新點,第一個是利用MLP模型代替原來卷積層的線性模型(見下圖),提升卷積層的非線性性,從而提升其局部表達能力。這個被稱為mlpconv層的新卷積層相當于先做一個一般的卷積,再做幾個1x1的卷積(只改變filter的個數,不改變feature map的大小)。1x1卷積在很多模型都被使用,比如GoogleNet、ResNet,它有以下作用:
更多細節可見這里。
NIN的mlpconv層經過多次的卷積層后,最終產生的每個feature map都包含了很高層的全局信息,所以單獨一個feature map就應該能代表一個類的特征了。NIN的第二個創新點是把CNN里頂層的全連接層替換為全局平均池化層(見下圖,圖片來自于這里)。以分類問題為例,最后一層卷積層產生的feature map數量和類別數量相同,在每個feature map上取平均值,這個平均值就代表了對應類的信息,把平均值最后放到softmax函數里就得到此類的概率值。原始CNN中大部分的參數都來自于頂層的全連接層。NIN通過引入全局平均池化層降低了模型參數數量。在保持精度的情況下,NIN能把參數數量壓縮為原始CNN的1/10。
More is Less
顏老師他們觀察到,很多情況下超過40%的模型結點在ReLU之前獲得的值都小于0,所以經過ReLU (max(x, 0))后這些結點都變成0了,它們具體的取值毫無意義。
如果用很低的計算量我們就能預估出哪些結點的取值會小于0,在卷積時就不用再花更多時間去計算它們的精確取值了。基于這個邏輯,顏老師他們提出在原來網絡的基礎上增加1x1的卷積層,新模型的輸出為原模型的輸出(逐元素)乘以1x1卷積層的輸出。如果1x1卷積層的輸出為0,那原始卷積層對應結點就不用再計算了,從而達到降低計算量的作用。這就是所謂的用更復雜的模型結構(More)來獲取更低的計算量(Less)。這種方法在很多模型上能達到20%的加速,在某些模型上甚至加速近50%。據說顏老師的這個工作還沒正式發表。。。
More is Less這種加速思路比較適合計算能力較差的設備,比如手機。對于計算能力較強的機器,更高模型復雜度會帶來更多的調度等開銷,最終導致加速效果不明顯。
二、人臉處理技術和產品
接下來,顏老師介紹了他們之前在化妝、美顏和人臉增強方面的一些工作。這部分既有技術含量又很實用,相信不會有人不感興趣。
怎么化妝能變身為女神
愛美之心姑娘皆有之,但不是每個姑娘都知道怎么化妝。顏老師做了一個產品叫“Beauty e-Expert”,用戶只要上傳一張人臉照片,Beauty e-Expert會根據用戶的臉型和衣服給用戶推薦合適的底妝、唇膏、眼影和發型,并把這些推薦的化妝術合成到用戶上傳的照片上,讓用戶立刻看到化妝后的效果圖。合成部分主要難點在于面部對準,需要準確把假發放到頭上,唇膏涂到嘴唇上。算法細節可以參考他們2013年的論文“Wow! You Are So Beautiful Today!”。下圖給出了系統處理流程和合成效果。
美顏(Facial Beautification)
傳統美顏方法是先找臉部的各種特征點,然后對五官做調整,從而達到美顏的效果。顏老師他們提供了一個美顏新思路。首先訓練一個深度神經網絡預測一張臉型圖片的buauty score,預測時把輸入作為參數優化,使用梯度上升算法得到更高的beauty score,優化后的輸入即為美顏后的結果。
人臉增強(Facial AR)
這部分顏老師演示了實時臉部替換的效果,即把一個人的人臉實時放到另一個頭上的效果。以后跟姑娘視頻聊天時你可以換個臉了。系統主要用到的技術包含人臉檢測、面部跟蹤與對標、人臉替換。具體可參考他們2016年剛發表的論文“A Live Face Swapper”。
一個AI(www.yige.ai),是免費創建虛擬對話機器人(Bot)應用的在線平臺。利用一個AI,開發者甚至產品和運營人員都可以輕松地開發聊天/對話機器人應用,而不需要具備機器學習與自然語言處理等相關知識。
一個AI的使命是:讓每個人都能輕松開發一個中文AI應用。
總結
以上是生活随笔為你收集整理的人工智能学术论坛参会总结【附PPT】的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 华为python673集_[译] 使用
- 下一篇: 首支完全由 AI 创作的歌曲《未来之歌》