CVPR 2018现场见闻
關(guān)于作者:萬緯韜,本科畢業(yè)于清華大學(xué)電子工程系,現(xiàn)于清華大學(xué)信息認(rèn)知與智能系統(tǒng)研究所攻讀博士二年級,主要研究方向包括基于深度學(xué)習(xí)的人臉檢測與識別,對抗樣本,圖像語義分割。
計算機(jī)視覺頂級會議 CVPR 于 2018 年于 6 月 18 日在美國鹽湖城召開。一年一度的 CVPR 收錄了來自全球?qū)W者的最新研究,這里不僅是學(xué)術(shù)界交流的盛會,還是產(chǎn)業(yè)界展示成果的平臺。隨著算法與硬件的飛速發(fā)展,計算機(jī)視覺、人工智能等技術(shù)在我們的生產(chǎn)和生活中的應(yīng)用越來越普及,與此同時,CVPR 會議本身也在不斷地發(fā)展和變化。
CVPR 如同一個風(fēng)向標(biāo),向我們展示了在最近一年里該領(lǐng)域的關(guān)注熱點和最優(yōu)秀的成果。筆者全程參與了本屆 CVPR 會議,在這里與大家分享本屆會議的特點、最新的研究熱點和該領(lǐng)域相關(guān)企業(yè)的動向。
會議規(guī)模顯著擴(kuò)大
今年 CVPR 的論文投遞數(shù)逾 3359 篇,相比去年增長約 25%。而論文接收率幾乎不變(約 29%),最終被接收的論文多達(dá) 979 篇。從如此大量的論文中挑選出符合 CVPR 品質(zhì)的論文絕非易事,會議組織了 2385 名來自世界各地的優(yōu)秀審稿人進(jìn)行評審。同時,參會人數(shù)多達(dá) 6500 余人,比去年增長約 30%。
因此,正如會議的 general chair,Michael Brown 教授所說,參會者不可能在 5 天的時間里顧全所有的事情,你必須做出取舍,這樣才能充分的利用時間。的確如此,在主會議期間,每天都會并行地開展 3 場 oral/spotlight 報告,參會者需要提前了解并從中選擇自己最感興趣的話題來聽。
▲?圖說:CVPR的參會人數(shù)和投稿數(shù)都出現(xiàn)了大幅增長
除了論文數(shù)量明顯增長,今年贊助商的數(shù)量和贊助金額也明顯增長。會議擁有來自全世界的 149 家贊助商,共接收贊助/展示費用達(dá) 200 萬美元。可以看到,產(chǎn)業(yè)界對 CVPR 這一學(xué)術(shù)會議顯示出了極大的興趣,這也從側(cè)面反映了計算機(jī)視覺、人工智能等方面的研究在實際場景中有巨大應(yīng)用價值。贊助商除了在會場以豐富的形式展示各自的產(chǎn)品和研究成果以外,還提供了大量的招聘和實習(xí)崗位,希望吸引來自該領(lǐng)域的精英加入他們。一部分參會者就是沖著這些名企的招聘來,對他們來說這里也相當(dāng)于是一場招聘會。
值得注意的是,無論是論文發(fā)表還是贊助商方面,華人都貢獻(xiàn)了巨大的力量。在已接收的論文中,華人作者所占比重相當(dāng)可觀。在 9 家鉆石贊助商中,中國企業(yè)就有 3 家;在 20 家鉑金贊助商中,中國企業(yè)占到 9 家。一個最直觀的感受是,在會議現(xiàn)場,中國人面孔非常普遍。在參加 poster 展覽時,常常一篇 poster 面前全是中國學(xué)者,這個時候作者也許會索性用中文給大家講解。參會的人面前都掛著自己的名牌,上面寫有姓名和學(xué)校/單位,會議現(xiàn)場常常有人看了一眼筆者的名牌,然后就開始用中文打招呼。在這種氛圍下,雖然身處美國,也有一種賓至如歸的感覺。
企業(yè)參與度極高
相關(guān)領(lǐng)域的企業(yè)通過多種方式深度參與了本次會議。
首先,在主會期間,大量贊助商在會場展示區(qū)通過多種形式展示了各自的研究和應(yīng)用。有以視頻 Demo 形式展示的,比如字節(jié)跳動(ByteDance),他們以世界杯比賽視頻為例展示了基于計算機(jī)視覺的足球比賽理解技術(shù)。該技術(shù)能夠?qū)η騿T和足球進(jìn)行實時的追蹤和分割,并且能自動生成鳥瞰圖。目前正值俄羅斯世界杯期間,這樣的展示很容易吸引參觀者圍觀。公司旗下的短視頻應(yīng)用非常火爆,他們也展示了對于短視頻中多人物的實時姿態(tài)檢測,以及基于這些技術(shù)的有趣應(yīng)用,比如抖音尬舞機(jī),讓人印象深刻。
▲?字節(jié)跳動的系統(tǒng)可以基于計算機(jī)視覺,理解足球比賽技術(shù)
現(xiàn)場還有以視頻或?qū)嶓w模型形式來展示的公司,比如 Momenta、圖森科技、AURORA 等。京東展示了倉庫巡邏機(jī)器人等無人倉庫場景下的智能產(chǎn)品。還有以用戶互動形式來展示的公司,比如商湯科技允許用戶坐在模擬駕駛位,展示其對司機(jī)駕駛狀態(tài)、目光注意力以及司機(jī)手勢的識別能力;Adobe 則允許用戶在觸摸板上畫出一個人像,然后算法會對其自動上色。會場中,各個企業(yè)展示了涵蓋智能監(jiān)控、自動駕駛、無人商店和智慧理療等多個重要領(lǐng)域的 AI 應(yīng)用,顯示出 AI 落地的廣闊前景。
除了在主會展示,各大企業(yè)都在不同場所分別組織了 party,邀請 CVPR 的參會者參與。筆者參與了商湯、字節(jié)跳動(旗下有今日頭條和抖音等產(chǎn)品)和 Momenta 的聚會。在活動中,企業(yè)詳細(xì)介紹了自己的企業(yè)文化、主要產(chǎn)品和研究方向,以及未來的發(fā)展規(guī)劃。以字節(jié)跳動為例,作為國內(nèi)發(fā)展勢頭迅猛的 AI 企業(yè),它已經(jīng)開始了全球布局,例如在包括美國硅谷在內(nèi)的全球各地設(shè)立 AI 實驗室,從而招募更多的行業(yè)精英。以數(shù)據(jù)挖掘、內(nèi)容推薦為驅(qū)動的今日頭條吸引了大量用戶。基于視頻理解技術(shù),它在短視頻、視頻直播等應(yīng)用上也推出了極具創(chuàng)新的應(yīng)用,助使其打造 AI+ 娛樂應(yīng)用新模式。在宴會期間,筆者與同一桌的參會者進(jìn)行了交流。他們都是來自中國的在讀博士,除了一位來自英國帝國理工大學(xué),一位來自同濟(jì)大學(xué),其余都來自美國的各個不同大學(xué)。
值得注意的是,企業(yè)同時也是 CVPR 會議中重要的論文發(fā)表者。據(jù)統(tǒng)計,論文發(fā)表數(shù)名列前茅的是,谷歌發(fā)表 45 篇,商湯科技發(fā)表 44 篇,Facebook 發(fā)表 35 篇,騰訊 AILab 發(fā)表 21 篇。可以看到,相關(guān) AI 企業(yè)展示出越來越強(qiáng)大的科研實力和科研熱情。產(chǎn)業(yè)界在實際應(yīng)用中會第一時間發(fā)現(xiàn)問題、提出問題并迅速尋找解決方案。通過學(xué)術(shù)論文的發(fā)表,產(chǎn)業(yè)界與學(xué)術(shù)界共同分享新的思路和想法,這對學(xué)術(shù)的發(fā)展起到了很好的推動作用。如今,產(chǎn)業(yè)界和學(xué)術(shù)界的聯(lián)系越來越緊密,在 AI 領(lǐng)域,真正做到了高效的產(chǎn)學(xué)研結(jié)合,這對整個 AI 生態(tài)的高效可持續(xù)發(fā)展是至關(guān)重要的。
研究熱點概覽
深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域繼續(xù)發(fā)揮重要作用。眾所周知,深度學(xué)習(xí)是數(shù)據(jù)驅(qū)動的,在這個數(shù)據(jù)為王的時代,收集和標(biāo)注大量的數(shù)據(jù)來訓(xùn)練模型往往是實際場景中提升性能最簡單有效的辦法。然而,即便是有大量人力物力的企業(yè),也很難對手頭的海量數(shù)據(jù)完全標(biāo)注,因此,半監(jiān)督/弱監(jiān)督學(xué)習(xí)是一個十分重要的課題。
以語義分割任務(wù)為例,研究者往往會采用圖像類別標(biāo)簽進(jìn)行弱監(jiān)督學(xué)習(xí)。利用類別概率的響應(yīng)熱圖(class activation map 或 peak response map)產(chǎn)生初始分割,不同的文章在后續(xù)進(jìn)行各自的處理,從而實現(xiàn)弱監(jiān)督的圖像語義分割。
關(guān)于數(shù)據(jù)的另一個問題是,即使我們在一個龐大的數(shù)據(jù)集上訓(xùn)練得到了很好的模型(以驗證集為評價依據(jù)),當(dāng)我們將其投入實際應(yīng)用時,可能會因為該場景下的數(shù)據(jù)分布與已有的數(shù)據(jù)分布有較大差異,性能明顯下降。例如,這一問題在行人再識別中尤其明顯,由于攝像頭參數(shù)、光照等原因,實際場景可能會遇到分布很不相同的數(shù)據(jù)。遷移學(xué)習(xí)(Transfer Learning)是解決這一問題的常用思路,這也是本次會議論文的一個重要方向。?
生成對抗網(wǎng)絡(luò)(GAN)依然火熱,在多種應(yīng)用中都發(fā)揮了重要作用。比如,本屆 CVPR 的 oral 文章《Finding Tiny Faces in the Wild with Generative Adversarial Network》,想要解決人臉檢測中尺度多變的問題。為了更好地檢測圖像中較小的人臉,它利用生成器將低分辨率圖像轉(zhuǎn)換為高分辨率圖像,并設(shè)計了兩路的判別器,對高分辨率/低分辨率、人臉/背景進(jìn)行判斷。該方法能有效地對低分辨率的 proposal 進(jìn)行超分辨率變換,并且能保持其原有的類別(人臉或背景),從而有效地幫助檢測圖像中分辨率很低的人臉。在其他方面,我們也看到了許多關(guān)于 GAN 的應(yīng)用。
隨著深度學(xué)習(xí)應(yīng)用落地,在很多場景下可利用的存儲和計算資源受限,比如在手機(jī)端、自動駕駛車輛上。因此,關(guān)于模型壓縮、計算加速的文章也是非常重要的課題。比如 UC Berkeley 提出的《Shift: A Zero FLOP, Zero Parameter Alternative to Spatial Convolutions》,提出了通過平移feature map和使用卷積的方式,來取代傳統(tǒng)的卷積,從而極大地縮小模型尺寸、減小計算量,并且由于去除了隱層特征中的冗余信息,該方法還能帶來識別率上的提升。
筆者來到這篇文章的 poster 面前時,發(fā)現(xiàn)圍觀的人群已經(jīng)擠滿了位置。展板前面一位面似中國人的帥小伙在聲情并茂地為大家講解,而且他的口語十分地道。后來等到人群散去,我與他交流才發(fā)現(xiàn)原來他是美國人,不會說中文。他看到我的名牌后說,他的 mentor,即本文的第一作者,也來自清華。我與這位學(xué)長溝通后知道,原來他也是清華電子系畢業(yè),在伯克利讀博,已經(jīng)五年級了。他向我介紹了他們實驗室目前在于自動駕駛公司合作,做的項目專注于深度學(xué)習(xí)的模型壓縮、加速,以及基于激光雷達(dá)的語義分割等。他們還舉辦了本屆 CVPR 的一場 workshop:Efficient Deep Learning for Computer Vision。筆者參加了這場 workshop,有許多大牛來講解了在硬件資源受限的情況下,高效地設(shè)計和使用神經(jīng)網(wǎng)絡(luò)的相關(guān)技術(shù)和研究。?
獲得了 ImageNet 2017 冠軍的 Squeeze-and-Excitation Networks 也在現(xiàn)場進(jìn)行了講解,Oral 的時間雖然是早晨 8 點多,但依舊吸引了大批觀眾,Poster 前更是聚攏了一大群交流的學(xué)者。SE 架構(gòu)大幅提升了模型的精度。通過引入全局圖像的信息自動對卷積特征重新分配權(quán)重,增強(qiáng)對分類有用的特征,而抑制無效或收益甚微的特征。在只引入極少的計算量和參數(shù)量的情況下,可以將現(xiàn)有的絕大多數(shù) CNN 的性能進(jìn)行大幅提升。
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 加入社區(qū)刷論文
總結(jié)
以上是生活随笔為你收集整理的CVPR 2018现场见闻的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 暑假没人带怎么办?还有我们为你推荐论文
- 下一篇: 从动力学角度看优化算法SGD:一些小启示