干货 |VALSE 2019总结 --PPT 打包下载
本文轉載自:SIGAI
今天,你AI了沒?
關注:決策智能與機器學習,每天學點AI干貨
VALSE2019之總結篇
VALSE2019于4月11日在合肥成功舉辦,此次盛會邀請了各界青年學者,共同研討計算機視覺的最新課題與發展方向,是一次視覺領域的交流會,一次學術課題的分享會,一次研究成果的展示會。在本屆VALSE2019的大平臺上,各高校與各企業分享了學術界與工業界的最新進展,共同商討了計算機視覺的未來發展主題。這次大會在成果的交流與思想的碰撞中,擦出計算機視覺領域最新的火花。
本次大會涵蓋的主題非常豐富,包含了計算機視覺領域的各個方面,從弱監督學習、遷移學習、元學習,到細粒度識別、三維視覺、模型結構搜索,再到醫學影像智能分析,以人為中心的視覺理解、在線視覺跟蹤。同時涵蓋了計算機視覺的基本任務,與計算機視覺的最新應用,可以說本次大會是一次承前啟后的計算機視覺盛筵。
?
首先,計算機視覺的熱門研究方向越來越趨向少樣本學習、遷移學習與自動化學習,這也正是VALSE2019很多 Workshop與Tutorial的主題。自深度學習方法興起,CNN在計算機視覺各領域上都取得了相當優秀的成績,CNN雖然可以從大量數據中提取有效的特征,但它對于數據數量與廣泛性的依賴一直都是它的短板之一,尤其是最近一年,數據的獲取與標注已陷入瓶頸,我們不僅需要大量的數據,更需要高精度的標注,這個問題越來越嚴重,成為限制CNN發展的一個問題之一。同時,如何加強CNN模型的泛化能力,讓訓練好的CNN模型更好地適應新的數據也是計算機視覺的研究熱點。盡管我們可以使用萬或百萬量級的數據進行訓練,但訓練數據也僅僅是所有數據的一個小子集,其分布并不代表整體數據的分布,那么如何有效地在已知數據中挖掘出整體數據的共性,也是當前計算機視覺面臨的困境。弱監督學習、遷移學習與元學習都是致力于解決這些問題的方法。本次VALSE2019大會的第一天當晚,與第二天的講座詳細介紹了當前弱監督學習與遷移學習的基本任務與難點,當前研究成果與應用。
此外,CNN的網絡結構設計與訓練需要大量的專家經驗,如何自動地學習有效的網絡結構,也是當前計算機視覺熱門主題之一。從AlexNet將CNN重新被世人認可,再到VGG,GoogleNet,ResNet,DenseNet等越來越多人工設計的有效網絡結構應用于計算機視覺領域,有效網絡結構的探索耗時多年,傾注了大量研究者的心血。如今自動化地探索網絡結構,設計出專用的或泛化能力更強的網絡結構,成為計算機視覺方向的熱點之一。本屆VALSE2019關于深度模型設計的Workshop即著眼于網絡結構搜索,各高校與企業的青年學者介紹了該方向的基本任務,研究進展,以及發展前景。
其次,計算機視覺是一個注重應用的學科,計算機視覺研究的根本目的之一也是助力于人類生活。本屆VALSE大會的Workshop中包含了計算機視覺應用的諸多方向:醫學成像、視頻監控、三維建模與在線跟蹤等,在這些講座上,各高校與企業共同交流,探討了計算機視覺領域的各應用場景,解決方案,以及實際成果,碰撞出更新的觀點與思路。在本屆大會講座的同時,各企業在展廳中展示了相關工作的效果,這也正是計算機視覺與人工智能落地的成果。
最后,VALSE2019大會回顧了2018年度計算機視覺領域的關鍵進展,包括了圖像語意分割、圖模型、GAN理論算法,深度模型結構等學術問題,以及人臉表情識別,行人再識別等應用問題。這是對去年計算機視覺領域研究成果的一次匯報,同時也是對今年研究方向的啟示。
?
VALSE2019研討會緊跟計算機視覺研究的熱點方向,各青年學者齊聚一堂,共同探討科研進展與應用成果,為所有計算機視覺研究者提供了一個學習、交流、思考、合作的平臺。
?
?
Workshop:以人為中心的視覺理解研討會 參會記錄
4月12日上午,筆者參見了VALSE2019的研討會--以人為中心的視覺理解。研討會現場座無虛席,為了能夠搶到一個好位置,本人早上7點30就來到合肥國際會展中心的第五會場。各位大佬圍繞視覺行為分析理解進行了長達4小時的報告:
一、基于視頻的時序建模和動作識別方法? (王利民)
當前視頻行為識別主要是在三種場景:
In the Lab
In TV,Movies
In web videos
視頻動作識別的機遇和挑戰:
機遇:視覺信息提供了大量、豐富的數據用于視覺理解;動作是運動感知的核心且能夠衍生許多視頻理解的應用。
挑戰:復雜的動態時序變化,動作的定義不明確,噪聲和行人的弱標記信息,昂貴的計算資源和存儲代價。
由于視頻在圖像的基礎上增加了一維時序信息,王利民老師從短期(Short Term)、中期(Middle Term)、長期(Long Term)三個角度對視頻的時序信息進行建模。首先,回顧了基于深度學習的視頻行為識別主流方法,比如two-stream,C3D,SlowFast Network。
然后,王老師重點分享了其本人在視頻行為識別的一些工作。主要包括:
短期建模方法:Appearance-and-Relation Net(ARTNet)
中期建模方法Temporal?Segment?Network—TSN
長期建模方法(Untrimmed?Net)
復雜視頻的深度高效分析與理解方法(喬宇)
在報告中,喬老師首先回顧了深度網絡的結構演化AlexNet、GoogLeNe、VGGNet、ResNet、DenseNet,給出深度網絡發展的幾個重要方法:
優化(optimization),主要包括ReLu、Batch Normalization、Stage-wise training(or better initialization)、Identity Connection in ResNet.
?過擬合overfitting,包括Dropout,Data Argumentation
?結構設計Architecture Design,包括3×3 Layer in VGG,Inception Module以及ResNet Block
輕量級Light parameter,包括3×3 Conv in VGG,1×1 Conv+Bottleneck。
喬老師作為國內視頻行為識別的大佬,分享了自己視覺生涯的三個階段,其談到CV是一個長期充滿挑戰且十分具有前景的研究領域,希望廣大學生腳踏實地的做研究。在第一階段的山腳(~2011年),主要采用傳統方法去處理視覺的難題(檢測、分割等),效果不如人意;在第二階段的爬坡期(2012年后的深度學習),深度學習方法極大地推動了視覺各項任務的發展;在第三階段的登頂期(未來),將朝著超級視覺去發展(本人理解為多模態融合的視覺技術)。
隨后,喬老師分享了人臉檢測(MTCNN、ICC-CNN)和人臉識別的一些工作。重點從人臉識別的loss發展進行了分享,從早期的softmax Loss、Contrastive Loss、Tripetloss、Center loss的系列改進。
在視頻行為識別與理解方面,喬老師分享了一系列他們實驗室的工作,包括:2013年的視頻中層表示與結構模型、2014年的軌跡卷積特征TPD以及視頻特征編碼學習、2016年的運動向量網絡EMV-CNN和時序分割模型TSN,以及2017年后的姿態遞歸注意網絡RPAN和非監督強化視頻概要。
?
以人為中心視覺識別和定位中的結構化深度學習方法探索? 歐陽萬里
歐陽萬里老師分析了傳統的卷積網絡的存在的問題:1)同一層的神經元沒有連接;2)相鄰層的神經元是全連接,沒有保證局部區域的信息。從而引出每一層網絡的各神經元具有結構化信息的。然后以人體姿態估計為例,分析了基于全連接神經網絡的問題:在對人體節點的距離進行建模需要大的卷積核以及一些關節點的關系是不穩定。提出結構化特征學習的人體姿態估計模型(Bidirectional Tree)。
此外,為了統一利用像素級、區域級以及圖像級任務的優勢,歐陽萬里老師提出了FishNet,FishNet的優勢是:更好的將梯度傳到淺層網絡,所提取的特征包含了豐富的低層和高層語義信息并保留和微調了各層級信息。
?
面向監控視頻的行為識別與理解 ?林巍峣
由于監控視頻具有場景相對固定、目標較小、行為復雜等特點,對監控視頻的行為識別和理解已成為計算機視覺領域的最新挑戰。林老師在報告中介紹了行為識別技術的發展和主要類別,然后介紹了其課題組的一些工作進展,主要包括多目標軌跡魯棒提取,基于軌跡信息的行為識別,基于時空序列的行為識別以及密集場景行為理解等。
在目標檢測方面,介紹了三個在真實場景應用的工作:
1)一種輕量級的目標檢測網絡(tiny DSOD)
2)一種更加準確的基于AP-loss的One-stage目標檢測框架。
在研討會的結束的時候,進行了長達20分鐘的pannel。各專家針對視頻行為識別的問題進行了探討,重點對視頻行為的計算資源和數據標注問題進行了探討,并對真實監控視頻場景下的空時定位和異常行為進行了簡要分析。
?
NAS(Nueral?Architecture?Search):?未來之匙,大有可為
以深度學習為基礎的各種算法實現了自動從數據中提取特征,逐步改變了傳統算法手工設計特征的局面。然而,目前的神經網絡設計仍然需要領域內專家花費很長時間才能進行設計調整才能得到高效精巧的模型。神經網絡結構搜索實現了自動化結構搜索以及權重調整。
目前NAS發展仍然處于初級階段,但其對于未來神經網絡設計的研究是具有重大影響的。來自美國約翰霍普金斯大學的謝凌曦提出神經網絡搜索所處的研究階段大致相當于2011年前神經網絡研究相同,目前沒有一個處于絕對統治地位的實現方式。另外,受限于數據集,目前的NAS研究仍然使用傳統的CIFAR10,CIFAR100抑或ImageNet 數據集進行訓練,這在某種程度上限制了下一代神經網絡設計所能達到的效果。如何設計適應于NAS研究所使用的數據集是一個亟需解決的開放的研究話題。另外,謝凌曦組針對目前NAS訓練時間長,需要使用小數據集作為Proxy的缺陷,他們在DARTS上進行改進,提過了多階段逐步加深的訓練方法,使用了搜索空間近似以及搜索空間約束等方法,使用了大大減少了模型搜索的時間。
來自曠視的張祥雨則從實際工業應用出發,針對在模型部署階段關于模型復雜度以及計算效率的要求出發,講解了曠視在高效輕量級深度模型領域的研究成果,從ShuffleNet到ShuffleNet?V2的設計,然后到Single?Path?One- Shot?Neural?Architecture?Search?with?Uniform?Sampling在NAS領域的探索。張提出產品線上有很多對于模型在不同設備上進行模型適配的的需求,NAS可以作為一種新型的模型適配方案,將部署設備的運算能力等特性作為NAS搜索等限制條件來搜索高效的網絡模型,實現精度,效率以及靈活性的權衡。
眾所周知,2015年提出的ResNet目前已經被廣泛使用在分類,檢測,分割等各個方向當中。在深度學習模型設計的Panel時間,張翔雨分享了在設計ResNet的歷程。ResNet的設計源于對于GoogleNet的研究。在GoogleNet的論文中,作者將網絡的取得的效果歸功于不同大小的卷積核所提取的多尺度特征。而張等人在研究過程中發現,在刪除不同大小卷積核的對比實驗中,卷積核的影響是非常大的,這成為了他們設計shortcut的靈感來源。而他們關于GoogleNet的研究前前后后持續了一年左右。考慮到目前NAS所搜索出網絡所達到的結果和時間,這進一步讓我們更加期待NAS的未來。
VALSE2019舞動合肥
雖然VALSE已經成功舉辦8屆,雖然已經關注VALSE 5年之久,但是這還是筆者第一次參會。以往只能在paper中看到的名字,這次真的可以見到真人了,筆者化身迷妹,仔細品位各位大牛帶來的學術盛宴。由于時間沖突,筆者不能一一聽取每一位講者的報告,只能選擇感興趣的以及與自己強相關的報告來消化吸收。
?
本次workshop或者tutorial幾乎所有的報告都是深度學習相關,在大數據、集群GPU等的大力發展和支撐下,深度學習在計算機視覺領域全面產業落地,這次參會明顯感受有以下幾點:
1.?缺乏訓練數據是產業和學術界的普遍問題,工業界應用產品落地很大程度上取決于有監督學習,但是在實際的場景中,標注數據的獲取成本太高,一個檢測目標框標注雖然只有幾毛錢,但是標注幾萬張、幾十萬張圖片需要耗時大量的人力和時間,因此在數據匱乏的情況下,如何進行弱監督學習甚至是無監督學習稱為學術界普遍關心的問題,遷移學習也是研究的熱點之一,毋容置疑監督學習目前是成熟度最高的,已經成功商用,有學者指出下一走上商用的技術將會是遷移學習。
2. 深度學習在很多領域都取得了不錯的效果,但調參對于模型訓練者來說是一件非常痛苦的事情,超參數和網絡結構參數的調整確實會對模型精度提升帶來一定的效果,但常規的random search和grid search效率非常低下,因此網絡結構搜索(Neural Architechture Search, NAS)成為研究熱點之一。AutoML更加簡單快速和智能,只需要訓練數據即可讓AutoML獨立完成網絡設計,深度學習領域的自動化正在席卷而來。
3.?移動端的深度學習風起云涌,在展臺上看到很多手機上應用深度學習的demo,雖然目前只是互動娛樂,相信在不遠的將來會深度學習會對我們的日常生活帶來更大的影響。為了使得深度學習模型可以跑在移動端,輕量化的模型必不可少,模型剪枝和壓縮勢在必行。
?
截止到12日晚,所有的workshop和tutorial已經分享完畢,相信跟我一樣慕名來參會的所有計算機視覺同行朋友會感到不虛此行,非常感謝主辦方與承辦方以及協辦方、志愿者學生的辛苦和付出。
?
VALSE 2019 見聞
第一天晚上6點開始兩場workshop,一場是關于弱監督視覺理解,一場是關于三維視覺和深度學習的,我選擇去聽了三維視覺的workshop。
首先主持人講了三維視覺的研究問題,主要說了一下深度學習能夠如何幫助3D視覺,以及深度學習在3D視覺中的挑戰,3D視覺如何幫助深度學習等等。接下來介紹了幾位講者的信息,都是該領域深耕的大牛。
第一位給talk的是百度的楊睿剛老師,他主要講的是百度無人駕駛如何模擬3D的感知和導航。
首先他講到通過lidar,我們可以得到很多3D點云的信息,但是標注成本特別高,除此之外,無人駕駛沒有辦法收集到無窮無盡的數據,所以能夠通過模擬生成仿真的數據有利于我們在這些仿生場景中測試無人駕駛的安全性。
然后整個talk的核心就是在講他們通過仿真和3D的技術,可以實現數據的生成,首先將場景中的車全部拿掉,然后再用3D重建和合成的技術,在這個場景下生成他們需要的車,接著在視頻層面生成運動的車輛,這樣就能夠生成無窮無盡的任意場景的數據,同時因為這些車都是合成的,所以自動就有了標注信息,根據這些生成的數據,就能一直做無人駕駛的仿真和模擬,比CARLA和AirSim的效果都要好很多,這個數據最后應該會開源。
最后總結一下,因為在真實場景中收集,標注,測試代價非常大,所以通過模擬仿真的方式生成數據是一個比較好的解決方法,最后提出從仿真場景到真實場景之間存在domain gap,拋出一個問題,是不是能夠用 transfer learning 去解決這個問題。
?
第二位講的老師是國防科技大學的徐凱老師,他主要講的就是通過 hierarchical 信息來有效地進行3D的重建。
核心insight就是每個物體的3D信息能夠被每個部分之間的層次信息有效的組織起來,這能夠反映它們內部的聯系,比如之間是連接關系還是對稱關系等,通過auto-encoder來構建一個遞歸的神經網絡,將任意的無標簽的布局映射到一個隱含向量,這個隱含向量能夠有效的捕獲任意人造的3D物體的結構化信息。接著他講到了3D場景理解,其核心還是在于場景中物體之間的hierarchical organization和layout。
?
第三位主講老師是清華大學的劉燁斌老師,主要聚焦在3D人體重建上,能夠應用在影視和廣告特效上。
首先介紹了一下基于統計模板的人體動態重建方法,其中最為代表性的工作就是2015年馬普所的SMPL,之后有很多基于2D圖像生成3D人體的工作都是基于SMPL這個人體參數模型。這一類方法的優點就是無任何人工預處理,同時具有語義信息。缺點就是難以重建復雜的幾何拓撲,比如裙子等紋理結構。
接著講到了他們的一個工作,利用單深度相機進行語義化實時人體三維動態重建,SimulCap。人只需要在深度相機前面轉一圈,就能夠使用DoubleFusion的方法重建衣服的表面,接著利用顏色信息對衣服的表面進行語義分割。
考慮到深度相機的信息并不能在實際中獲取,所以需要用RGB圖像進行人體的重建,所以有了他們接下來的一個工作,利用單RGB圖像進行人體動態三維重建 DeepHuman。整個框架由一個image encoder,volume-to-volume的網絡,和一個refinement網絡構成。
最后,因為通過RGB圖像生成的3D人體模型仍然缺少語義信息,所以有了最近的一個工作,只利用單RGB視頻進行人體的語義化建模,MulayCap。這個工作應該是他們正在做的工作,目前在網上找不到相關的論文。
最后,劉老師總結了整個內容,基于單圖像和單視頻是人體重建未來幾年的熱點,因為不需要引入額外的深度信息等,有利于實際應用。第二就是結合語義的信息重建可以豐富人體重建的應用,同時也需要更好的三維數據集,結合深度學習和傳統優化算法。通過這個talk,劉老師將他們的一連串工作和motivation都非常好地展現給了聽眾。
?
下一個talk是自動化所申抒含老師講的基于圖像的大規模重建,整個發展方向是由稀疏點云重建,到稠密點云重建,到點云網絡重建,再到三維語義重建,三維矢量重建,最后到語義地圖重定位。
最后,場景的三維重建計算量非常大,主要還是基于幾何方法進行重建,如何使用深度學習的方法也是一個非常好的研究方向。
?
最后一位是香港科技大學的沈劭劼老師,他是無人機領域的大牛,主要講的3D視覺在無人機中的應用,聽得不是很明白。
?
通過這一次的workshop,還是了解了很多關于3D視覺方面最新的研究方向和研究成果,而且感覺3D方向還是存在著一定的門檻,不像深度學習比較好進入,國內做3D視覺的組也不是很多,每年的paper也不算多,可能3D視覺在未來會成為一個熱點問題。
?
遷移學習的前沿討論環節
1、為什么遷移學習這么熱?
龍明盛老師:
遷移學習關注的是學習模型的泛化能力,而在我們當前這個時代模型的泛化能力是一個永恒的話題。遷移學習從1995年提出,從05年到10年做了很多奠基的工作。從實驗科學上說:當今遷移學習的火熱主要是因為深度學習的發展,主要是證明了在大規模數據集上訓練出來的模型有非常好的遷移能力,是遷移學習又熱起來的關鍵。這些模型不只在自己領域上表現比較好,而且在相似領域上表現也比較好。從理論上說,對抗學習原理的引入也帶來了很大的進展,因為這兩個原理的理論是無縫銜接的。
段立新老師:
應用上:在傳統工廠環境的監控設備,各個工廠的場地、使用的流水線也都不相同。這些圖像就會有一些差異,如何把以前已經訓練好的模型,更好的遷移到新的場景上來,也是非常重要的。瑕疵檢測,不同物體,體現出的瑕疵不同。如不同的手機殼,這些瑕疵類型和采集的數據也有差異。工業界遷移學習可以用的場景特別多。
聶飛平老師:
可以舉一反三。深度學習起了很大推動作用,深度學習也是受了人腦的啟發所得到的模型。未來一些對人腦的思考可能也會帶動遷移學習的發展。
黃老師:
遷移的本質問題是得到泛化性能好的表達,而這些工業界恰恰是最需要的。
鄧成老師:
怎么樣把人的先驗引進來,遷移學習在不同的場景產生了很多的分支,這些需求也是帶動遷移學習火熱的原因。怎么樣在遷移方向下,利用人的知識,盡小量的去標注數據,來提高遷移學習的性能。
左旺孟老師:
怎么獲取數據和怎么標注數據還是個難題。遷移學習可以把這個問題分解開,如果一個域獲取數據和訓練模型相對容易,那就可以在這個域學一些模型,把這個域上的模型遷移到另外較難獲取數據的域上去使用。在一些場景,如無人車,并不會真實去撞車來制造場景,而是會采用仿真模擬的方法去制造數據,深度學習加遷移學習會降低解決問題的成本。而且仿真數據和互聯網數據獲取相對容易,也推動了遷移學習。
?
2、遷移學習和GAN網絡兩者本身到底有什么區別?
左旺孟老師:
遷移學習是GAN的具體應用。GAN在剛提出時使用并不多,反而到了16年人們感覺GAN可以和遷移學習做結合以后,使用越來越多。
黃老師:
GAN是大遷移概念下實現的工具,用GAN去減小域之間的差異,但是有時候不知道在什么情況下,域和域之間的差異可以比較好的減小,并沒有比較好的原則去定義,現在也在嘗試使用GAN的方式看是否能夠給不同域之間的轉化做一些方便。
段立新老師:
兩者可以互補相輔相成。遷移學習本身的理論體系還不是特別完善,如果能夠把GAN的一些理論放到遷移學習理論里來,指導遷移學習指導怎么去遷移,可能會使遷移學習的理論更完善。
龍明盛老師:
從歷史看,兩者沒有任何聯系,并且遷移學習是監督學習,而GAN是無監督學習。大概是因為學科融合,這兩者就體現了學科交叉和融合的趨勢。但是兩個領域研究的根本問題還是不一樣的,GAN更多在分布的逼近,而遷移學習在做的是兩個分布之間的匹配。
?
?
3、什么時候需要遷移適配,什么時候不需要?
段立新老師:
最后還是要以實驗結果說了算。如何在事前就知道遷移是否能給我們帶來比較好的結果,即通過兩個數據集可以提取的數據分布去判斷一個源域會不會給目標域帶來一個比較好的應用效果,可能是接下來一個比較好的研究方向。
加小助手微信,?加群獲取現場PPT:
文章推薦
自動駕駛中軌跡規劃的探索和挑戰
NLP for Quant:使用NLP和深度學習預測股價(附代碼)
計算機進行通用學習的原理、方法和工程模型
深度強化學習 | 用TensorFlow構建你的第一個游戲AI
干貨| 聊天機器人對知識圖譜有哪些特殊的需求?
總結
以上是生活随笔為你收集整理的干货 |VALSE 2019总结 --PPT 打包下载的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度学习小白专场之循环神经网络和递归神经
- 下一篇: Android端地图,百度地图学习(II