计算机视觉Computer Vision的尴尬---by林达华
生活随笔
收集整理的這篇文章主要介紹了
计算机视觉Computer Vision的尴尬---by林达华
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
Computer Vision是AI的一個非常活躍的領域,每年大會小會不斷,發表的文章數以千計(單是CVPR每年就錄取300多,各種二流會議每年的文章更可謂不計其數),新模型新算法新應用層出不窮。可是,浮華背后,根基何在?
對于Vision,雖無大成,但涉獵數年,也有管窺之見。Vision所探索的是一個非常復雜的世界,對于這樣的世界如何建模,如何分析,卻一直沒有受普遍承認的理論體系。大部分的研究工作,循守著幾種模式:
o????從上游學科(比如立體幾何,機器學習,優化等等)獲取現成方法,略加變化,套用于某一具體應用。?
o????對現有的某個模型方法的一些不足之處,加以改進,比如在formulation中加入或者簡并參數,或者調整求解過程。?
o????選擇多個方法組成一個應用系統。?
這些工作實實在在解決了很多問題,功不可沒。然其不足在于,一事一法,難成積淀。故此,每年新發表之工作,雖汗牛充棟,蔚為大觀,就核心學理,與十年二十年前之狀態相比,沒有根本突破。
過去一年,在導師們的啟發下,涉獵一些其它學科,方知學問之博大,自己以往卻是一直坐井觀天。在這里其實非常感謝Alan的啟發,他一般沒有很具體的指導,但是他往往會說“你可以看看某某領域,這個問題可能在幾十年前已經被他們在另外一個context下面解決了。”剛開始的時候,我不是很服氣——我在Vision的literature的survey表明它在vision里面確實是新問題——不過,當我看到那些領域的文章的時候,不得不佩服Alan的廣博知識和對根本不同的領域中的相似問題的洞察力。
我不打算具體討論一個topic,但是,我建議做vision的朋友在有時間的時候去看看一些表面應用完全不同,但是核心學理卻是相通的領域。?
o????做Sampling, particle filtering的,不妨看看統計物理學(Statistical Physics),他們對于蒙特卡羅方法已經應用數十年,積累極深,很可能在vision或者learning提出的一些新方法,已經是被他們以另外一種形式或者名稱提出過了。
o????做Tracking, video, 和optimization的,可以看看控制論(Control theory)。控制科學對于動態系統(或者其它隨時間變化的過程)的研究極為透徹。Alan本來是做控制的,正式他幾次強烈的建議下,我才去看動態系統論和控制論,看過一些章節后有如醍醐灌頂。我曾經自己花了不少時間導出的一組矩陣微分方程的解,就是control theory里面已有深入探討的Peano-Baker series在一定條件下的形式。至于做傳導模型或者semi-supervised learning的,控制論中的許多觀點和方法也是很有幫助的。
o????做Graphical model,和各種統計模型的,信息論(information theory)是肯定必要的,這個不用我在這啰嗦了。有一門叫做信息幾何學(information geometry),也值得一觀。
比較之下方顯差距。很多做Vision的朋友都是理論愛好者,喜歡在paper里面列舉公式以彰顯“理論深度”——可是,我看過的大部分的文章中的公式推演,一般都是循規蹈矩的推導,其水平未必勝于求解一道經典教科書中的數學習題。誠然,這種推理演繹是整個研究中不可缺少的部分,寫在文章中也無可厚非,但是,如果僅此則把推演結果列為theoretical contribution,則不免為過了。真正意義的理論貢獻者,不在文中公式多寡,也不在數學深淺,而在于是否能對問題的內在原理展開深入剖析,有所發現,言人之未嘗言,給人以新的啟發。
作為經典物理基礎的牛頓三定律,從現在vision領域的眼光看來,不過是對實驗的總結,所得結論,除了第二定律有一簡單乘法公式(往高深處說,也不過是常系數線性二階常微分方程)之外,并無太多數學深入其中。雖如此,經典物理的巍峨大廈由此奠定。也許這個例子類比Vision的研究,未必恰當,但是,它起碼可以說明,理論貢獻之義在于去蕪存菁,也就是排開紛繁復雜的表象,發掘那個深刻但是簡單的規律。可是,在vision paper宣稱的理論貢獻中,有多少循此義而行,又有多少在鉛華凈盡之后留傳下來。
縱理論上根基不足,但Vision終究是應用學科,若能廣泛應用則其意義必能發揚。雖然經過幾十年努力,vision確實在社會生活中有了不少各種應用,不過比起其它學科則相形見拙。且不說諸如通信,軟件工程之類早已在全球形成龐大產業,與vision有更多聯系的video coding,signal processing, 和medical image,其應用之深廣也為vision所望塵莫及。vision沒能形成應有的工業應用,一則確實是它面臨的實際問題困難重重,實用水平不易達到,二則與我們的研究在相當程度上脫離實際有著很大關聯。
以我以往在香港學習時所做的face recognition來說,這是一個應用性很強的topic,歷史也不短,但在實際條件下的識別水平,做這個的朋友也心里明白。很多人在研究這個topic,發表的“新方法”也不少,在paper上識別正確率不達到90%是拿不出手的——可是在那幾個標準庫(即使是最新的FRGC)上做出的性能和實際的有多大的差距?很多工作assume頭像區域都對齊良好,光照條件規則,在此條件下研究出來的算法即使能達到100%的識別性能,在環境極為復雜的條件下能真的應用么?直到今天,大批文章仍在樂此不疲地討論各種subspace, kernel, svm, boosting的變化花樣,卻從不思考人臉識別的真正要素所在,難道不是舍本逐末之舉。?
與此同時,許多在實際工程實踐中的trick,為性能提高立下汗馬功勞,卻因為沒有“理論深度”,不登大雅之堂,即使見諸論文,也是在實驗部分草略帶過。然而,一個方法,無論其最初提出是否有理論依據,如果確實能解決問題,則必有其原因。若能靜下心來,暫時忘記那些僅憑思辨就形成的所謂美妙理論,下功夫探究一些確實能解決問題的方法背后所原之學理,其意義不是更大么。也許每個這樣的工作都很細小,真能積累下來,假以時日,在推動某個方面的應用上必有實實在在的進益。其中,也可能有機會總結出一些真正有價值的理論。
自誕生以來,Vision的發展已歷數十年,不過和許多領域相比,仍處于初始階段,根基尚顯孱弱混亂。唯因如此,對身處其中的研究者,更具挑戰意義,而每一個真正的貢獻也顯得特別有價值。治學之道,不在追逐潮流,而在深原其理。這是新學期新帳號第一次寫blog,謹以此,和每一位熱愛研究的朋友共勉。
對于Vision,雖無大成,但涉獵數年,也有管窺之見。Vision所探索的是一個非常復雜的世界,對于這樣的世界如何建模,如何分析,卻一直沒有受普遍承認的理論體系。大部分的研究工作,循守著幾種模式:
o????從上游學科(比如立體幾何,機器學習,優化等等)獲取現成方法,略加變化,套用于某一具體應用。?
o????對現有的某個模型方法的一些不足之處,加以改進,比如在formulation中加入或者簡并參數,或者調整求解過程。?
o????選擇多個方法組成一個應用系統。?
這些工作實實在在解決了很多問題,功不可沒。然其不足在于,一事一法,難成積淀。故此,每年新發表之工作,雖汗牛充棟,蔚為大觀,就核心學理,與十年二十年前之狀態相比,沒有根本突破。
過去一年,在導師們的啟發下,涉獵一些其它學科,方知學問之博大,自己以往卻是一直坐井觀天。在這里其實非常感謝Alan的啟發,他一般沒有很具體的指導,但是他往往會說“你可以看看某某領域,這個問題可能在幾十年前已經被他們在另外一個context下面解決了。”剛開始的時候,我不是很服氣——我在Vision的literature的survey表明它在vision里面確實是新問題——不過,當我看到那些領域的文章的時候,不得不佩服Alan的廣博知識和對根本不同的領域中的相似問題的洞察力。
我不打算具體討論一個topic,但是,我建議做vision的朋友在有時間的時候去看看一些表面應用完全不同,但是核心學理卻是相通的領域。?
o????做Sampling, particle filtering的,不妨看看統計物理學(Statistical Physics),他們對于蒙特卡羅方法已經應用數十年,積累極深,很可能在vision或者learning提出的一些新方法,已經是被他們以另外一種形式或者名稱提出過了。
o????做Tracking, video, 和optimization的,可以看看控制論(Control theory)。控制科學對于動態系統(或者其它隨時間變化的過程)的研究極為透徹。Alan本來是做控制的,正式他幾次強烈的建議下,我才去看動態系統論和控制論,看過一些章節后有如醍醐灌頂。我曾經自己花了不少時間導出的一組矩陣微分方程的解,就是control theory里面已有深入探討的Peano-Baker series在一定條件下的形式。至于做傳導模型或者semi-supervised learning的,控制論中的許多觀點和方法也是很有幫助的。
o????做Graphical model,和各種統計模型的,信息論(information theory)是肯定必要的,這個不用我在這啰嗦了。有一門叫做信息幾何學(information geometry),也值得一觀。
比較之下方顯差距。很多做Vision的朋友都是理論愛好者,喜歡在paper里面列舉公式以彰顯“理論深度”——可是,我看過的大部分的文章中的公式推演,一般都是循規蹈矩的推導,其水平未必勝于求解一道經典教科書中的數學習題。誠然,這種推理演繹是整個研究中不可缺少的部分,寫在文章中也無可厚非,但是,如果僅此則把推演結果列為theoretical contribution,則不免為過了。真正意義的理論貢獻者,不在文中公式多寡,也不在數學深淺,而在于是否能對問題的內在原理展開深入剖析,有所發現,言人之未嘗言,給人以新的啟發。
作為經典物理基礎的牛頓三定律,從現在vision領域的眼光看來,不過是對實驗的總結,所得結論,除了第二定律有一簡單乘法公式(往高深處說,也不過是常系數線性二階常微分方程)之外,并無太多數學深入其中。雖如此,經典物理的巍峨大廈由此奠定。也許這個例子類比Vision的研究,未必恰當,但是,它起碼可以說明,理論貢獻之義在于去蕪存菁,也就是排開紛繁復雜的表象,發掘那個深刻但是簡單的規律。可是,在vision paper宣稱的理論貢獻中,有多少循此義而行,又有多少在鉛華凈盡之后留傳下來。
縱理論上根基不足,但Vision終究是應用學科,若能廣泛應用則其意義必能發揚。雖然經過幾十年努力,vision確實在社會生活中有了不少各種應用,不過比起其它學科則相形見拙。且不說諸如通信,軟件工程之類早已在全球形成龐大產業,與vision有更多聯系的video coding,signal processing, 和medical image,其應用之深廣也為vision所望塵莫及。vision沒能形成應有的工業應用,一則確實是它面臨的實際問題困難重重,實用水平不易達到,二則與我們的研究在相當程度上脫離實際有著很大關聯。
以我以往在香港學習時所做的face recognition來說,這是一個應用性很強的topic,歷史也不短,但在實際條件下的識別水平,做這個的朋友也心里明白。很多人在研究這個topic,發表的“新方法”也不少,在paper上識別正確率不達到90%是拿不出手的——可是在那幾個標準庫(即使是最新的FRGC)上做出的性能和實際的有多大的差距?很多工作assume頭像區域都對齊良好,光照條件規則,在此條件下研究出來的算法即使能達到100%的識別性能,在環境極為復雜的條件下能真的應用么?直到今天,大批文章仍在樂此不疲地討論各種subspace, kernel, svm, boosting的變化花樣,卻從不思考人臉識別的真正要素所在,難道不是舍本逐末之舉。?
與此同時,許多在實際工程實踐中的trick,為性能提高立下汗馬功勞,卻因為沒有“理論深度”,不登大雅之堂,即使見諸論文,也是在實驗部分草略帶過。然而,一個方法,無論其最初提出是否有理論依據,如果確實能解決問題,則必有其原因。若能靜下心來,暫時忘記那些僅憑思辨就形成的所謂美妙理論,下功夫探究一些確實能解決問題的方法背后所原之學理,其意義不是更大么。也許每個這樣的工作都很細小,真能積累下來,假以時日,在推動某個方面的應用上必有實實在在的進益。其中,也可能有機會總結出一些真正有價值的理論。
自誕生以來,Vision的發展已歷數十年,不過和許多領域相比,仍處于初始階段,根基尚顯孱弱混亂。唯因如此,對身處其中的研究者,更具挑戰意義,而每一個真正的貢獻也顯得特別有價值。治學之道,不在追逐潮流,而在深原其理。這是新學期新帳號第一次寫blog,謹以此,和每一位熱愛研究的朋友共勉。
總結
以上是生活随笔為你收集整理的计算机视觉Computer Vision的尴尬---by林达华的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Li Fei-fei写给她学生的一封信,
- 下一篇: 机器学习的数学基础(1)--Dirich