當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

计算机视觉研究入门全指南----新手博士需要准备的资料

發(fā)布時間：2025/5/22 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了计算机视觉研究入门全指南----新手博士需要准备的资料小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

這篇文章從一個剛剛開始計算機視覺研究的初學者的角度，詳細探討了這個領域的文獻、專家學者、研究組、博客，并重點說明了如何開始研究，如何選擇方向，如何看論文、實現(xiàn)代碼、調試代碼等，并詳細說明了研究計算機視覺應該如何學習機器學習等。是初入該領域的博士、學者的非常值得詳細考察和收藏的參考。（52CV.NET注釋）

由于微信公眾號限制，文中很多超鏈接無法點擊，訪問https://www.52cv.net/?p=524 ，可以查看完整文章。

頂級會議和期刊

第一梯隊頂級會議: CVPR, ECCV, ICCV, NIPS, IJCAI
高聲譽第二梯隊的頂級會議: BMVC
著名的第二梯隊頂級會議: ICIP, ACCV, ICPR, SIGGRAPH
頂級期刊: PAMI, IJCV
著名期刊: CVIU, IVC
Microsoft Academic Research 列出的?頂級會議
Ranks from?Core
Ranks from?Arnetminer
source?列出了近幾年的會議論文
journal?列出了期刊的影響因子
來自?EigenFactor?的期刊分數(shù)

頂級專家作者

微軟學術Microsoft Academic authors?list
谷歌學術Google Scholar?List
HOG 特征作者?Navneet Dalal
Jitendra Malik.
Gary Bradski?OpenCV創(chuàng)始締造者
David Lowe?SIFT特征發(fā)明人
List of?vision people?(but not necessarily top authors)
Computer Vision: Algorithms and Applications by?Richard Szeliski

頂級研究組

Check them?here
Check others?here
CMU: Robotics everywhere.
LEAR
ImageLab Group
Machine Vision Laboratory at UWE
ALCOR
Centre for Image Processing and Analysis (CIPA)
ImageMetry
VISILAB
GRIMA – Machine Intelligence Group
Vision and Sensing Research Group – University of Canberra
CAVE – Computer Vision Laboratory at Columbia University
Computational Biomedicine Laboratory (CBL), University of Houston
Vision Lab – University of Antwerp.

Visual Geometry Group, Oxford UK (Andrew? Zisserman’s group)
LEAR, Grenoble, France (Cordelia Schmid’s group)
WILLOW, Paris France (Jean Ponce’s group)
CVLAB EPFL, Laussane Switzerland (Pascal Fua’s group)
Computer vision group ETH, Zurich Switzerland (Luc Van Gool’s group)
UCB (Malik, Darrel, Efros)
UMD (Davis, Chellappa, Jacobs, Aloimonos, Doermann)
UIUC (Forsyth, Hoiem, Ahuja, Lazebnik)
UCSD (Kriegman)
UT-Austin (Aggarwal, Grauman)
Stanford (Fei-Fei Li, Savarese)
USC (Nevatia, Medioni)
Brown (Felzenszwalb, Hays, Sudderth)
NYU (Rob Fergus)
UC-Irvine (Ramanan, Fowlkes)
UNC (Tamara Berg, Alex Berg, Jan-Michael Frahm)
Columbia (Belhumeur, Shree Nayar, Shih-Fu Chang)
Laboratory for Computational Intelligence, University of British Columbia, Vancouver (David Lowe’s group)
Computer Science Department, University of Toronto, Toronto (Deep Learning fame Hilton, Srivastava, Salakhutdinov)
Centre for Vision Research, York University, Toronto

博客

Tomasz Malisiewicz?blog
The Serious Computer Vision?Blog
Research?blog?of Roman Shapovalov
Computer Vision?Talks
Steves Computer Vision?Blog
The Computer?Vision
Computer Vision?Blog
Andy’s Computer Vision and Machine Learning?Blog
Computer Vision?Models
solem’s vision?blog
uncannyvision?blog
Blogs?on Computer Vision, Machine Vision and Image Processing
All About Computer?Vision
Open Computer?Vision

CV工業(yè)界的實驗室和創(chuàng)業(yè)公司

Microsoft and Google
IBM Research
NEC Labs America
Acute3D?(Sophia Antipolis, France) was founded in 2011.
Bubbli
ShoppTag
Oculusai
Videosurf (video search)
Willow garage (robotics)
Sportvision (sports broadcast)
Intelli-vision (surveillance)
Gauss Surgical
Adobe’s?Advanced Technology Labs
Dolby

如何開始研究

我喜歡把計算機視覺問題分為兩種類型
一些研究方向設計到人工智能基于學習的方法。比如圖像分類，OCR，視頻跟蹤等
- 大多數(shù)你所能看到的論文都是這種方向的.
- 學習意味著我們有很多數(shù)據(jù) (e.g. 比如ImageNet，100萬圖像和他們的標簽）,然后學習這種模式? (e.g. 比如分類圖像中的字符)
- 對這種類型的方向，你必須學習很多機器學習的知識
其他研究方向涉及到不需要學習的算法，比如3D重建，光流計算，全景拼接（52CV.Net評論：其實現(xiàn)在3D重建和光流估計已經(jīng)有很多基于學習的算法了，可在本站搜索關鍵字獲取相關信息）

使用課本和課程

一種直接的方法是從書本開始
不要被困在書本里。請記住，你想開始研究。嘗試了解基礎知識并進行一些編碼。保持你的眼睛定睛在對你來說最近有趣的工作上。
嘗試找出不同的研究視覺問題..看哪個更令你興奮。
然后你要進入下一個階段: “從論文開始”

從論文開始

從頂級會議和期刊的論文開始。其他低級別的會議可能會有虛假結果并浪費您的時間。
- CVPR保留重要會議和許多論文的清單。
- 使用文件知道什么是可用的軌道.. Wiki也會有幫助
- 使用Google Scholar查找特定問題的綜述。綜述可以節(jié)省大部分時間。
- 考慮最近過去3年的論文。假設我們在2014年，考慮2011年，然后是2012年，然后是2013年。不要從2014年開始。
- 收集文件，使標題看起來相關。搜索他們找到是否有源代碼。嘗試從源代碼文件開始。
開始將是艱難的，因為你遇到了許多你不知道的術語和工具。耐心一點。谷歌搜索他們，在論壇上提問，如Quora或Stackoverflow。
嘗試找到一個特定研究方向（例如3D重建，點云，場景理解，物體識別，大圖像數(shù)據(jù)，多目標跟蹤，圖像描述符理論等）。查看wiki或會議論文目錄以查找您感興趣的內容。
使用會議來了解某方向論文或使用Google學術搜索
關注那些研究工作更權威的的研究人員。關注高引用次數(shù)文獻。
首選從有運行軟件的研究工作開始，節(jié)省你的時間。
為了學習一些工程實現(xiàn)方向，請為您選擇一個簡單而漂亮的論文然后實現(xiàn)它。復現(xiàn)論文的結果。在這樣做的時候，會有很多問題彈出，很多時候你將不得不做一些假設，因為你所看到的論文中通常并不是所有的都提到了。還有許多實現(xiàn)細節(jié)，比如如何有效地實現(xiàn)這一點不會被列出。您將了解諸如性能，實驗等問題?？蛇x擇的論文比如：Viola Jones face detection, Christophe Lampert?Efficient Subwindow Search, or Brian Fulkerson superpixel neighborhoods 等。實現(xiàn)具有完整代碼的論文是一個非常好的主意，以便您可以檢查自己的實現(xiàn)有什么問題。
對于你自己的研究工作，要嘗試使用現(xiàn)有開源代碼，而不是一切都從頭開始，不要重復造輪子！
如果論文沒有公開代碼，你可以嘗試聯(lián)系作者是否可以得到代碼。
如果理解幾次嘗試理解一篇論文仍然很難，就轉到另一片論文。或者換一個方向。（這是你在尋找研究方向的時候）
這也許對你有用，最佳獲獎論文集
研究生研討課程取決于論文。

從代碼開始

從代碼到紙張，是從一些可用的代碼開始理解你所研究的問題
找一個開源庫，然后嘗試它，比如OpenCV
- 有很多不錯的書關于OpenCV
- Youtube 上也有不少視頻：
- https://www.youtube.com/playlist?v=MfnEtFAWooQ&list=PLo1wvPF7fMxQ_SXibg1azwBfmTFn02B9O
- https://www.youtube.com/playlist?v=xEnPZ78queI&list=PLDqunwM5dbtIbEuXv1rB7OFBoRzEF8GH6
- https://www.youtube.com/playlist?v=IwsHuSITs3c&list=PLTgRMOcmRb3PvUZpNTRsdkzVuZ4z_s444
- https://www.youtube.com/playlist?v=cgo0UitHfp8&list=PLvwB65U8V0HHCEyW2UTyOJym5FsdqfbHQ
學習Matlab并使用它來編寫初始解決方案原型（因為它往往比較快的能夠開發(fā)出原型）
Helpful: Join OpenCV?yahoo group?and read comments & messages.
選擇一個有意思的toy項目并實現(xiàn)它

機器學習

機器學習是從數(shù)據(jù)中學習的核心算法。
對于計算機視覺而言，特別是初學者，最開始的時候你不需要學習太多機器學習。你可以像黑箱一樣使用他們就夠了
- 順便說一下，這是一個艱難的領域。要成為專家，你需要付出大量時間。
你想要在這個領域成長夠多，你就要關注更多的細節(jié)。
最開始，您只需要學習一些基礎知識+最近使用的算法。
每4-5年，都有一些算法在文獻中流行
- 例如3年前（2012年之前，52CV.NET注），SVM非常受歡迎
- 如今（2014年，2015年），深度學習往往有最好的表現(xiàn)。
建立該領域的基礎知識：
- 在Coursera 上完成Andrew NG?機器學習課程。
了解最近使用的算法是什么
- 嘗試閱讀有關這些算法的更多信息
- 嘗試做一些編碼。搜索流行的工具并使用它們
- 例如對于SVM（libsvm），CNN（Caffe）
- 要么詢問一些專業(yè)人士
- 或在您的問題中下載2-3年范圍內的頂級會議論文。瀏覽它們并且知道他們使用了什么學習算法。
- 總的來說應該是很少重復的人。多關注他們
- 然后
現(xiàn)在，您可以回到前面論文/書籍并繼續(xù)閱讀，當涉及ML時，您會發(fā)現(xiàn)主題更加容易。
更加進深
- 請參閱Andrew Nn Standford?Machine Learning Course
- 其他網(wǎng)絡上的視頻和書籍
- 請參閱Mostafa博士的”Learning From Data“視頻。
- 學習Waleed博士的CS395: Pattern Recognition?。
- 教科書：Pattern Recognition and Machine Learning
- 要更多地了解學習如何發(fā)生？
- 了解更多算法主題和背后的數(shù)學

一些推薦論文

很難說什么是好的論文。也許就是更好地確定問題并作為參考。
視覺中的頂級刊物
What are the must-read papers?什么是計算機視覺領域的必讀文章？讓學生在這個領域進行研究？
非常有用的大學課程
- CS395T：視覺識別，2012年秋季
- CMPT888：2010年夏季人類活動識別
- CMPT882：計算機視覺中的識別問題，2009年夏季

積累經(jīng)驗

在獲得博士學位時，您通常會學會處理所有這些問題
您如何高效可靠地解決研究中的所有問題？為了了解所有這些問題，您基本上必須成為研究小組的成員幾年。如果你在一個專注于物體檢測的實驗室里，你周圍會有很多學生在解決相同的問題，在深夜與同學交談是我知道你可以獲得專業(yè)知識的唯一途徑了解：多交流打聽。
您如何調試代碼并有效調整參數(shù)？最佳實踐是看更高級學生的優(yōu)秀代碼。在開始調試機器學習算法之前，您應該總體上熟悉調試。調試機器學習算法不像調試快速排序。如果你修正了所有的錯誤，你的算法可能仍然不起作用，可能是因為其他問題，比如缺乏數(shù)據(jù)，模型復雜度太低等等。坦率地說，調試視覺/學習算法更像是藝術而不是科學。
調整您未編寫的算法或軟件庫的參數(shù)并非易事。您應該學會如何正確使用驗證數(shù)據(jù)，了解如何運行完整的訓練/評估流程，并準備好進行交叉驗證。
你如何用個人電腦實現(xiàn)大規(guī)模的問題？（對于圖像/視頻分析，可能會有大量的數(shù)據(jù)超出你的內存，如何處理它？）一般來說，你不會實現(xiàn)一個大的在一臺PC上出現(xiàn)問題。我在研究生院學到的最有價值的技能之一就是如何在群集中并行計算。沒有群集的大學/實驗室很難與擁有大中型集群的大學競爭。這也是許多教授加入Google和Facebook等組織的原因之一 —他們擁有數(shù)據(jù)和計算資源，可以讓高級研究人員處理越來越多的大型問題。
如果您無法訪問大型集群，那么我會建議您在Google這樣的地方申請實習。你會在那里學到很多東西（至少我是）。雖然你無法將自己編寫的任何代碼帶回家，但是你會學到很多課程，這些課程會影響你作為學生的生活。如果你必須在一臺機器上工作，你將不得不將數(shù)據(jù)集切割成更小的塊，并逐漸將塊加載到內存中。

材料

在線視頻和會談

在線課程：離散推理和人工視覺學習
UCF計算機視覺視頻講座：視頻
EGGN 512 – 計算機視覺視頻
視頻講座包括許多計算機視覺。
技術會談??對于一些會議，如ICML2011，他們主持視頻中的大部分（全部）會談。其他人，如CVPR2011，只有選定的視頻。這是了解大量近期工作而不依賴閱讀報告的好方法。
CVPR2010，他們?yōu)闀勚鞒至撕芏嘁曨l。他們也有很多夏季學校的ML視頻。
Wired，IEEE Spectrum，TechCrunch，TED，BigThink，Sixty Symbols，GISCIA，http://www.youtube.com/user/GoogleTechTalks，

課程

計算機視覺簡介（斯坦福大學;李飛飛教授）相當標準的CV課程。
計算機視覺（UIUC; Forsyth教授）相當標準的簡歷課程。
視覺中的基于學習的方法（CMU; Alexei Efros教授）我學習了很多關于紋理（紋理）識別和一些使用花式ML技術的最先進的方法。
基礎物體識別和場景理解??（CMU; Antonio Torralba教授）這是一個持續(xù)不斷的課程，側重于更高層次的視覺。第一場講座看起來很有前途，但我不確定班上的其他人會是什么樣子。
機器視覺MIT?課程
計算機視覺麻省理工學院課程進展

計算機視覺

計算機視覺：模型，學習和推理??– 這是一個很好的（免費的！）預印本，主要傾向于機器學習。每個部分都提供了一套涉及的模型或機器學習工具的背景以及推理方法。開始是對必要概率和機器學習概念的深入概述。我剛開始閱讀本書，但對于獲取零件模型和形狀模型等概述非常有用。
計算機視覺：算法和應用??– Richard Szeliski。一本調查書。這是更傳統(tǒng)的教科書，在許多目前的CV課程中都有引用，如李飛飛的上述內容以及我校目前的CV課程（JHU）。
計算機視覺中的多視圖幾何 – Richard Hartley和Andrew Zisserman
計算機視覺現(xiàn)代方法 – David Forsyth和Jean Ponce
視覺對象識別：人工智能和機器學習綜合講座 – Kristen Grauman和Bastian Leibe
由Trucco和Verri介紹3D計算機視覺
Digital Image Processing 3rd Edition by Gonzales and Woods
圖像分析的實用算法
http://www.computervisiononline.com/books

計算機視覺和圖像處理編碼

用Python編程計算機視覺 – Jan Erik Solem
學習OpenCV – Gray Bradski和Adrian Kaehler
數(shù)字圖像處理基礎：Matlab中的實例 – Chris Solomon和Toby Breckon

人類視覺

視覺：視覺信息的人類表現(xiàn)和處理的計算調查 – David Marr
邁向視覺信息理論的步驟：主動感知，信號 – 符號轉換以及傳感與控制之間的相互作用 – Stefano Soatto
基本視覺：視覺感知介紹 – 羅伯特斯諾登，彼得湯普森和湯姆Troscianko
用Python編程計算機視覺

其他

CV論文是來自視覺會議的近期計算機視覺論文集。
視覺識別和機器學習暑期學校，格勒諾布爾，2012
我會參加一些機器學習課程，并參加信號處理/時頻分析/小波分析的一些課程。

精彩的應用程序

永不停止圖像學習（NEIL）
- 這是一個計算機程序運行24X7瀏覽互聯(lián)網(wǎng)從互聯(lián)網(wǎng)數(shù)據(jù)提取視覺信息。它得到了谷歌和國防部海軍研究辦公室的支持。
- 它目前識別對象 – 對象關系，對象 – 屬性關系，場景 – 對象關系，場景 – 屬性關系
人臉檢測
網(wǎng)球追蹤
與深度相機的身體姿勢估計
微軟展示的3D掃描技術，Heads Turn
顏色變化顯示人血流量
只有公共Flickr照片才能在3D中重建整個城市
自主物體，例如自駕車
Predator對象跟蹤
Kinect Fusion?– 從移動Kinect實時3D模型構建
Veebot，一個采集血液樣本的機器人
Harp：檢測激光的中斷以播放音符（簡單，強大）。Piano。
Google照片搜索
Physical security
PTAM是AR的重要應用
谷歌眼鏡
谷歌街景：在街道層面捕捉世界
Word Lens：基于增強現(xiàn)實相機的語言翻譯應用程序。手機攝像頭可以識別一種語言的文本，并顯示用另一種語言翻譯的文字。我發(fā)現(xiàn)關于這個應用程序的最好的東西是翻譯是在沒有連接到互聯(lián)網(wǎng)的情況下實時執(zhí)行的！
CarSafe：該應用程序使用計算機視覺和機器學習算法來監(jiān)視和檢測駕駛員是否疲倦或分心，同時使用兩臺獨立的攝像機跟蹤道路狀況。本文提供了一些細節(jié)和結果：CarSafe：駕駛員安全應用程序，可在智能手機上使用雙攝像頭檢測危險駕駛行為
iOnRoad：這是一款使用Qualcomm FastCV移動優(yōu)化計算機視覺庫的移動駕駛輔助系統(tǒng)應用程序。它使用智能手機的本機相機和傳感器來執(zhí)行各種功能。該應用程序具有先進的功能，如前方碰撞警告，車道偏離警告，車頭監(jiān)控和汽車定位器。
Jumio：用于在線和移動簽出的實時信用卡掃描和驗證應用程序。他們還在許多國家提供護照和執(zhí)照的身份證明。

令人興奮的算法

HOG特征+線性SVM對物體檢測非常有用。
- 基于部件的HOG + SVM
- 基于范例的HOG + SVM
RANSAC（RANdom SAmple Consensus） – 簡單/強大/魯棒
- 高維數(shù)據(jù)是存在低維結構內。
- 最優(yōu)隨機RANSAC
- 與PROSAC匹配?– 漸進樣本共識
霍夫變換算法
基于KD森林的近似最近鄰算法
馬爾可夫隨機場
2D圖像拼接，圖像挖掘，帶有SIFT算法的紋理對象的三維重建
SURF
Viola-Jones：人臉檢測
形狀上下文
可變形零件模型
同時定位和映射?Simultaneous localization and mapping

其他

工作機會

CVPR?招聘職位
http://www.computervisiononline.com/jobs
加入LinkedIn并查看圖像處理或計算機視覺興趣小組。
Adobe的高級技術實驗室http://www.adobe.com/technology/ …

數(shù)據(jù)集

點擊這里
數(shù)據(jù)集匯總
跟蹤視頻
網(wǎng)絡上有太多…… Google。

軟件

我的清單
http://www.computervisiononline.com/software
http://www.computer-vision-software.com/blog/

截止日期

活動
日歷

有用的網(wǎng)站

谷歌學術
- 頂級刊物
- Google學術搜索可以告訴你更多關于研究人員的信息。
- Google Scholar可以告訴你更多關于論文的信息
微軟學術研究
- 您可以查看某個領域排序的頂級關鍵人物
- 您可以在一個領域獲得頂級會議和期刊
- 你可以知道關于人的引用來了解工作質量。如果某人有100個和100個引用，看起來每個作品都被1個人使用。另一方面，如果引用10000，則平均被100個作品引用。第二個有更強大的參考價值。
http://www.scopus.com/
http://wokinfo.com/products_tools/analytical/jcr/
http://www.computervisiononline.com
http://www.computervisioncentral.com/
http://computervision.wikia.com

Ad-hocks

ICCV Marr獎
計算機視覺和商業(yè)應用
ImageNet挑戰(zhàn)
PASCAL挑戰(zhàn)
Imageworld用于發(fā)布計算機視覺，圖像分析和醫(yī)學圖像分析領域的全球事件和學術工作機會。
機器人比賽
什么是Deep Learning仍然無法解決的一些計算機視覺任務？
Awesome Computer Vision
Awesome Deep Vision
Emails Digest in Vision

鏈接

學習計算機視覺需要了解哪些數(shù)學知識？

總結

以上是生活随笔為你收集整理的计算机视觉研究入门全指南----新手博士需要准备的资料的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：为什么说现在是计算机视觉最好的时代？
下一篇： OpenCV计算机视觉编程攻略之提取图片