从近两年的CVPR会议来看,目标检测的研究方向是怎么样的?
1:使用region proposal的,目前是主流,比如RCNN、SPP-Net、Fast-RCNN、Faster-RCNN以及MSRA最近的工作R-FCN。
2:不使用region proposal的,YOLO,SSD。
從我這個渣渣的視野來看,這些工作都體現的一個趨勢:如何讓不同ROI之間盡量多的共享計算量,并充分利用CNN得到的特征,使得整個detection的速度變快。
具體說來,我們先回憶一下基于region proposal的方法的大致流程是什么樣的:
1. 從待檢測的圖片中,提取出N個ROI,這里N遠大于圖片中真實object的個數。具體的方法有selective search、edge box以及最近流行起來的RPN。
2. 根據1中檢測到的ROI,上CNN對圖像進行feature extraction。
3. 對2中得到的feature進行分類,比如對于PSACAL VOC數據,就是一個21分類的問題(20個object class+background)。
4. boudningbox regression。
然后我們回到之前說的讓ROI之間盡量多的共享計算量的問題。
RCNN對于每個ROI,都跑一遍CNN,即使這些ROI之間是有overlap的,顯然有部分計算是重復的,所以SPP-net和fast rcnn就在這方面做了文章,具體做法是先用CNN抽取整張圖的特征,然后利用ROI pooling抽取對應ROI的特征,使得不同ROI共享特征提取的計算量。結果就是原來我處理一張圖像需要前向2000次CNN,現在只要前向一次就好了,極大的提升了計算速度。fast rcnn還通過multi-task loss實現了一個end to end 的系統,這里不是我們的重點。
fast-rcnn提出來之后,detection的性能瓶頸變成了計算region proposal。CPU實現的selective search處理一張圖需要2秒鐘,遠大于GPU上CNN特征抽取的時間。Faster RCNN就是要解決這個問題,他的出發點是這樣的:既然用CNN進行feature extraction這一步已經無法避免,那么我們為什么不更充分地利用得到的feature?具體來說,我們是不是可以直接用CNN得到的feature來進行region proposal,答案是肯定的。Faster RCNN將CNN得到的feature輸入到一個兩層網絡(RPN),網絡的輸出就是region proposal。這樣一來,region proposal的額外開銷就只有一個兩層網絡。實驗證明這樣不僅速度變快,而且proposal的質量也更高了。
到目前為止,上面我們說的4個步驟中,第1步和第2步都可以通過前向一遍CNN來得到,所以前倆步都不再是速度的瓶頸。然后我們考慮第3步,假設我們用faster rcnn的RPN得到了300個region proposal,在預測的過程中,我們需要對300個region proposal去做分類,即我們要處理300個多分類問題,如果我們用one vs rest來實現多分類,每遍就是21個二分類線性svm(也可以用一個softmax-log loss的線性分類器,但是計算量和21個二分類svm差不多),這樣的話每次預測就要跑6300個二分類器,即使是線性分類器,這個時間仍然是很大的,所以就有了R-FCN這個工作。具體來說,是先利用FCN進行類似semantic segmentation的計算,然后利用ROI對相應的區域進行average pooling,得到整個ROI關于21個類別的置信度。簡單的說就是把分類這個過程也融合到網絡的前向計算過程中,由于這個過程對于不同的ROI是共享的,所以比單獨跑分類器要快好多。文章里還有一個position-sensitive的idea,也很有趣,不過感覺給我一種”這也能行“的感覺,應該是我少見多怪,理解不了大神的世界。
個人感覺object detection是一個比較考驗insight以及”讓一個idea真正能work的能力“的方向,不像semantic segmentation,后者現在的提升很多靠CRF,有陷入”圖模型加圈“(傳說中水論文三大法寶之一)的趨勢,對數學要求比較高。
以上只是個人讀paper的心得,可能作者們當時并不是這么想的,如有沖突,純屬我瞎bb。。。 編輯于 昨天 19:47?3 條評論?感謝? 分享 ?收藏???沒有幫助???舉報???作者保留權利 6贊同 反對,不會顯示你的姓名 文刀叉點?,知之為不知 6?人贊同 但凡能和分類哪怕扯上一點點關系的,淪陷深度學習只是早晚的事情
話說分割其實本質上也是個分類問題(0-1 mask),so 你懂的
別糾結了,一切都是老黃的陰謀,終結者以后一定是NV給造出來的 發布于 2016-06-06?添加評論?感謝? 分享 ?收藏???沒有幫助???舉報???作者保留權利 18贊同 反對,不會顯示你的姓名 機智的大群主?,硬創公開課,用技術洞見未來 18?人贊同 大群主非常贊同樓上?@文刀叉點?回答的:但凡能和分類哪怕扯上一點點關系的,淪陷深度學習只是早晚的事情。
其實關注CVPR2016就會發現:
本次CVPR 2016上,深度學習幾乎成了如今計算機視覺研究的標配,人臉識別、圖像識別、視頻識別、行人檢測、大規模場景識別的相關論文里都用到了深度學習的方法。
這里我想借用下我們嘉賓Sensetime CTO 曹旭東老師的一些解讀:
傳統方法使用滑動窗口的框架,把一張圖分解成幾百萬個不同位置不同尺度的子窗口,針對每一個窗口使用分類器判斷是否包含目標物體。傳統方法針對不同的類別的物體,一般會設計不同的特征和分類算法,比如人臉檢測的經典算法是Harr特征+Adaboosting分類器;行人檢測的經典算法是HOG(histogram of gradients) + Support Vector Machine;一般性物體的檢測的話是HOG的特征加上DPM(deformable part model)的算法。
基于深度學習的物體檢測的經典算法是RCNN系列: RCNN,fast RCNN (Ross Girshick),faster RCNN (少卿、凱明、孫劍、Ross)。這三個工作的核心思想是分別是:使用更好的CNN模型判斷候選區域的類別;復用預計算的sharing feature map加快模型訓練和物體檢測的速度;進一步使用sharing feature map大幅提高計算候選區域的速度。其實基于深度學習的物體檢測也可以看成對海量滑動窗口分類,只是用全卷積的方式。
RCNN系列算法還是將物體檢測分為兩個步驟。現在還有一些工作是端到端(end-to-end)的物體檢測,比如說YOLO(You Only Look Once: Unified, Real-Time Object Detection)和SSD(SSD: Single Shot MultiBox Detector)這樣的算法。這兩個算法號稱和faster RCNN精度相似但速度更快。物體檢測正負樣本極端非均衡,two-stage cascade可以更好的應對非均衡。端到端學習是否可以超越faster RCNN還需要更多研究實驗。
-----------------------------------我是機智的分割線-------------------------------------
相信題主應該能從這當中把握一些目標檢測的發展方向,當然如果想有更多技術交流也歡迎參與我們的技術交流活動
搜索公眾號ycopen就能找到大群主我啦,掃描二維碼(二維碼在這里)查看喔~
編輯于 昨天 15:41?添加評論?感謝? 分享 ?收藏???沒有幫助???舉報???禁止轉載 0贊同 反對,不會顯示你的姓名 潘博陽?,人丑還不多讀書 從rcnn,frcnn,faster-rcnn可以管中窺豹 發布于 2015-08-09?1 條評論?感謝? 分享 ?收藏???沒有幫助???舉報???作者保留權利 2贊同 反對,不會顯示你的姓名 劉羽中?,茍且的活著。 2?人贊同 DL和detection proposal 發布于 2015-08-08?2 條評論?感謝? 分享 ?收藏???沒有幫助???舉報???作者保留權利 0贊同 反對,不會顯示你的姓名 路人?,計算機視覺碩士研究生 我覺得分哪種情況了,運動目標檢測可以基于背景建模也可以基于目標建模,背景建模這個技術不是DL重災區啊 這是很多應用的第一步。 發布于 2016-04-19?1 條評論?感謝? 分享 ?收藏???沒有幫助???舉報???作者保留權利 1贊同 反對,不會顯示你的姓名 匿名用戶 1?人贊同 DL重災區。 發布于 2015-08-09?添加評論?感謝? 分享 ?收藏???沒有幫助???舉報???作者保留權利 0贊同 反對,不會顯示你的姓名 匿名用戶 熱烈歡迎更多DL相關工作,以及歡迎相互打臉! 發布于 13:24?添加評論?感謝? 分享 ?收藏???沒有幫助???舉報???作者保留權利 0贊同 反對,不會顯示你的姓名 劉乾坤?,計算機視覺與機器學習 DL現在是主流,可以看一下15年CVPR文章中包含DL的文章數量,占70%from:?https://www.zhihu.com/question/34223049#answer-39465125
總結
以上是生活随笔為你收集整理的从近两年的CVPR会议来看,目标检测的研究方向是怎么样的?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 零基础如何学爬虫技术?
- 下一篇: 你遇到过哪些理工科的实验高手,他们有哪些