“跨次元”检测模型hold住各种画风,真人赛博,在线Demo可玩
來源:量子位
目標檢測種類多達20000+種的AI,你見過嗎?
不僅準確“揪出”每個物體所在的位置,分類效果非常準確:
插畫版賽博恐龍也沒問題:
甚至還能檢測雜志封面甚至漫畫中的物體!
這也是把目標檢測給玩出花來了,據作者表示模型在長尾問題等細節上的處理非常好,像獅子和狐貍這種少樣本也能準確識別:
這項研究來自Meta AI和德克薩斯大學奧斯汀分校,一作是著名目標檢測框架CenterNet的作者、復旦校友Xingyi Zhou。
一起來看看。
可識別“跨次元”物體
這篇論文提出了一種新的名為Detic的方法,用來解決目標檢測無法用到圖像級標簽(給一整張圖打標簽,標注里面有什么物體)的問題。
此前的目標檢測方法,通常是一個檢測框里一個物體:
這種方法有一個問題,就是沒辦法利用整個圖像級標簽,只能用單個物體的圖片進行訓練。
也有一些研究想出了一種新方法,搞個弱監督學習,試圖讓AI自己學會將圖像級的標簽,去對應錨定框里面有什么物體,但實際上這種方法的效果也不太好。
Detic的方法是采用目標檢測數據(a)和圖像標簽數據(b)對Detic進行混合訓練。
其中,在用目標檢測數據訓練Detic時,同時對圖像分類模塊W和目標檢測模塊B進行訓練,但只用標簽數據對圖像分類模塊W進行訓練。
訓練的數據集采用的是ImageNet,事實證明模型在訓練后無需微調,就能很好地適應到LVIS等數據集,相對之前的一些模型都達到了不錯的效果:
論文表示,Detic能分類的圖片類型也是多種多樣,從真實照片到賽博恐龍插畫這樣的“跨次元”作品都能識別:
這立刻吸引了不少網友來玩。
在線Demo可玩
有網友用梵高的世界名畫試了試。
放大一點來看,藝術加工后的椅子、人和桌子也能被識別:
還有用二次元的龍貓進行識別的,除了龍貓本身被錯認成貓頭鷹以外,其他的雨傘和靴子都認得不錯:
我們也隨便用一個鐘表柜的照片試了試,在線Demo的檢測時間稍微有點久,大約需要6分鐘左右,但效果還不錯:
細看的話還是能發現一些瑕疵,例如把部分手表誤認成轉速計、以及懷表和時鐘,以及也有一兩塊手表沒有被檢測出來。
不過,即使在二次元和插畫中,這個AI能識別的物體,至少也需要在真實世界出現過。
例如,超出20000個分類的物體,如噴火龍和皮卡丘,就不在AI的監測范圍內了,全部被認成了猴子(狗頭):
將這些二次元角色也加入AI訓練數據集中,不知能否取得同樣的檢測效果。
作者介紹
△這張照片是“女朋友拍的”
論文一作Xingyi Zhou,目前在德克薩斯大學奧斯汀分校讀博,本科就讀于復旦大學計算機系,之前也是CenterNet論文的第一作者,項目在GitHub上目前已經收獲6.1k Star。
Rohit Girdhar、Armand Joulin和Ishan Misra,Meta AI的研究科學家,主要研究方向是機器學習和計算機視覺,此前Armand Joulin曾經在李飛飛的實驗室進行博士后工作。
Philipp Kr?henbühl,德克薩斯大學奧斯汀分校助理教授,Xingyi Zhou的導師,研究方向是計算機視覺、機器學習和計算機圖形學。
感興趣的小伙伴,趕緊試試你想玩的漫畫、或是雜志插畫吧~
Demo地址:
https://huggingface.co/spaces/akhaliq/Detic
論文地址:
https://arxiv.org/abs/2201.02605
參考鏈接:
[1]https://www.cs.utexas.edu/~zhouxy/
[2]https://twitter.com/ak92501/status/1480704961101148162
推薦閱讀
【重磅】斯坦福李飛飛《注意力與Transformer》總結,84頁ppt開放下載!
蘇黎世聯邦理工學院SML課題組招收統計機器學習全獎博士生
讀博五年,我總結出了7條幫你「少走彎路」的真理
僅需12層網絡,在ImageNet上準確率達到80.7%!普林斯頓大學最新提出ParNet!
MobileViT: 一種更小,更快,高精度的輕量級Transformer端側網絡架構(附代碼實現)
【移動端最強架構】LCNet吊打現有主流輕量型網絡(附代碼實現)
基于Attention機制的輕量級網絡架構以及代碼實現
深度學習中的輕量級網絡架構總結與代碼實現
一文詳解Inception家族的前世今生(從InceptionV1-V4、Xception)附全部代碼實現
華為2012實驗室諾亞方舟實驗室招聘視覺感知算法實習生
歡迎大家加入DLer-計算機視覺&Transformer群!
大家好,這是計算機視覺&Transformer論文分享群里,群里會第一時間發布最新的Transformer前沿論文解讀及交流分享會,主要設計方向有:圖像分類、Transformer、目標檢測、目標跟蹤、點云與語義分割、GAN、超分辨率、視頻超分、人臉檢測與識別、動作行為與時空運動、模型壓縮和量化剪枝、遷移學習、人體姿態估計等內容。
進群請備注:研究方向+學校/公司+昵稱(如Transformer+上交+小明)
👆?長按識別,邀請您進群!
總結
以上是生活随笔為你收集整理的“跨次元”检测模型hold住各种画风,真人赛博,在线Demo可玩的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 仿今日头条项目——首页(文章搜索)
- 下一篇: keil5 字符编码的问题