目标检测的“尽头”竟是语言建模?Hinton团队提出Pix2Seq:性能优于DETR
生活随笔
收集整理的這篇文章主要介紹了
目标检测的“尽头”竟是语言建模?Hinton团队提出Pix2Seq:性能优于DETR
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
?作者丨happy
編輯丨極市平臺
本文原創首發于極市平臺公眾號,轉載請獲得授權并標明出處。
原文鏈接:https://arXiv.org/abs/2109.10852
語言模型與目標檢測這種八竿子打不著的領域之間會存在關聯性嗎 ?Hinton團隊的最新工作Pix2Seq對此進行了探索,它將目標檢測問題轉換成了語言模型問題,并在COCO數據集上取得了與DETR相當甚至更優性能 。好大的腦洞!
Abstract
本文提出了一種簡單而通用框架Pix2Seq用于目標檢測,不同于已有顯式集成先驗知識的方案,我們將目標檢測任務轉換成了基于觀測像素輸入的語言模型任務 。關于目標的描述(比如邊框、類別)將被描述為離散token序列,我們訓練了一個神經網絡去感知圖像并生成期望的序列。
該方法主要基于這樣的直覺:如果神經網絡知道目標在哪、目標是什么,那么我們僅需要教它如何進行解析 。除了實用任務相關數據增廣外,該方法對任務做了最小假設,相比高度優化的檢測方案,所提方法在COCO數據集上取得了極具競爭力的結果。
原文地址:目標檢測的 “盡頭” 竟是語言建模?Hinton 團隊提出 Pix2Seq:性能優于 DETR
總結
以上是生活随笔為你收集整理的目标检测的“尽头”竟是语言建模?Hinton团队提出Pix2Seq:性能优于DETR的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 去除冗余token的DETR效果怎么样?
- 下一篇: 多快好省的目标检测器来了,旷视孙剑团队提