Visual Translation Embedding Network for Visual Relation Detection论文中的术语以及对论文的理解笔记...
?弄懂基本上的專有術語以后,閱讀理解論文的速度就會大大增快,所以,看到每篇論文的生詞就記錄下來,方便以后查閱和學習!
?
2.中的術語:object dection(目標檢測),region proposal network(RPN? 區域推薦網絡),
?bilinear?interpolation(雙線性插值),Faster-RCNN,
3.中subject-predicate-object(主語-謂語-賓語),relation annotation(關系采樣),softmax(回歸模型),Feature Extraction(特征提取),
Visual Feature(視覺特征),weighted concatenation(加權連接),ROI pooling解析,non-maximum suppression (NMS 非極大值抑制),
intersection over union (IoU 重疊區域),Optimization(優化),
confident region(置信區域),
4.中的術語:JointBox(聯合標記框),State of The Arts(時下最優算法),Phrase Detection(短語檢測)。
?
2.3視覺關系檢測不僅僅是標記出目標們所在區域,更要描述它們的相互關系。
3.2位置特征不但在檢測空間或者借此關系時有用,而且在檢測動詞時也有用,比如,當謂語是“騎”的時候,主體通常是在目標的上方。特征提取層將目標檢測模塊和關系預測模塊耦合到一起。
3.3訓練用的圖片使用一個“主謂賓”三元組來標記,其中每個不同的主體或者目標用邊界框注釋出來。在測試階段,VTransE輸入一張圖片,輸出一個檢測到的目標的集合,并且輸出每一對目標的集合,并且輸出每一對目標之間的關系的預測評分。損失函數是合成了目標檢測損失和關系檢測損失的多任務損失函數,這就使得目標和關系能夠相互學習。
4.1目前主要有兩個大規模關系檢測數據集,VRD(視覺關系數據集)和VG。
4.2聯合標記框將主體和目標當做一個聯合邊界框進行謂詞預測,VTransE則對一對主體和目標進行預測。為了較為公平的比較,我們兩個方法都只使用邊界框的ROI pooling視覺特征。結果表明,大部分謂詞VTransE都能預測正確,而聯合框方法在某些確定的模式下很可能產生偏差。比如,聯合框預測“park on”這個動作僅局限于汽車,而VTransE方法則可以將這個動作擴展到飛機和公共汽車(問題,VTransE具體是怎么樣工作的,為什么能擴展到飛機和公共汽車)。VTransE則可以則表現地更理解“beneath”的含義。
4.3VTransE端到端的訓練方法有利于目標檢測。因為特征提取層采用了知識轉換的方法,是的關系預測產生的錯誤能夠反向傳播到目標檢測模塊。
4.4端到端的VTransE比2階段的VTransE-2stage在整個數據集上表現得都要好。結果證明了目標和關系相互學習的有效性。
?
轉載于:https://www.cnblogs.com/BlueBlue-Sky/p/9135248.html
總結
以上是生活随笔為你收集整理的Visual Translation Embedding Network for Visual Relation Detection论文中的术语以及对论文的理解笔记...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: jenkins配置以cygwin环境的子
- 下一篇: Redis(七)Redis的噩梦:阻塞