【AI视野·今日CV 计算机视觉论文速览 第155期】Fri, 6 Sep 2019
生活随笔
收集整理的這篇文章主要介紹了
【AI视野·今日CV 计算机视觉论文速览 第155期】Fri, 6 Sep 2019
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
AI視野·今日CS.CV 計算機視覺論文速覽
Fri, 6 Sep 2019
Totally 42 papers
?上期速覽?更多精彩請移步主頁
Interesting:
?C3DPO基于2D關鍵點抽取和構建三維模型, (from Facebook AI Research)
?POLY-GAN用于時尚合成的多個條件GAN網絡, (from 羅徹斯特理工)
? Soft Fine-tuning有效的領域知識遷移方法, (from 字節跳動)
?TIGEr自動圖像標注評測系統, (from 伊利諾伊 UCSB 微軟)
?基于重力估計視頻中人體身高, (from 洛桑理工)
ref:工業零件抓取及其數據集:https://precise-grasping.jialiangz.me/
Daily Computer Vision Papers
| Explanation based Handwriting Verification Authors Mihir Chauhan, Mohammad Abuzar Shaikh, Sargur N. Srihari 深度學習系統的缺點是它們的輸出不伴隨著規劃。在法醫手寫驗證等領域,必須為陪審員提供解釋。手寫驗證的目標是找到一個信息的度量,無論給定的手寫樣本是由相同還是不同的編寫者寫的。我們提出了一種方法來生成解釋由卷積神經網絡CNN提供的置信度,CNN將輸入圖像映射到專家提供的15個注釋功能。我們的系統包括1個功能學習網絡FLN,一個可區分的系統,2個用于提供解釋的推理模塊。此外,推理模塊提供兩種類型的解釋a基于每個特征的分類概率之間的余弦相似性,b基于使用定向概率圖模型的對數似然比LLR。我們使用特征學習網絡FLN和每個推理模塊的組合進行實驗。我們使用XAI AND數據集評估我們的系統,每個樣本包含13700個手寫樣本和15個響應專家檢查的特征。該數據集是為公共使用而發布的,并且可以擴展這些方法以提供其他驗證任務的解釋,如面部驗證和生物醫學比較。該數據集可作為未來基于解釋的手寫驗證研究的基礎和基準。代碼可以在github上找到。 |
| Harnessing the Power of Deep Learning Methods in Healthcare: Neonatal Pain Assessment from Crying Sound Authors Md Sirajus Salekin, Ghada Zamzmi, Rahul Paul, Dmitry Goldgof, Rangachar Kasturi, Thao Ho, Yu Sun 臨床環境中的新生兒疼痛評估具有挑戰性,因為它是不連續的和有偏見的。由于臨床狀況,發育遲緩,俯臥位或其他外部因素,面部身體閉塞可在此類環境中發生。在這種情況下,哭聲可用于有效評估新生兒疼痛。在本文中,我們研究了新型CNN架構N CNN以及其他CNN架構VGG16和ResNet50用于評估新生兒哭聲的疼痛。實驗結果表明,使用我們的新型N CNN評估新生兒聲音引起的疼痛具有很強的臨床潛力,并為目前的評估實踐提供了可行的替代方案。 |
| C3DPO: Canonical 3D Pose Networks for Non-Rigid Structure From Motion Authors David Novotny, Nikhila Ravi, Benjamin Graham, Natalia Neverova, Andrea Vedaldi 我們提出了C3DPO,一種從無約束圖像中的2D關鍵點注釋中提取可變形物體的3D模型的方法。我們通過學習深度網絡來實現這一目標,該網絡一次從單個視圖重建3D對象,考慮部分遮擋,并明確地分解視點變化和對象變形的影響。為了實現這種分解,我們引入了一種新穎的正則化技術。我們首先表明,當且僅當重建形狀存在某種規范化函數時,因子分解才是成功的。然后,我們與重建函數一起學習規范化函數,這限制了結果的一致性。我們展示了對于許多基準測試不使用地面實況3D監控的方法的最新重建結果,包括Up3D和PASCAL3D。 |
| Neural Style-Preserving Visual Dubbing Authors Hyeongwoo Kim, Mohamed Elgharib, Michael Zollh fer, Hans Peter Seidel, Thabo Beeler, Christian Richardt, Christian Theobalt 配音是一種將視頻內容從一種語言翻譯成另一種語言的技術。然而,現有技術的視覺配音技術直接將面部表情從源頭復制到目標演員而不考慮身份特定的特性,例如獨特的微笑類型。我們提供了一種從單個視頻輸入保留視覺配音方式的風格,在修改面部表情(包括嘴部動作)以匹配外語時,它保持了目標演員的簽名風格。我們的方法的核心是運動風格的概念,特別是面部表情,即人臉特定的表情變化,這是面部編輯應用中超出視覺準確性的另一個重要因素。我們的方法基于復發的生成對抗網絡,其捕獲面部表情的時空共激活,并且能夠在保持其風格的同時生成和修改目標演員的面部表情。我們使用循環一致性和口腔表達損失以無人監督的方式使用非同步源和目標視頻訓練我們的模型,并使用分層神經面部渲染器合成逼真的視頻幀。我們的方法產生時間上連貫的結果,并處理動態背景。我們的結果表明,我們的配音方法比以前的方法更好地保持了目標演員的特殊風格,即使是廣泛不同的源和目標演員。 |
| Stack-VS: Stacked Visual-Semantic Attention for Image Caption Generation Authors Wei Wei, Ling Cheng, Xianling Mao, Guangyou Zhou, Feida Zhu 最近,自動圖像標題生成一直是多模態翻譯任務工作的重點。現有方法可以粗略地分為兩類,即自上而下和自下而上,前者將稱為視覺水平特征的圖像信息直接傳遞到字幕中,后者使用被稱為semanticlevel屬性的提取字來生成描述。然而,先前的方法或者通常基于一級解碼器,或者部分地利用視覺級別或語義級別信息的一部分來生成圖像標題。在本文中,我們通過組合自下而上和自上而下的注意力模型來有效地處理輸入圖像的視覺水平和語義級別信息,我們解決了這個問題并提出了一種稱為Stack VS的創新多階段架構,用于豐富的精細圖像標題生成。 。具體來說,我們還提出了一種新穎精心設計的堆棧解碼器模型,它由一系列解碼器單元構成,每個解碼器單元包含兩個LSTM層,交互工作以重新優化視覺水平特征向量和語義級屬性嵌入的注意權重,以便生成一個很好的圖像標題。對流行的基準數據集MSCOCO的廣泛實驗顯示了對不同評估指標的顯著改進,即,與現有技術相比,BLEU 4 CIDEr SPICE得分的改進分別為0.372,1.226和0.216。 |
| Intrinsic Dynamic Shape Prior for Fast, Sequential and Dense Non-Rigid Structure from Motion with Detection of Temporally-Disjoint Rigidity Authors Vladislav Golyanik, Andr Jonas, Didier Stricker, Christian Theobalt 雖然近年來從可重構性問題的角度對運動NRSfM的致密非剛性結構進行了廣泛的研究,但幾乎沒有嘗試將其引入實際領域。傳播緩慢的原因是嚴重的病態,對運動和變形線索的高度敏感性以及在絕大多數實際場景中難以獲得可靠的點軌跡。為了填補這一空白,我們提出了一種混合方法,該方法使用NRSfM從輸入序列中提取先前的形狀知識,并將其用作動態形狀,然后在具有重現的情況下進行順序表面恢復。我們的動態形狀先驗重建DSPR方法可以與現有的密集NRSfM技術相結合,同時其能量功能通過實時速率的隨機梯度下降進行優化,以用于新的入射點軌跡。所提出的具有新核心NRSfM方法的多功能框架在處理不準確和噪聲點軌道的能力方面優于其他幾種方法,前提是我們可以根據變形變化圖像序列訪問代表。綜合實驗突出了不同干擾效應下的收斂特性和DSPR的準確性。我們還進行了跟蹤和重建的聯合研究,并展示了在閉塞下塑形壓縮和心臟重建的應用。我們在不同的場景中實現了最先進的度量精度和壓縮比。 |
| FreeAnchor: Learning to Match Anchors for Visual Object Detection Authors Xiaosong Zhang, Fang Wan, Chang Liu, Rongrong Ji, Qixiang Ye 現代的基于CNN的物體探測器在單元IoU上的物體錨點交叉的限制下為地面實況對象分配錨點。在這項研究中,我們提出了一種學習匹配方法來打破IoU限制,允許對象以靈活的方式匹配錨點。我們的方法,稱為FreeAnchor,通過將檢測器訓練公式化為最大似然估計MLE過程,將手工制作的錨分配更新為自由錨匹配。 FreeAnchor的目標是學習功能,這些功能可以在分類和本地化方面最好地解釋一類對象。 FreeAnchor通過優化檢測定制的可能性來實現,并且可以以即插即用的方式與基于CNN的檢測器融合。 MS COCO的實驗表明,FreeAnchor的表現優于同行,并且利潤率很高。 |
| Semantic-Aware Scene Recognition Authors Alejandro L pez Cifuentes, Marcos Escudero Vi olo, Jes s Besc s, lvaro Garc a 場景識別是目前計算機視覺領域中最具挑戰性的研究領域之一。這可能是由于類之間的模糊性,幾個場景類的圖像可能共享相似的對象,這導致它們之間的混淆。當特定場景類的圖像明顯不同時,問題會更加嚴重。卷積神經網絡CNN顯著提高了場景識別的性能,盡管它仍然遠遠低于其他識別任務,例如對象或圖像識別。在本文中,我們描述了一種基于端到端多模態CNN的場景識別的新方法,其通過關注模塊組合圖像和上下文信息。以語義分割的形式的上下文信息用于通過利用在語義表示中編碼的信息來對從RGB圖像提取的特征進行門控,該信息是場景對象和東西的集合及其相對位置。該選通過程加強了對指示性場景內容的學習,并通過將CNN的感知場重新聚焦于它們來增強場景消歧。四個公開可用數據集的實驗結果表明,所提出的方法優于其他所有現有技術方法,同時顯著減少了網絡參數的數量。本文中使用的所有代碼和數據均可在此處獲得 |
| Utilizing Temporal Information in DeepConvolutional Network for Efficient Soccer BallDetection and Tracking Authors Anna Kukleva, Mohammad Asif Khan, Hafez Farazi, Sven Behnke 足球檢測被認為是RoboCup比賽中的關鍵挑戰之一。它需要一個高效的視覺系統,能夠以高精度和召回率處理檢測任務,并提供強大和低推理時間。在這項工作中,我們提出了一種新的卷積神經網絡CNN方法來檢測圖像序列中的足球。與僅使用當前幀或圖像進行檢測的現有方法相比,我們利用幀的歷史。使用歷史記錄允許在球消失或在一些幀中部分遮擋的情況下有效地跟蹤球。我們的方法利用空間時間相關性并基于其運動的軌跡來檢測球。我們用三種卷積方法呈現我們的結果,即時間卷積網絡TCN,ConvLSTM和ConvGRU。我們首先使用完全卷積編碼器解碼器架構來解決圖像的檢測任務,然后,我們將其用作我們的時間模型的輸入,并共同學習圖像序列中的檢測任務。我們在作為這項工作的一部分準備的新數據集上評估我們的所有實驗。此外,我們提出實證結果,以支持在具有挑戰性的情景中使用球的歷史的有效性。 |
| An Active Learning Approach for Reducing Annotation Cost in Skin Lesion Analysis Authors Xueying Shi, Qi Dou, Cheng Xue, Jing Qin, Hao Chen, Pheng Ann Heng 自動皮膚病變分析在臨床實踐中非常重要,因為皮膚癌是最常見的人類惡性腫瘤之一。現有的深度學習方法在這項具有挑戰性的任務中取得了顯著的成績,但是,它在很大程度上依賴于大規模標記數據集。在本文中,我們提出了一種新的主??動學習框架,用于經濟有效的皮膚病變分析。目標是有效地選擇和利用更少的標記樣本,同時網絡仍然可以實現最先進的性能。我們的樣本選擇標準互補地考慮信息性和代表性,源自測量模型確定性的分離方面和覆蓋樣本多樣性。為了明智地使用所選樣本,我們進一步設計了一種簡單而有效的策略來聚合像素空間中的類內圖像,作為一種新的數據增強形式。我們針對兩項任務驗證了我們提出的ISIC 2017皮膚損傷分類挑戰數據的方法。僅使用多達50個樣本,我們的方法可以在兩個任務上實現最先進的性能,這些任務與全數據訓練相當或超過準確度,并且大大優于其他眾所周知的主動學習方法。 |
| Detector With Focus: Normalizing Gradient In Image Pyramid Authors Yonghyun Kim, Bong Nam Kang, Daijin Kim 圖像金字塔可以擴展許多物體檢測算法以解決多尺度上的檢測。然而,在圖像金字塔的重采樣過程期間的插值引起梯度變化,該梯度變化是原始圖像和縮放圖像之間的梯度的差異。我們的主要觀點是漸變的方差增加使得分類器難以正確分配類別。我們通過制定原始圖像和縮放圖像之間的梯度期望比來證明梯度變化的存在,然后提出一種簡單而新穎的梯度歸一化方法來消除這種變化的影響。所提出的歸一化方法減少了圖像金字塔中的方差,并允許分類器專注于較小的覆蓋范圍。我們展示了行人檢測,姿態估計和物體檢測三種不同視覺識別問題的改進。該方法通常適用于基于具有梯度的圖像金字塔的許多視覺算法。 |
| Depth Map Estimation for Free-Viewpoint Television Authors Dawid Mieloch, Olgierd Stankiewicz, Marek Doma ski 本文提出了一種專用于自由視點電視FTV的新的深度估計方法。對分段執行估計,因此它們的大小可用于控制深度圖的質量與其估計的處理時間之間的折衷。所提出的算法可以將多個任意定位的視圖作為其輸入,其同時用于產生多個視圖間一致的輸出深度圖。所呈現的深度估計方法使用新穎的并行化和時間一致性增強方法,其顯著減少深度估計的處理時間。基于對FTV中虛擬視圖質量的分析,已經對提議進行了實驗評估。結果表明,與現有技術相比,該方法提供了深度圖質量的改進,同時降低了深度估計的復雜度。深度圖的一致性對于合成視頻的質量以及因此在3D場景中導航的體驗質量至關重要,也得到極大改善。 |
| Efficient Neural Architecture Transformation Searchin Channel-Level for Object Detection Authors Junran Peng, Ming Sun, Zhaoxiang Zhang, Tieniu Tan, Junjie Yan 最近,神經結構搜索在大規模圖像分類方面取得了巨大成功。相比之下,關注對象檢測的體系結構搜索的工作有限,主要是因為檢測器總是需要昂貴的ImageNet預訓練。作為替代品,從頭開始的培訓需要更多的時代來收斂并且不會帶來任何計算節省。為克服這一障礙,本文介紹了一種實用的神經網絡變換搜索NATS算法,用于目標檢測。 NATS不是搜索和構建整個網絡,而是在現有網絡的基礎上探索架構空間并重用其權重。我們提出了一種新的神經結構搜索策略,在通道級而不是路徑級,并設計一個專門針對對象檢測的搜索空間。通過這兩種設計的組合,可以發現架構轉換方案以使設計用于圖像分類的網絡適應對象檢測的任務。由于我們的方法是基于梯度的,并且只搜索變換方案,因此可以在搜索和再訓練階段中使用在ImageNet中預訓練的模型的權重,這使得整個過程非常有效。轉換后的網絡不需要額外的參數和FLOP,并且對硬件優化很友好,這在實時應用中是實用的。在實驗中,我們展示了像ResNet和ResNeXt這樣的NATSon網絡的有效性。我們的轉換網絡與各種檢測框架相結合,在保持快速的同時實現了COCO數據集的顯著改進。 |
| Adaptive Graph Representation Learning for Video Person Re-identification Authors Yiming Wu, Omar El Farouk Bourahla, Xi Li, Fei Wu, Qi Tian 近年來見證了基于深度學習的視頻人物識別Re ID的巨大發展。視頻人Re ID的關鍵因素是如何有效地構建判別性視頻特征表示,以便對諸如遮擋之類的許多復雜情況具有魯棒性。最近基于部分的方法利用空間和時間關注來提取代表性的局部特征。雖然在先前的方法中忽略了各部分之間的相關性,但為了利用不同部分的關系,我們提出了一種用于視頻人Re ID的創新的自適應圖表表示學習方案,其實現了相關區域特征之間的上下文交互。具體來說,我們利用姿勢對齊連接和特征親和關系來構造自適應結構感知鄰接圖,其模擬圖節點之間的內在關系。我們在鄰接圖上執行特征傳播以迭代地細化原始區域特征,將鄰居節點信息考慮用于部件特征表示。為了學習緊湊和有辨別力的表示,我們進一步提出了一種新穎的時間分辨率感知正則化,它強制了相同身份的不同時間分辨率之間的一致性。我們對四個基準進行了廣泛的評估,即iLIDS VID,PRID2011,MARS和DukeMTMC VideoReID,實驗結果達到了競爭性能,證明了我們提出的方法的有效性。 |
| Effective Domain Knowledge Transfer with Soft Fine-tuning Authors Zhichen Zhao, Bowen Zhang, Yuning Jiang, Li Xu, Lei Li, Wei Ying Ma 卷積神經網絡需要大量數據用于訓練。考慮到在某些特定任務中數據收集和標記的困難,現有方法通常使用在大型源域上預訓練的模型,例如ImageNet,然后在這些任務上微調它們。但是,來自源域的數據集在微調過程中被簡單地丟棄。我們認為可以更好地利用源數據集并使微調受益。本文首先介紹了一般歧視的概念,用以描述網絡區分未經訓練的模式的能力,然后通過實驗證明一般的歧視可能會增強目標領域的總體辨別能力。此外,我們提出了一種新穎且重量輕的方法,即軟微調。與通過目標域上的損失函數直接替代優化目標的傳統微調不同,軟微調通過保持先前的損失并且輕柔地去除它來有效地保持一般區分。通過這樣做,軟微調可以提高網絡對數據偏差的魯棒性,同時加速收斂。我們在幾個視覺識別任務上評估我們的方法。廣泛的實驗結果支持軟微調為所有評估任務提供一致的改進,并且顯著優于現有技術。代碼將向公眾提供。 |
| POD: Practical Object Detection with Scale-Sensitive Network Authors Junran Peng, Ming Sun, Zhaoxiang Zhang, Tieniu Tan, Junjie Yan 尺度敏感對象檢測仍然是一項具有挑戰性的任務,其中大多數現有方法無法明確地學習它并且對于尺度方差不具有魯棒性。此外,大多數現有方法在訓練期間效率較低或在推理期間較慢,這對實時應用不友好。在本文中,我們提出了一種具有尺度敏感網絡的實用目標檢測方法。我們的方法首先為每個網絡階段的每個卷積濾波器預測所有位置共享的全局連續尺度。為了有效地學習比例,我們平均空間特征并從通道中提取比例。為了快速部署,我們提出了一種尺度分解方法,該方法將魯棒小數尺度轉換為每個卷積濾波器的固定積分尺度的組合,其利用擴張卷積。我們在不同配置的一階段和兩階段算法上演示它。對于實際應用,我們的方法的培訓是效率和簡單性,擺脫了復雜的數據采樣或優化策略。在測試期間,所提出的方法不需要額外的操作,并且非常支持像TensorRT和TVM那樣的硬件加速。在COCO測試開發中,我們的模型可以在一級探測器上實現41.5 mAP,在基于ResNet 101的兩級探測器上實現42.1 mAP,在沒有額外FLOPS的情況下分別優于基線2.4和2.1。 |
| A Better Way to Attend: Attention with Trees for Video Question Answering Authors Hongyang Xue, Wenqing Chu, Zhou Zhao, Deng Cai 我們提出了一種新的視頻問答應用模型。注意力模型的主要思想是定位視覺數據中信息最豐富的部分。目前,關注機制非常受歡迎。但是,大多數現有的視覺注意機制都將問題視為一個整體。他們忽略單詞級語義,其中每個單詞可以有不同的注意力,有些單詞不需要注意。他們也沒有考慮句子的語義結構。盡管用于視頻問題回答的擴展軟注意力E SA模型利用了單詞級別的注意力,但它在長問題句子上表現不佳。在本文中,我們提出了異構樹結構存儲網絡HTreeMN用于視頻問答。我們提出的方法基于問句的語法分析樹。 HTreeMN以不同的方式處理單詞,其中使用注意模塊處理文本視覺單詞,而不使用textit語言單詞。它還通過基于解析樹的遞歸結構組合鄰居來利用句子的語義結構。對單詞和視頻的理解被傳播并從葉子合并到根。此外,我們構建了一個分層注意機制來提煉出席的功能。我們在兩個數據集上評估我們的方法。實驗結果表明我們的HTreeMN模型優于其他注意力模型,特別是復雜問題。我們的代碼可以在github上找到。我們的代碼可在 |
| Synthesizing Coupled 3D Face Modalities by Trunk-Branch Generative Adversarial Networks Authors Baris Gecer, Alexander Lattas, Stylianos Ploumpis, Jiankang Deng, Athanasios Papaioannou, Stylianos Moschoglou, Stefanos Zafeiriou 生成逼真的3D面對計算機圖形和計算機視覺應用非常重要。通常,關于3D面部生成的研究圍繞面部表面的線性統計模型。然而,這些模型不能忠實地代表面部紋理或面部法線,這對于照片真實面部合成非常關鍵。最近,證明了Generative Adversarial Networks GAN可用于生成高質量的面部紋理。然而,生成過程要么省略幾何和法線,要么使用獨立過程來產生3D形狀信息。在本文中,我們提出了第一種聯合生成高質量紋理,形狀和法線的方法,可用于照片真實合成。為此,我們提出了一種新穎的GAN,它可以利用不同的模態生成數據,同時利用它們的相關性。此外,我們演示了如何在表達式上調整生成并使用各種面部表情創建面部。此預印本中顯示的定性結果由于尺寸限制而被壓縮,全分辨率結果和附帶的視頻可在項目頁面找到 |
| Training Compact Neural Networks via Auxiliary Overparameterization Authors Yifan Liu, Bohan Zhuang, Chunhua Shen, Hao Chen, Wei Yin 觀察到過度參數化,即設計其參數數量大于統計所需的神經網絡以適合訓練數據可以改善優化和概括,同時緊湊網絡更難以優化。但是,過度參數化會導致測試時間推斷速度變慢,功耗也會增加。為了解決這個問題,我們提出了一種新穎的輔助模塊來模擬過度參數化的效果。在培訓期間,我們使用輔助模塊擴展緊湊型網絡以形成更寬的網絡以協助優化,而在推理期間僅保留原始緊湊型網絡。此外,我們建議自動搜索分層輔助結構,以避免啟發式添加監督。在實驗中,我們探索了幾個具有挑戰性的資源約束任務,包括輕量分類,語義分割和具有硬參數共享的多任務學習。我們憑經驗發現,所提出的輔助模塊可以保持緊湊網絡的復雜性,同時顯著提高性能。 |
| Gravity as a Reference for Estimating a Person's Height from Video Authors Didier Bieler, Semih G nel, Pascal Fua, Helge Rhodin 在沒有額外假設的情況下從單眼圖像估計人的度量高度是不合適的。現有解決方案要么需要手動校準地平面和相機幾何形狀,特殊相機或已知尺寸的參考物體。我們專注于運動線索并利用地球上的重力作為無所不在的參考對象來轉換加速度,并隨后將圖像像素中測量的高度轉換為以米為單位的值。我們需要運動視頻作為輸入,其中重力是唯一的外力。此限制與恢復人員身高的現有解決方案的限制不同,因此,我們的方法開辟了新的應用領域。我們在理論上和經驗上表明,簡單的運動軌跡分析足以從像素測量值轉換到人的度量高度,在跳躍運動時達到高達3.9厘米的MAE,并且這可以在沒有攝像機和地平面校準的情況下工作。 |
| Image Captioning with Very Scarce Supervised Data: Adversarial Semi-Supervised Learning Approach Authors Dong Jin Kim, Jinsoo Choi, Tae Hyun Oh, In So Kweon 構建由大量圖像和每個圖像的若干字幕組成的有組織數據集是一項艱巨的任務,這需要大量的人力。另一方面,分別收集大量圖像和句子可能非常容易。在本文中,我們開發了一種新的數據有效的半監督框架,用于訓練圖像字幕模型。我們通過學習關聯它們來利用大量不成對的圖像和字幕數據。為此,我們提出的半監督學習方法通??過生成對抗網絡為未配對的樣本分配偽標簽,以學習圖像和標題的聯合分布。為了評估,我們構建了幾乎不成對的COCO數據集,即MS COCO字幕數據集的修改版本。實驗結果表明,與幾個強基線相比,我們的方法有效,特別是當配對樣本的數量很少時。 |
| Future Frame Prediction Using Convolutional VRNN for Anomaly Detection Authors Yiwei Lu, Mahesh Kumar K, Seyed shahabeddin Nabavi, Yang Wang 視頻中的異常檢測旨在報告任何不符合正常行為或分布的內容。然而,由于現實生活中的異常視頻剪輯的稀疏性,收集用于監督學習的注釋數據是異常麻煩的。受半監督學習生成模型實用性的啟發,我們提出了一種基于變分自動編碼器VAE的新型序貫生成模型,用于卷積LSTM ConvLSTM的未來幀預測。據我們所知,這是從模型角度考慮基于異常檢測框架的未來幀預測中的時間信息的第一項工作。我們的實驗表明,我們的方法優于三個基準數據集的最新方法。 |
| Poly-GAN: Multi-Conditioned GAN for Fashion Synthesis Authors Nilesh Pandey, Andreas Savakis 我們提出了Poly GAN,這是一種新穎的條件GAN架構,由Fashion Synthesis推動,這種應用將服裝自動放置在任意姿勢的人體模型圖像上。 Poly GAN允許在多個輸入上進行調節,適用于許多任務,包括圖像對齊,圖像拼接和修復。現有方法具有類似的管道,其中三個不同的網絡用于首先將服裝與人體姿勢對齊,然后執行對齊的服裝的縫合并最終細化結果。 Poly GAN是第一個使用通用架構執行所有三個任務的實例。我們的新穎架構強制編碼器的所有層的條件,并利用從編碼器的粗層到解碼器的各個層的跳過連接。 Poly GAN能夠以任意姿勢基于模型的RGB骨架執行服裝的空間變換。此外,Poly GAN可以執行圖像拼接,無論衣服的方向如何,并且當衣服面膜包含不規則的孔時,可以對其進行修補。我們的系統使用DeepFashion數據集實現了結構相似性指數度量和初始得分度量的最新定量結果。 |
| Understanding Human Gaze Communication by Spatio-Temporal Graph Reasoning Authors Lifeng Fan, Wenguan Wang, Siyuan Huang, Xinyu Tang, Song Chun Zhu 本文探討了從原子水平和事件水平理解社交視頻中人類凝視交流的新問題,這對研究人類社會交往具有重要意義。為了解決這個新穎且具有挑戰性的問題,我們提供了一個大型視頻數據集VACATION,它涵蓋了各種日常社交場景和凝視通信行為,包括對象和人臉的完整注釋,人類關注,以及原子級別和通信結構和標簽。事件級別。與VACATION一起,我們提出了一個時空圖神經網絡,以明確地表示社交場景中的不同注視交互,并通過消息傳遞推斷原子級注視通信。我們進一步提出具有編碼器解碼器結構的事件網絡以預測事件級別注視通信。我們的實驗表明,所提出的模型在預測原子水平和事件水平凝視方面顯著改善了各種基線 |
| Program-Guided Image Manipulators Authors Jiayuan Mao, Xiuming Zhang, Yikai Li, William T. Freeman, Joshua B. Tenenbaum, Jiajun Wu 人類能夠為各種層面的圖像構建整體表示,從局部對象到成對關系,再到全局結構。結構的解釋涉及推理圖像中對象的重復和對稱性。在本文中,我們提出了程序引導圖像操縱器PG IM,誘導神經符號程序像表示來表示和操縱圖像。給定圖像,PG IM檢測重復的模式,誘導符號程序,并使用由程序引導的神經網絡來操縱圖像。 PG IM從單個圖像中學習,利用其內部統計數據。盡管僅在圖像修復方面受過訓練,但PG IM可直接在統一框架中進行外推和規則編輯。大量實驗表明,PG IM在所有任務中都具有卓越的性能。 |
| Weakly Supervised Universal Fracture Detection in Pelvic X-rays Authors Yirui Wang, Le Lu, Chi Tung Cheng, Dakai Jin, Adam P. Harrison, Jing Xiao, Chien Hung Liao, Shun Miao 髖部和骨盆骨折是嚴重的傷害,危及生命的并發癥。然而,骨盆X射線PXR中骨折的診斷錯誤非常普遍,這推動了對計算機輔助診斷CAD解決方案的需求。一個主要的挑戰在于裂縫是需要局部分析的局部模式。不幸的是,駐留在醫院圖片存檔和通信系統中的PXR通常不指定興趣區域。在本文中,我們提出了一種兩階段髖骨和骨盆骨折檢測方法,使用弱監督ROI挖掘執行局部骨折分類。第一階段使用大容量完全卷積網絡,即深度具有高抽象水平,在多實例學習設置中自動從訓練數據中的整個PXR挖掘可能的正肯定和肯定的硬負ROI。第二階段訓練較小容量模型,即較淺且更通用的,具有開采的ROI以執行局部分析以對裂縫進行分類。在推理過程中,我們的方法通過將兩個階段的概率輸出鏈接在一起來一次性檢測髖部和骨盆骨折。我們在4 410個PXR上評估我們的方法,報告了ROC曲線值為0.975的區域,這是現有技術中最先進的裂縫檢測方法。此外,我們表明,在23位讀者的初步讀者研究中,我們的兩階段方法可以與人類醫生相比,甚至超過急診醫生和外科醫生。 |
| Large-scale Tag-based Font Retrieval with Generative Feature Learning Authors Tianlang Chen, Zhaowen Wang, Ning Xu, Hailin Jin, Jiebo Luo 字體選擇是設計工作流程中最重要的步驟之一。傳統方法依賴于有序列表,這些列表需要大量的領域知識,并且即使對于經過培在本文中,我們解決了基于大規模標記的字體檢索的問題,其目的是為字體選擇過程帶來語義,并使沒有專業知識的人能夠有效地使用字體。我們收集了高質量專業字體的大規模字體標記數據集。該數據集包含近20,000種字體,2,000種標簽和數十萬種字體標簽關系。我們提出了一種新穎的生成特征學習算法,該算法利用了字體的獨特特征。關鍵思想是字體圖像是合成的,因此可以通過學習算法進行控制。我們設計了一個集成的渲染和學習過程,以便一個圖像的視覺特征可用于重建另一個具有不同文本的圖像。生成的特征捕獲重要的字體設計細節,同時對諸如文本等令人討厭的因素具有魯棒性。我們提出了一種新穎的注意機制來重新加權關節視覺文本建模的視覺特征。我們將特征和注意機制結合在一個新穎的識別檢索模型中。實驗結果表明,對于基于大規模標簽的字體檢索的重要問題,我們的方法明顯優于現有技術。 |
| ApproxNet: Content and Contention Aware Video Analytics System for the Edge Authors Ran Xu, Jinkyu Koo, Rakesh Kumar, Peter Bai, Subrata Mitra, Ganga Maghanath, Saurabh Bagchi 視頻需要大量時間才能通過網絡傳輸,因此在邊緣設備上對實時視頻進行分析,就像捕獲它一樣,它已經成為一個重要的系統驅動程序。然而,這些邊緣設備(例如,IoT設備,監視相機,AR VR小配件)受資源限制。這使得無法在其上運行最先進的重型深度神經網絡DNN,并且在各種情況下提供低且穩定的延遲,例如,設備上的資源可用性的變化,內容特征或來自用戶的要求。在本文中,我們介紹了AspectNet,一個用于邊緣的視頻分析系統。它使新穎的動態近似技術能夠在不同的系統條件和資源爭用,視頻內容的復雜性和用戶要求的變化下實現期望的推斷等待時間和準確度折衷。它通過在單個DNN模型中啟用兩個近似旋鈕來實現這一點,而不是創建和維護一組模型,例如在MCDNN Mobisys 16中。集合模型在輕量級設備上遇到內存問題,并且響應于運行時更改而在模型之間產生大的切換損失。我們表明,ApproxNet可以在運行時無縫適應視頻內容的變化和系統動態的變化,為視頻流上的對象檢測提供低而穩定的延遲。我們比較了ResNet 2015,MCDNN和MobileNets Google 2017的準確性和延遲。 |
| Do Cross Modal Systems Leverage Semantic Relationships? Authors Shah Nawaz, Muhammad Kamran Janjua, Ignazio Gallo, Arif Mahmood, Alessandro Calefati, Faisal Shafait 當前的交叉模態檢索系統使用R K度量來評估,該度量不利用語義關系而是嚴格遵循手動標記的圖像文本查詢對。因此,當前的系統不能很好地概括野外看不見的數據。為了解決這個問題,我們提出了一種新的測量方法SemanticMap來評估交叉模態系統的性能。我們提出的度量評估了潛在嵌入空間中圖像和文本表示之間的語義相似性。我們還提出了一種使用單流網絡進行雙向檢索的新型交叉模態檢索系統。所提出的系統基于使用擴展中心損失訓練的深度神經網絡,最小化來自類中心的潛在空間中的圖像和文本描述的距離。在我們的系統中,文本描述也被編碼為圖像,這使我們能夠為文本和圖像使用單個流網絡。據我們所知,我們的工作是采用單流網絡進行交叉模態檢索系統的第一次。所提出的系統在兩個公開可用的數據集上進行評估,包括MSCOCO和Flickr30K,并且已經顯示出與現有技術方法相當的結果。 |
| CT Data Curation for Liver Patients: Phase Recognition in Dynamic Contrast-Enhanced CT Authors Bo Zhou, Adam Harrison, Jiawen Yao, Chi Tung Cheng, Jing Xiao, Chien Hung Liao, Le Lu 隨著對更具描述性的機器學習模型的需求在醫學成像中的增長,由于數據缺乏而導致的瓶頸將加劇。因此,收集足夠大規模的數據將需要自動化工具從雜亂和真實世界的數據集中收集數據標簽對,例如醫院PACS。這是我們工作的重點,我們提出了一個原則數據管理工具,用于提取多階段CT肝臟研究,并從現實世界和異質醫院PACS數據集中識別每個掃描階段。模擬典型的部署方案,我們首先從我們的機構合作伙伴處獲取一組噪聲標簽,這些標簽是使用DICOM標簽中的簡單規則進行文本挖掘的。我們使用定制和簡化的3D SE架構訓練深度學習系統,以識別非對比,動脈,靜脈和延遲相位動態CT肝臟掃描,過濾掉任何其他內容,包括其他類型的肝臟對比研究。為了盡可能多地利用訓練數據,我們還引入了一個聚合的交叉熵損失,可以從僅識別為對比的掃描中學習。對7680例患者成像研究的43K掃描數據集進行的大量實驗表明,我們的3DSE結構,通過我們的聚合損失,可以達到0.977的平均F1,并且可以正確地收獲高達92.7的研究,這明顯優于文本開采和標準損失方法,也優于其他更復雜的模型架構。 |
| AFP-Net: Realtime Anchor-Free Polyp Detection in Colonoscopy Authors Dechun Wang, Ning Zhang, Xinzi Sun, Pengfei Zhang, Chenxi Zhang, Yu Cao, Benyuan Liu 結直腸癌CRC是一種常見的致命疾病。在全球范圍內,CRC是男性中第三位最常診斷的癌癥,女性是第二位。對于結腸直腸癌,最好的篩查試驗是結腸鏡檢查。在結腸鏡檢查過程中,內窺鏡尖端的微型攝像機會生成結腸內部粘膜的視頻。視頻數據顯示在監視器上,供醫生檢查整個結腸的內層并檢查結腸直腸息肉。結腸直腸息肉的檢測和去除與結腸直腸癌的死亡率降低有關。然而,即使對于非常有經驗的醫生來說,結腸鏡檢查過程中息肉檢測的漏診率通常很高。原因在于息肉在形狀,大小,紋理,顏色和光照方面的高度變化。雖然具有挑戰性,但隨著物體檢測技術的巨大進步,自動息肉檢測仍然顯示出在保持高精度的同時降低假陰性率的巨大潛力。在本文中,我們提出了一種新型無錨息肉探測器,可以在不使用預定義錨盒的情況下定位息肉。為了進一步加強模型,我們利用上下文增強模塊和余弦地面實況投影。我們的方法可以實時響應,同時實現99.36精度和96.44召回的最先進性能。 |
| Are Adversarial Robustness and Common Perturbation Robustness Independant Attributes ? Authors Alfred Laugros, Alice Caplier, Matthieu Ospici 神經網絡已被證明對常見的擾動很敏感,如模糊,高斯噪聲,旋轉等。它們也容易受到一些被稱為對抗性例子的人為惡意破壞的攻擊。對抗性示例研究最近變得非常流行,有時甚至會降低對抗魯棒性一詞的對抗性。然而,我們不知道對抗性穩健性在多大程度上與全球穩健性相關。同樣,我們不知道對各種常見擾動(例如翻譯或對比度損失)的穩健性是否有助于對抗性破壞。我們打算研究神經網絡的穩健性與兩種擾動之間的聯系。通過我們的實驗,我們提供了第一個基準,旨在評估神經網絡對常見擾動的魯棒性。我們表明,增加對精心選擇的常見擾動的魯棒性,可以使神經網絡對看不見的常見擾動更加魯棒。我們還證明了對常見擾動的對抗魯棒性和魯棒性是獨立的。我們的結果使我們相信神經網絡的魯棒性應該在更廣泛的意義上得到解決。 |
| Tensor Oriented No-Reference Light Field Image Quality Assessment Authors Wei Zhou, Likun Shi, Zhibo Chen 光場圖像LFI質量評估變得越來越重要,這有助于更好地指導沉浸式媒體的采集,處理和應用。然而,由于LFI固有的高維特性,LFI質量評估變成多維問題,需要考慮空間和角度尺寸的質量下降。因此,我們提出了一種基于張量理論的新型Tensor定向無參考光場圖像質量評估器Tensor NLFQ。具體地,由于LFI被認為是低秩4D張量,因此通過Tucker分解獲得四個定向子孔徑視圖堆棧的主要分量。然后,主成分空間特征PCSC被設計為考慮其全局自然性和局部頻率特性來測量LFI的空間維度質量。最后,提出張量角度變化指數TAVI,通過分析視圖堆棧中第一主成分和每個視圖之間的結構相似性分布來測量角度一致性質量。四個公開可用的LFI質量數據庫的廣泛實驗結果表明,所提出的Tensor NLFQ模型優于最先進的2D,3D,多視圖和LFI質量評估算法。 |
| The application of Convolutional Neural Networks to Detect Slow, Sustained Deformation in InSAR Timeseries Authors N. Anantrasirichai, J. Biggs, F. Albino, D. Bull 用于檢測衛星InSAR圖像變形的自動化系統可用于開發用于火山和城市環境的全球監測系統。在這里,我們探索了CNN的極限,用于檢測包裹干涉圖中緩慢,持續的變形。使用合成數據,我們估計僅變形信號的檢測閾值為3.9cm,當考慮大氣偽影時為6.3cm。由于在不改變SNR的情況下產生更多條紋,過度包裹將其分別減小到1.8cm和5.0cm。我們測試了Campi Flegrei和Dallol累積變形的時間序列方法,其中過度包裝可將分類性能提高多達15個。我們提出了一種均值濾波方法,用于將不同包裹參數的結果組合成標志變形。在Campi Flegrei,60天后檢測到8.5cm的變形,在Dallol,310天后檢測到3.5cm的變形。這相當于3厘米和4厘米的累積位移,與基于合成數據的估計一致。 |
| Robust Navigation with Language Pretraining and Stochastic Sampling Authors Xiujun Li, Chunyuan Li, Qiaolin Xia, Yonatan Bisk, Asli Celikyilmaz, Jianfeng Gao, Noah Smith, Yejin Choi 視覺和語言導航的核心VLN挑戰是構建健壯的指令表示和動作解碼方案,這些方案可以很好地概括到以前看不見的指令和環境。在本文中,我們報告了兩種簡單但非常有效的方法來應對這些挑戰并導致新的最新技術性能。首先,我們調整大規模預訓練語言模型,以學習更好地概括以前看不見的指令的文本表示。其次,我們提出了一種隨機抽樣方案,以減少訓練中的專家操作和測試中的采樣操作之間的相當大的差距,以便代理可以學習在長時間順序動作解碼期間糾正自己的錯誤。結合這兩種技術,我們在房間到房間的基準測試中實現了新的最新技術水平,其中6個絕對增益優于先前的最佳結果47 53,成功率由路徑長度度量加權。 |
| Super-resolved Chromatic Mapping of Snapshot Mosaic Image Sensors via a Texture Sensitive Residual Network Authors Mehrdad Shoeiby, Lars Petersson, Mohammad Ali Armin, Sadegh Aliakbarian, Antonio Robles Kelly 本文介紹了一種同時對快照鑲嵌傳感器采集的圖像進行超分辨和彩色預測的新方法。這些傳感器允許使用低功率,小尺寸,固態CMOS傳感器采集光譜圖像,這些傳感器可以視頻幀速率工作,無需復雜的光學設置。盡管它們具有期望的特性,但它們的主要缺點源于這些傳感器獲取的圖像的空間分辨率低的事實。此外,快照鑲嵌傳感器中的彩色映射并不簡單,因為傳感器傳送的頻帶往往很窄并且在它們工作的范圍內不均勻地分布。我們通過使用配備有紋理敏感塊的殘余信道關注網絡來解決應用于彩色映射的這一缺點。我們的方法明顯優于傳統的插值圖像方法,然后應用顏色匹配功能。這項工作確立了該領域的最新技術水平,同時還向研究界提供了包含296個注冊的立體多光譜RGB圖像對的數據集。 |
| REO-Relevance, Extraness, Omission: A Fine-grained Evaluation for Image Captioning Authors Ming Jiang, Junjie Hu, Qiuyuan Huang, Lei Zhang, Jana Diesner, Jianfeng Gao 用于評估圖像字幕系統的常用指標,例如BLEU和CIDEr,提供單一分數來衡量系統的整體有效性。該分數通常不足以指示給定系統發生的具體錯誤。在這項研究中,我們提出了一種細粒度的評估方法REO,用于自動測量圖像字幕系統的性能。 REO從三個方面評估字幕的質量1與基礎事實的相關性,2與基本事實無關的內容的額外性,以及圖像和人類參考中元素的省略。對三個基準數據集的實驗表明,我們的方法與人類判斷具有更高的一致性,并提供比其他指標更直觀的評估結果。 |
| Towards Precise Robotic Grasping by Probabilistic Post-grasp Displacement Estimation Authors Jialiang Zhao, Jacky Liang, Oliver Kroemer 精確的機器人抓取對于許多工業應用是重要的,例如裝配和碼垛,其中物體的位置需要被控制和已知。然而,由于傳感和控制中的噪聲以及未知的物體特性,實現精確的抓取是具有挑戰性的。我們提出了一種通過訓練兩個卷積神經網絡來計算機器人抓握的方法,該方法既健壯又精確,一個用于預測抓握的魯棒性,另一個用于預測抓握后物體位移的分布。我們的網絡在超過1000個工業零件的數據集上進行模擬深度圖像訓練,并成功部署在真實的機器人上,無需進一步微調。在現實世界的實驗中,所提出的位移估計器在新物體上實現了0.68cm和3.42deg的平均預測誤差。 |
| Decoupled Box Proposal and Featurization with Ultrafine-Grained Semantic Labels Improve Image Captioning and Visual Question Answering Authors Soravit Changpinyo, Bo Pang, Piyush Sharma, Radu Soricut 對象檢測在當前的視覺和語言任務解決方案中發揮著重要作用,如圖像字幕和視覺問答。然而,像Faster R CNN這樣的流行模型依賴于為邊界框及其相應的語義標簽注釋基礎事實的昂貴過程,使其不太適合作為轉移學習的原始任務。在本文中,我們研究了解耦框提議和特征化對下游任務的影響。關鍵的見解是,這使我們能夠利用以前無法用于標準對象檢測基準的大量標記注釋。根據經驗,我們證明這可以導致有效的轉移學習和改進的圖像字幕和視覺問答模型,這是根據公開可用的基準測量的。 |
| DCGANs for Realistic Breast Mass Augmentation in X-ray Mammography Authors Basel Alyafi, Oliver Diaz, Robert Marti 乳腺癌的早期檢測對可固化性有很大貢獻,并且使用乳房X線照相圖像,這可以非侵入性地實現。監督深度學習,目前占主導地位的CADe工具,在計算機視覺中的對象檢測中發揮了重要作用,但它受限于需要大量標記數據的特性。當涉及需要高成本和耗時注釋的醫療數據集時,這變得更加嚴格。此外,醫療數據集通常是不平衡的,這種情況往往會妨礙分類器的性能。本文的目的是學習少數群體的分布,以合成新的樣本,以改善乳房X光檢查中的病變檢測。深度卷積生成性對抗網絡DCGAN可以有效地生成乳房腫塊。他們接受培訓,增加一個乳腺攝影數據集的大小子集,并用于生成多樣和逼真的乳房腫塊。在通過完全卷積網絡對110質量和正常組織塊的不平衡數據集進行分類的環境中測試包括所生成的圖像和/或應用水平和垂直翻轉的效果。通過使用DCGAN以及使用原始圖像的翻轉增強來報告最大0.09的F1得分改善。我們證明DCGAN可以用于合成具有相當多樣性的照片逼真的乳房腫塊。結果表明,在這種環境中附加合成圖像以及翻轉,優于單獨翻轉的傳統增強方法,作為訓練集大小的函數提供更快的改進。 |
| TIGEr: Text-to-Image Grounding for Image Caption Evaluation Authors Ming Jiang, Qiuyuan Huang, Lei Zhang, Xin Wang, Pengchuan Zhang, Zhe Gan, Jana Diesner, Jianfeng Gao 本文提出了一種名為TIGEr的新指標,用于圖像字幕系統的自動評估。流行指標,例如BLEU和CIDEr,僅基于參考字幕和機器生成的字幕之間的文本匹配,可能導致有偏見的評估,因為參考可能不完全覆蓋圖像內容,并且自然語言本質上是模糊的。基于機器學習的文本圖像接地模型,TIGEr不僅可以根據字幕表示圖像內容的程度來評估字幕質量,還可以評估機器生成的字幕與人工生成字幕的匹配程度。我們的實證檢驗表明,與其他現有指標相比,TIGEr與人類判斷具有更高的一致性。我們還通過測量人類判斷與度量分數之間的相關性,全面評估字幕評估中度量的有效性。 |
| Online Regularization by Denoising with Applications to Phase Retrieval Authors Zihui Wu, Yu Sun, Jiaming Liu, Ulugbek S. Kamilov 通過去噪RED進行正則化是解決成像逆問題的有力框架。大多數RED算法都是迭代批處理程序,這限制了它們對非常大的數據集的適用性。在本文中,我們通過引入一種新的在線RED On RED算法來解決這一局限,該算法一次處理一小部分數據。我們通過闡明其在相位檢索中的適用性,在凸面設置中建立On RED的理論收斂性,并通過實證討論其在非凸面中的有效性。我們的結果表明,在處理大型數據集時,On RED是傳統RED算法的有效替代方法。 |
| Chinese Abs From Machine Translation |
Papers from arxiv.org
更多精彩請移步主頁
pic from pexels.com
總結
以上是生活随笔為你收集整理的【AI视野·今日CV 计算机视觉论文速览 第155期】Fri, 6 Sep 2019的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 金蝶K3 数据表知识整理(不断完善)
- 下一篇: android 如何解锁屏幕,2解锁屏幕