重磅开源人工智能大型场景草图数据集图像检索草图着色编辑和字幕
重磅開源人工智能大型場景草圖數據集圖像檢索草圖著色編輯和字幕摘要:我們提供了第一個大型場景草圖數據集SketchyScene,目的是推進對物體和場景層面的素描研究。該數據集是通過一個新穎且精心設計的眾包管道創建的,使用戶能夠有效地生成大量逼真和多樣化的場景草圖。 SketchyScene包含超過29,000個場景級草圖,7,000多對場景模板和照片,以及11,000多個對象草圖。場景草圖中的所有對象都具有地面實況語義和實例掩碼。該數據集還具有高度可擴展性和可擴展性,可輕松擴展和/或更改場景組成。我們通過訓練場景草圖語義分割的新計算模型,展示新數據集如何實現多種應用,包括圖像檢索,草圖著色,編輯和字幕等,展示了SketchyScene的潛在影響。數據集和代碼可以在ECCV 2018 SketchyScene。
重磅開源人工智能大型場景草圖數據集圖像檢索草圖著色編輯和字幕簡介:在數據驅動計算時代,大規模數據集已成為改進和區分機器學習算法的性能,穩健性和通用性的驅動力。近年來,計算機視覺社區已經接受了許多用于圖像的大型且豐富注釋的數據集(例如,ImageNET [8]和Microsoft COCO [15]),3D對象(例如,ShapeNET [2,30]和PointNET [17] ])和場景環境(例如,SUN [31]和紐約大學數據庫[22])。在視覺形式的各種表現形式中,手繪草圖占據了特殊的位置,因為與大多數其他形象不同,它們來自人類創造。人類非常熟悉草圖作為一種藝術形式,草圖可以說是最緊湊,最直觀,最常用的機制,可以直觀地表達和傳達我們的印象和想法。
最近在計算機視覺和圖形的草圖理解和基于草圖的建模方面取得了重大進展。一些大型的草圖數據集[9,19,10]也在此過程中得到了構建和利用。然而,這些數據集都是由對象草圖形成的,草圖分析和處理任務大部分都在筆劃或對象層面。將兩者擴展到場景級別是對草繪視覺形式的更深層次和更豐富的推理的自然進展。隨后的分析和數據合成問題變得更具挑戰性,因為草繪的場景可能包含以復雜方式交互的許多對象。雖然場景理解是計算機視覺的標志性任務之一,但是對場景草圖的理解問題尚未得到很好的研究。
在本文中,我們介紹了第一個大型的場景草圖數據集,我們將其稱為SketchyScene,以便于在對象和場景級別進行草圖理解和處理。顯然,將圖像轉換為邊緣圖[32]是行不通的,因為結果與手繪草圖的特征不同。基于預定義的布局模板自動組合現有的對象草圖并將對象草圖擬合到庫存照片中都是具有挑戰性的問題,這些問題不太可能產生大量的實際結果(參見圖2(b))。在我們的工作中,我們采用眾包設計并設計一個新穎直觀的界面,以減輕用戶的負擔并提高他們的生產力。我們提供對象草圖,以便通過簡單的交互式操作(如拖放和縮放對象草圖)創建場景草圖,而不是要求用戶從頭開始繪制整個場景草圖(這可能是單調乏味和令人生畏的)。 。為了確保場景草圖的多樣性和真實性,我們提供參考圖像以指導/激勵用戶在草圖生成期間。通過用戶友好的界面,參與者可以有效地創建高質量的場景草圖。另一方面,以這種方式合成的場景草圖大體上是粗略的草圖[9,19],它們與專業藝術家制作的草圖不太相似。
SketchyScene包含對象和場景級數據,并附帶豐富的注釋。總的來說,該數據集包含超過29,000個場景草圖和超過11,000個屬于45個常見類別的對象草圖。此外,還提供了超過7,000對場景草圖模板和參考照片以及超過200,000個標記實例。請注意,場景草圖中的所有對象都具有地面實況語義和實例掩碼。更重要的是,SketchyScene由于其面向對象的合成機制而具有靈活性和可擴展性。可以使用SketchyScene中的可用實例切換/切出草圖場景模板中的對象草圖,以豐富數據集。
我們通過實驗證明了SketchyScene的潛在影響。最重要的是,數據集提供了一個跳板來調查與場景草圖相關的各種問題(在“場景草圖”上快速的Google圖像搜索會返回數百萬個結果)。在我們的工作中,我們首次研究了場景草圖的語義分割。為此,我們評估了高級自然圖像分割模型DeepLab-v2 [3],探索了不同因素的影響并提供了豐富的見解。我們還演示了新數據集啟用的幾個應用程序,包括基于草圖的場景圖像檢索,草圖著色,編輯和字幕。
相關工作:大型草圖數據集,近年來,大規模的草圖數據集大量增加,主要受草圖識別/合成[9,10]和SBIR [35,19]等應用的推動。然而,該領域仍然相對欠發達,現有數據集主要促進草圖的對象級分析。這是人類草圖數據無處不在的直接結果 - 除了免費自動抓取(如照片)之外,它們必須經過精心挑選。
TU-Berlin [9]是第一個這樣的大型人群素描數據集,主要用于草圖識別。它包含20,000個草圖,涵蓋250多個類別。最近的QuickDraw [10]數據集要大得多,在345個類別中有5000萬個草圖。雖然足夠大以便于中風水平分析[6],但這些數據集中的草圖是通過勾畫出一個語義概念(例如“貓”,“房子”)而產生的,沒有參考照片或自然的精神回憶場景/對象。這極大地限制了所描繪的視覺細節和變化的水平,因此使它們不適合細粒度匹配和場景級解析。例如,面部幾乎都在正面視圖中,并在QuickDraw中描繪為笑臉。
[35]和[19]的并行工作通過收集FG-SBIR的對象實例草圖進一步推進了該領域。 QMUL數據庫[35]包括兩個對象類別(鞋和椅子)的716個草圖 - 照片對,參考照片從在線購物網站上爬行。 Sketchy [19]包含75,471個草圖和12,500張相應照片,涵蓋范圍更廣的類別(共125個)。對象實例草圖是通過要求眾包來描繪他們對參考照片的精神回憶而產生的。與概念草圖[9,10]相比,它們基本上展示了更多的對象細節,并且與參考照片具有匹配的姿勢。然而,對于這個項目而言,兩者的共同缺點在于其有限的姿勢選擇和對象配置。 QMUL草圖在單個對象配置下僅展示一個對象姿勢(側視圖)。場景草圖雖然展示了更多的物體姿勢和配置,但仍然受到限制,因為它們的參考照片主要由以相對平坦的背景為中心的單個物體組成(因此描繪沒有物體相互作用)。這個缺點實際上使它們都不適合我們的場景草圖解析任務,其中復雜的相互對象交互決定了高度的對象姿勢和配置變化,以及細微的細節。例如,在圖1中描繪的野餐場景中,人們以不同的姿勢和配置出現,彼此之間具有微妙的眼神接觸。圖2(c)顯示了使用Sketchy和TU-Berlin的草圖的組成結果。
重磅開源人工智能大型場景草圖數據集圖像檢索草圖著色編輯和字幕貢獻:SketchyScene是第一個專門為場景級草圖理解而設計的大型數據集。它與上述所有數據集的不同之處在于它超越了單個對象草圖理解以處理場景草圖,并且有目的地包括具有不同姿勢,配置和對象細節的各種對象草圖選擇以適應復雜的場景級對象交互。雖然現有數據集Abstract Scenes [38]為理解視覺數據中的高級語義信息提供了類似的動機,但它們關注的是使用剪輯藝術組成的抽象場景,其中包括更多的視覺線索,如顏色和紋理。此外,他們的場景僅限于描述兩個角色和少數幾個對象之間的交互,而SketchyScene中的場景內容和相互對象交互則很多更多樣化。
重磅開源人工智能大型場景草圖數據集圖像檢索草圖著色編輯和字幕Sketch理解,草圖識別可能是草圖理解中研究最多的問題。自TU-Berlin數據集[9]發布以來,已經提出了許多工作,并且識別性能早已超過人類水平[36]。現有的算法可以大致分為兩類:1)使用手工制作的特征[9,20],2)學習深度特征表示[36,10],后者通常明顯優于前者保證金。其他工作流已經深入研究將對象級草圖解析為其語義部分。 [25]提出了一種用于零件級和。級的熵下降筆劃合并算法對象級草圖分割。黃等人。 [13]利用由語義標記組件組成的3D模板模型庫來導出部分級結構。 Schneider和Tuytelaars [21]通過觀察CRF框架下的顯著幾何特征(如T結和X結)來進行草圖分割。這項工作不是研究單個對象識別或部分級草圖分割,而是通過提出第一個大型場景草圖數據集,對草圖的場景級解析進行探索性研究。
Scene草圖應用程序,雖然沒有先前的工作旨在解析場景級的草圖,但已經提出了一些利用場景草圖作為輸入的有趣應用。 Sketch2Photo [5]是一個結合草圖和照片蒙太奇的系統,用于逼真的圖像合成,其中Sketch2Cartoon [28]是一個類似于卡通圖像的系統。同樣地,假設物體已在粗略場景中被分割,Xu等人。 [33]提出了一個名為sketch2scene的系統,它通過將檢索到的3D形狀與2D草圖場景中的分割對象對齊來自動生成3D場景。 Sketch2Tag [26]是一個SBIR系統,其中場景項被自動識別并用作文本查詢以提高檢索性能。除了例外,所有上述應用都涉及手動標記和/或感知草圖的分割。在這項工作中,我們提供了場景草圖的自動分割方法,并通過提出一些新的應用程序來展示所提議的數據集的潛力。
SketchyScene數據集,場景草圖數據集應該在其配置,對象交互和細微外觀細節方面反映具有足夠多樣性的場景,其中草圖還應包含不同類別的多個對象。此外,數據集的數量很重要,特別是在深度學習的背景下。然而,如前所述,基于現有數據集構建此類數據集是不可行的,而從人類收集數據可能既昂貴又耗時,因此需要高效且有效的數據收集管道。最簡單的解決方案是讓人們直接用提供的對象或場景標簽繪制場景作為提示(即[9]中使用的策略)。不幸的是,這種方法在我們的案例中被證明是不可行的:(1)大多數人不是受過訓練的藝術家。結果,他們努力繪制場景中存在的復雜物體,特別是當它們處于不同的姿勢和物體配置時(見圖2(d)); (2)雖然不同的人有不同的繪畫風格,但人們傾向于畫出特定的場景布局。例如,鑒于暗示“幾個人在地上玩耍,太陽,樹,云,氣球和狗”,人們總是沿著水平線繪制物體。這使得收集的場景草圖布局單調,視覺特征稀疏。 (3)重要的是,這個解決方案是不可擴展的 - 一般人需要大約8分鐘才能完成合理質量的場景草圖,專業人員花費18分鐘(參見圖2(e))。這將禁止我們收集大規模數據集。
因此設計了一種新的數據收集策略,即通過在參考圖像的指導下組合所提供的對象組件來合成粗略場景。整個過程包括三個步驟。第1步:數據準備。我們為數據集選擇了45個類別,包括對象和東西類。具體來說,我們首先考慮幾個常見場景(例如,花園,農場,餐廳和公園),并從中提取100個對象/東西類作為原始候選。然后我們定義了三個超類,即天氣,對象和場(環境),并將候選分配到每個超類中。最后,我們通過考慮他們在現實生活中的組合和共性來從他們中選出45個。
我們沒有要求工人繪制每個對象,而是為他們提供了大量的對象草圖(每個對象候選者也稱為“組件”)作為候選者。為了在姿勢和外觀方面對物體外觀有足夠的變化,我們搜索并下載了每個類別約1,500個組件。然后,我們聘請了5名經驗豐富的工人,從具有多個組件的草圖中手動挑選出包含單個組件或切口單個組件的草圖。對于一些搜索組件很少的類別(<20),如“傘”,組件通過手動繪圖進行了擴充。我們共收集了所有44個類別的11,316個組件(不包括“道路”,均為手繪,“其他”)。每個類別的這些組件分為三組:訓練(5468),驗證(2362)和測試(3486)。 45個類別的代表性組件如圖3所示。
為了保證數據集中場景布局的多樣性,我們還添加了一組卡通照片作為參考圖像。蘇氨酸我們從每個預定義的超類(例如,太陽(天氣),兔子(對象),山峰(環境))對類標簽進行采樣,我們生成了1,800個查詢項目1.每個檢索到大約300張卡通照片 查詢項目。 手動重新移動重復的圖像后,有7,264個參考圖像(4730個圖像是唯一的)。 這些參考圖像也被分成三組用于訓練(5,616),驗證(535)和測試(1,113)。步驟2:場景草圖合成。 為了提高人類創作者的效率,我們設計了一個基于網絡的習慣用于草圖場景合成的應用程序。 關于80名工人被雇用來制作場景草圖。圖4顯示了應用程序的界面(名為“USketch”)。
如前所述,我們通過允許工作人員在參考圖像的引導下拖動,旋轉,縮放和變形組件草圖,促進了粗略場景圖像的創建。該過程詳見圖4.值得注意的是(1)我們為不同的工人提供了不同的組件草圖(甚至是同一類別),以隱含地控制對象草圖的多樣性。否則,工人傾向于從候選池中選擇前幾個樣本; (2)我們要求工人在場景合成期間盡可能地產生各種遮擋。這是為了模擬真實場景并促進分割研究。我們的服務器記錄了由此產生的粗略場景的每個場景項的變換和語義標簽。
在此步驟中,我們使用相應組件庫中的組件,基于每個參考圖像收集一個場景草圖。因此,我們獲得了7,264個獨特的場景草圖。這些獨特的場景草圖進一步用作場景模板以生成更多場景草圖。
第3步:注釋和數據擴充。參考圖像設計用于幫助工作人員編寫場景并豐富場景草圖的布局。但是,參考圖像中的對象不一定包含在我們的數據集中,即45個類別。為了通過提供更準確的注釋來促進未來的研究,我們要求工作人員注釋每個對象實例的對齊狀態。
鑒于我們的數據集中有大量組件,有效的數據增強策略是將對象草圖替換為同一類別中的其余組件。具體來說,我們為每個工人生成的場景自動生成了另外20個場景草圖,并要求工人為Step2的每個場景模板選擇4個最合理的場景。最后,我們在數據增強后獲得了29K +粗略的場景圖像。數據集統計與分析。總而言之,我們完全獲得:
人類創造的1.7,264個獨特的場景模板。每個場景模板包含至少3個對象實例,其中對象實例的最大數量為94.平均每個模板有16個實例,6個對象類和7個包含的實例。被遮擋實例的最大數量為66.圖5示出了物體頻率的分布。
數據增加后2.29,056個場景草圖(步驟3);
3.11,316個屬于44個類別的對象草圖。這些組件可用于對象級草圖研究任務;
4.4730獨特的參考卡通風格圖像,其成對對象與場景草圖相對應;
5.所有草圖都具有100%準確的語義級和實例級分段注釋(如圖6所示)。
可擴展性。通過數據集中提供的場景模板和草圖組件,可以進一步擴充SketchyScene。 (1)人們可以對每個草圖部分進行分割,以獲得部分級別或筆劃級別的信息; (2)草圖組件可以替換為來自其他資源的草圖,以生成具有更多樣式的場景草圖。
重磅開源人工智能大型場景草圖數據集圖像檢索草圖著色編輯和字幕結論,討論和未來的工作,在本文中,我們介紹了第一個大型的場景草圖數據集,稱為SketchyScene。 它包含總共29,056個場景草圖,使用7,264個場景模板和11,316個對象草圖生成。 場景中的每個對象都進一步增加了語義標簽和實例級掩碼。 數據集是在模塊化數據收集過程之后收集的,這使得它具有高度可擴展性和可擴展性。 我們已經展示了將多個基于圖像的分割模型適應場景草圖數據的主要挑戰和信息性見解。 有一些很有希望的未來方向可以進一步增強我們的場景草圖數據集,包括添加場景級注釋和文本標題以啟用基于文本的場景生成等應用程序。
開源關鍵詞:SketchyScene
原文標題:SketchyScene: Richly-Annotated Scene Sketches
from:?http://www.sohu.com/a/246667938_100177858?
總結
以上是生活随笔為你收集整理的重磅开源人工智能大型场景草图数据集图像检索草图着色编辑和字幕的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 金城教授:基于手绘草图的图像检索技术研究
- 下一篇: python数字图像处理(17):边缘与