[MICCAI 2019 | CVPR 2020] 图数据,点云相关文章总结综述,一篇即可看完文章模型结构和创新
[1] Integrating 3D Geometry of Organ for Improving Medical Image Segmentation,MICCAI2019,Part5
?????? 器官形狀和位置的先驗(yàn)知識(shí)在醫(yī)學(xué)影像分割中起著重要作用。但是,傳統(tǒng)的2D / 3D分割方法通常以像素/體素分類器的方式工作,其訓(xùn)練目標(biāo)無(wú)法明確地合并3D形狀知識(shí)。本文中提出了一種深度形狀感知網(wǎng)絡(luò)來(lái)學(xué)習(xí)器官的3D幾何形狀。更具體地說(shuō),該網(wǎng)絡(luò)在基于圖形的CNN中使用3D網(wǎng)格表示,可以有效處理形狀推斷和精度傳播。將形狀感知模塊集成到主干FCN中,并在多任務(wù)框架中共同訓(xùn)練完整模型后。中間特征表示的判別能力在幾何關(guān)系和分割正則化方面都得到了增強(qiáng)。網(wǎng)絡(luò)不僅可以輸出準(zhǔn)確的分割結(jié)果,而且還可以同時(shí)生成平滑的3D網(wǎng)格,可用于進(jìn)一步的3D形狀分析。
?
?
?
[2] An Efficient PointLSTM for Point Clouds Based Gesture Recognition, CVPR2020
?????? 點(diǎn)云包含豐富的空間信息,為手勢(shì)識(shí)別提供了補(bǔ)充線索。本文將手勢(shì)識(shí)別公式化為不規(guī)則的序列識(shí)別問(wèn)題,旨在捕獲點(diǎn)云序列之間的長(zhǎng)期空間相關(guān)性。因而提出了PointLSTM框架,以在保持空間結(jié)構(gòu)的同時(shí)傳播過(guò)去到未來(lái)的信息。PointLSTM將過(guò)去相鄰點(diǎn)的狀態(tài)信息與當(dāng)前功能相結(jié)合,以通過(guò)權(quán)重共享的LSTM層更新當(dāng)前狀態(tài)。
?????? 本文認(rèn)為,與RGB數(shù)據(jù)相比,點(diǎn)云精確地描述了對(duì)象表面的潛在幾何結(jié)構(gòu)和距離信息。遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和長(zhǎng)短期記憶(LSTM)在序列建模方面是可以借鑒的。借助LSTM,可以捕獲時(shí)空對(duì)應(yīng)隨時(shí)間變化的運(yùn)動(dòng)和外觀變化。但是大多數(shù)點(diǎn)云數(shù)據(jù)都是無(wú)序的,直接在未對(duì)齊的點(diǎn)云序列上應(yīng)用權(quán)重共享的LSTM層會(huì)導(dǎo)致優(yōu)化困難。因此,如何在保持空間結(jié)構(gòu)的同時(shí)利用時(shí)間信息是不規(guī)則序列建模的主要挑戰(zhàn)。
?????? 本文因此提出了PointLSTM,框架如下。
?????? LSTM與注意力機(jī)制天然就有一定的關(guān)系,這篇文章的解決的問(wèn)題是在長(zhǎng)時(shí)間序列的數(shù)據(jù)處理問(wèn)題。
?
[3] PatchVAE: Learning Local Latent Codes for Recognition,CPVR2020
??????
??????
本文認(rèn)為,要訓(xùn)練一個(gè)新結(jié)構(gòu),則必須為該概念收集數(shù)千個(gè)帶有標(biāo)簽的示例,并訓(xùn)練功能強(qiáng)大的分類器,因?yàn)楫?dāng)前基于深度神經(jīng)網(wǎng)絡(luò)的模型生成需要大量的標(biāo)記數(shù)據(jù)。但是,受監(jiān)督的學(xué)習(xí)范式不適用于諸如醫(yī)療保健和機(jī)器人技術(shù)之類的應(yīng)用程序,這些應(yīng)用程序由于隱私問(wèn)題或?qū)<胰斯ぷ⑨尩母甙撼杀径y以獲取注釋數(shù)據(jù)。在這種情況下,無(wú)監(jiān)督學(xué)習(xí)十分適用。
?????? 本文因此提出了一種新穎的無(wú)監(jiān)督VAE模型,該表示形式僅對(duì)圖像中在整個(gè)數(shù)據(jù)集中重復(fù)的部分進(jìn)行編碼,即圖像中經(jīng)常出現(xiàn)的部分。通過(guò)避免整個(gè)圖像的重建,模型專注于在許多圖像上重復(fù)且一致的區(qū)域。在基于編碼器-解碼器的生成模型中,本文限制編碼器體系結(jié)構(gòu)以學(xué)習(xí)此類重復(fù)部分-既包括這些部分(或圖像中的小塊)的外觀表示形式,也包括這些部分的出現(xiàn)位置。本文認(rèn)為這種PatchVAE模型比標(biāo)準(zhǔn)β-VAEs的學(xué)習(xí)的識(shí)別性要好得多。
?????? 本周推到了其數(shù)學(xué)結(jié)構(gòu)
?????? 回顧beta-VAE的損失函數(shù)
?????? 給定圖像x,令f =φ(x)是確定性映射,該映射生成大小為h×w×de的3D張量f,總共有L = h×w個(gè)網(wǎng)格單元。 為了讓編碼器網(wǎng)絡(luò)僅對(duì)與高度重復(fù)的色塊相對(duì)應(yīng)的圖像部分進(jìn)行編碼(例如,隨機(jī)出現(xiàn)的噪聲patch不太可能經(jīng)常出現(xiàn),而諸如臉,輪子,窗戶等圖案會(huì)在多個(gè)圖像上重復(fù)出現(xiàn)),將f對(duì)應(yīng)預(yù)測(cè)圖像中頻繁出現(xiàn)的部分,并僅使用這些預(yù)測(cè)的部分來(lái)重構(gòu)圖像。
?????? 在encoder中,給定圖像的映射f =φ(x),學(xué)習(xí)每個(gè)網(wǎng)格位置l(其中l(wèi)∈{1,...,L})的部分表示。即圖中出現(xiàn)的zapp和zlocc(對(duì)應(yīng)這部分在網(wǎng)格位置l處的存在或不存在)參數(shù)化。使用兩個(gè)網(wǎng)絡(luò)QAf和QOf分別參數(shù)化zapp和zlocc的后驗(yàn)分布QAf(zapp | f)和QOf(zlocc | f)。
?????? 由于映射f =φ(x)是確定性的,因此可以將這些分布重寫(xiě)為QAf(zapp |φ(x))和QOf(zlocc |φ(x))來(lái)進(jìn)行解碼。利用給定zocc和zapp的生成器或解碼器網(wǎng)絡(luò)G重建圖像。首先,對(duì)zapp進(jìn)行采樣,然后對(duì)后代中每個(gè)位置l的部分出現(xiàn)zbinarylocc進(jìn)行采樣
?????? 然后僅在zlocc = 1的地方使用zapp組成最后的向量z,輸入decoder開(kāi)始訓(xùn)練。即
?????? 最后patchVAE的損失函數(shù)為
?????? 本文聲稱自己的模型可以摒棄數(shù)據(jù)集中不重要的部分,僅針對(duì)持續(xù)出現(xiàn)的部分進(jìn)行編碼和解碼,并稱此模型的識(shí)別度相比于一般模型要好。我認(rèn)為,如果能講通—我們的生成模型也需要排除數(shù)據(jù)集中的噪聲,并且聲稱人眼/機(jī)器識(shí)別度更好的點(diǎn)云數(shù)據(jù),那就能講得通將這個(gè)模型用在我們的模型上的動(dòng)機(jī)。
?
本文認(rèn)為,要訓(xùn)練一個(gè)新結(jié)構(gòu),則必須為該概念收集數(shù)千個(gè)帶有標(biāo)簽的示例,并訓(xùn)練功能強(qiáng)大的分類器,因?yàn)楫?dāng)前基于深度神經(jīng)網(wǎng)絡(luò)的模型生成需要大量的標(biāo)記數(shù)據(jù)。但是,受監(jiān)督的學(xué)習(xí)范式不適用于諸如醫(yī)療保健和機(jī)器人技術(shù)之類的應(yīng)用程序,這些應(yīng)用程序由于隱私問(wèn)題或?qū)<胰斯ぷ⑨尩母甙撼杀径y以獲取注釋數(shù)據(jù)。在這種情況下,無(wú)監(jiān)督學(xué)習(xí)十分適用。
?????? 本文因此提出了一種新穎的無(wú)監(jiān)督VAE模型,該表示形式僅對(duì)圖像中在整個(gè)數(shù)據(jù)集中重復(fù)的部分進(jìn)行編碼,即圖像中經(jīng)常出現(xiàn)的部分。通過(guò)避免整個(gè)圖像的重建,模型專注于在許多圖像上重復(fù)且一致的區(qū)域。在基于編碼器-解碼器的生成模型中,本文限制編碼器體系結(jié)構(gòu)以學(xué)習(xí)此類重復(fù)部分-既包括這些部分(或圖像中的小塊)的外觀表示形式,也包括這些部分的出現(xiàn)位置。本文認(rèn)為這種PatchVAE模型比標(biāo)準(zhǔn)β-VAEs的學(xué)習(xí)的識(shí)別性要好得多。
?????? 本周推到了其數(shù)學(xué)結(jié)構(gòu)
?????? 回顧beta-VAE的損失函數(shù)
?????? 給定圖像x,令f =φ(x)是確定性映射,該映射生成大小為h×w×de的3D張量f,總共有L = h×w個(gè)網(wǎng)格單元。 為了讓編碼器網(wǎng)絡(luò)僅對(duì)與高度重復(fù)的色塊相對(duì)應(yīng)的圖像部分進(jìn)行編碼(例如,隨機(jī)出現(xiàn)的噪聲patch不太可能經(jīng)常出現(xiàn),而諸如臉,輪子,窗戶等圖案會(huì)在多個(gè)圖像上重復(fù)出現(xiàn)),將f對(duì)應(yīng)預(yù)測(cè)圖像中頻繁出現(xiàn)的部分,并僅使用這些預(yù)測(cè)的部分來(lái)重構(gòu)圖像。
?????? 在encoder中,給定圖像的映射f =φ(x),學(xué)習(xí)每個(gè)網(wǎng)格位置l(其中l(wèi)∈{1,...,L})的部分表示。即圖中出現(xiàn)的zapp和zlocc(對(duì)應(yīng)這部分在網(wǎng)格位置l處的存在或不存在)參數(shù)化。使用兩個(gè)網(wǎng)絡(luò)QAf和QOf分別參數(shù)化zapp和zlocc的后驗(yàn)分布QAf(zapp | f)和QOf(zlocc | f)。
?????? 由于映射f =φ(x)是確定性的,因此可以將這些分布重寫(xiě)為QAf(zapp |φ(x))和QOf(zlocc |φ(x))來(lái)進(jìn)行解碼。利用給定zocc和zapp的生成器或解碼器網(wǎng)絡(luò)G重建圖像。首先,對(duì)zapp進(jìn)行采樣,然后對(duì)后代中每個(gè)位置l的部分出現(xiàn)zbinarylocc進(jìn)行采樣
?????? 然后僅在zlocc = 1的地方使用zapp組成最后的向量z,輸入decoder開(kāi)始訓(xùn)練。即
?????? 最后patchVAE的損失函數(shù)為
?????? 本文聲稱自己的模型可以摒棄數(shù)據(jù)集中不重要的部分,僅針對(duì)持續(xù)出現(xiàn)的部分進(jìn)行編碼和解碼,并稱此模型的識(shí)別度相比于一般模型要好。我認(rèn)為,如果能講通—我們的生成模型也需要排除數(shù)據(jù)集中的噪聲,并且聲稱人眼/機(jī)器識(shí)別度更好的點(diǎn)云數(shù)據(jù),那就能講得通將這個(gè)模型用在我們的模型上的動(dòng)機(jī)。
?
[4] Hierarchical Graph Attention Network for Visual Relationship Detection, CVPR2020
?????? 文章認(rèn)為,視覺(jué)關(guān)系檢測(cè)(VRD)通過(guò)<subject-predicate-object>的結(jié)構(gòu)三元組來(lái)描述兩個(gè)對(duì)象之間的關(guān)系。現(xiàn)有的基于圖的方法主要通過(guò)對(duì)象級(jí)圖來(lái)表示關(guān)系,而對(duì)象級(jí)圖則忽略了對(duì)三重態(tài)級(jí)依賴關(guān)系的建模,所以提出了一種分層圖形注意網(wǎng)絡(luò)(HGAT),以捕獲對(duì)象和三元組級(jí)的依賴關(guān)系。對(duì)象級(jí)圖旨在捕獲對(duì)象之間的交互,而三元組圖則建模關(guān)系之間的依賴關(guān)系。另外,引入了先驗(yàn)知識(shí)和注意力機(jī)制來(lái)將冗余或丟失的邊緣固定在根據(jù)空間相關(guān)性構(gòu)造的圖上。
??????
?????? 本文的圖注意力網(wǎng)絡(luò)主要用于目標(biāo)檢測(cè)(廣義上的分類任務(wù))。
?
?
[5] From Image Collections to Point Clouds with Self-supervised Shape and Pose Networks, CVPR2020
?
??????
?????? 本文專注于從2D圖像生成3D點(diǎn)云。與使用3D監(jiān)督或多視圖監(jiān)督的其他模型不同的是,本文在訓(xùn)練期間也僅使用單視圖圖像。這使得該模型只需要收集對(duì)象類別和相應(yīng)輪廓的圖像即可。本文利用可微分的點(diǎn)云渲染器以2D監(jiān)督進(jìn)行訓(xùn)練,以自監(jiān)督的方式學(xué)習(xí)3D點(diǎn)云重構(gòu)和估計(jì)網(wǎng)絡(luò)。提出的技術(shù)的關(guān)鍵處在于,通過(guò)將隨機(jī)采樣的3D幾何預(yù)測(cè)加入點(diǎn)云中實(shí)現(xiàn)循環(huán)一致性。
?????? 可以看出,本文的2D圖像并非常規(guī)2D自然圖像,而是專門的輪廓圖。
?????? 本文的模型借鑒了cycle-GAN的思想來(lái)進(jìn)行單邊域轉(zhuǎn)換,但是總體結(jié)構(gòu)是數(shù)個(gè)VAE模型的組合。
?????? 本文是大框架上的借鑒。可以考慮將常規(guī)的VAE-GAN改進(jìn)為上圖的cycle-GAN來(lái)優(yōu)化模型生成。
?
[4] C-Flow: Conditional Generative Flow Models for Images and 3D Point Clouds, CVPR2020
?????? 本文提出了一個(gè)基于flow的生成模型,并認(rèn)為雖然這樣的模型在精確的對(duì)數(shù)似然評(píng)估和精確的潛在變量推斷中具有優(yōu)勢(shì),但是它們?nèi)蕴幱谄鸩诫A段,沒(méi)有像其他生成模型那樣受到廣泛關(guān)注。本文中的C-Flow是一種可將規(guī)范化flow引進(jìn)行多模式數(shù)據(jù)建模的模型。 C-Flow基于可逆映射的并行序列,其中源flow在各個(gè)步驟引導(dǎo)目標(biāo)flow,從而對(duì)生成過(guò)程進(jìn)行控制。
??????
?????? 文章認(rèn)為基于flow的生成模式相對(duì)于VAE和GAN,在精細(xì)度上更有優(yōu)勢(shì)。下面是生成圖
?
總結(jié)
以上是生活随笔為你收集整理的[MICCAI 2019 | CVPR 2020] 图数据,点云相关文章总结综述,一篇即可看完文章模型结构和创新的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 什么是场控?直播间的场控到底需要做些什么
- 下一篇: cortex - A7核中断实验——基于