稀疏张量网络
稀疏張量網絡
稀疏張量
在傳統語音,文本或圖像數據中,特征是密集提取的。因此,用于這些數據的最常見表示形式是矢量,矩陣和張量。但是,對于3維掃描或什至更高維的空間,這樣的密集表示效率不高,因為有效信息僅占空間的一小部分。取而代之,只能將信息保存在空間的非空區域上,這與將信息保存在稀疏矩陣上的方式類似。此表示是稀疏矩陣的N維擴展;因此,被稱為稀疏張量。
在Minkowski Engine中,采用稀疏張量作為基本數據表示形式,并且類提供為 MinkowskiEngine.SparseTensor。
稀疏張量網絡
壓縮神經網絡以加快推理速度并最小化內存占用已被廣泛研究。用于模型壓縮的流行技術之一是修剪卷積網絡中 的權重,也被稱為稀疏卷積網絡。用于模型壓縮的這種參數空間稀疏性仍然在密集張量上運行,并且所有中間激活也是密集張量。
然而,在這項工作中,專注于空間稀疏數據,尤其是稀疏張量的空間稀疏高維輸入和卷積網絡。還可以將這些數據表示為稀疏張量,并且在3D感知,配準和統計數據等高維問題中很常見。定義了專門用于這些輸入稀疏張量網絡的神經網絡 ,這些稀疏張量網絡處理并生成稀疏張量。為了構建稀疏張量網絡,與在密集張量上定義,并在Minkowski引擎中實現的相同方式,構建所有標準神經網絡層,例如MLP,非線性,卷積,歸一化,池化算子。
廣義卷積
卷積是許多領域的基本算子。在圖像感知中,卷積一直是在許多任務中實現最先進性能的關鍵,并且被證明是AI和計算機視覺研究中最關鍵的算子。在這項工作中,采用稀疏張量上的卷積,并提出了稀疏張量上的廣義卷積。廣義卷積將所有離散卷積合并為特例。不僅在3D空間軸上使用廣義卷積,還在任何任意維度上或在時間軸上都使用廣義卷積,這在某些應用中被證明比遞歸神經網絡(RNN)更有效。
具體來說,對通用輸入和輸出坐標以及任意內核形狀進行卷積。允許將稀疏張量網絡擴展到極高維的空間,并動態生成生成任務的坐標。而且,廣義卷積不僅包含所有稀疏卷積,還包括常規密集卷積。在下面列出了廣義卷積的一些特征和應用。
? 卷積核的稀疏張量允許使用專用核進行高維卷積
? 任意輸入坐標廣義卷積包含所有離散卷積
? 任意輸出坐標允許動態坐標生成和生成網絡重建和完成網絡
在密集的張量和稀疏的張量上可視化一個簡單的2D圖像卷積。注意,稀疏張量上的卷積排序不是順序的。
為了有效地計算稀疏張量上的卷積,必須找到如何將輸入稀疏張量中的每個非零元素映射到輸出稀疏張量。將此映射稱為內核映射,因為它定義了如何通過內核將輸入映射到輸出。
廣義卷積的特例
廣義卷積包含所有離散卷積作為特殊情況。將在本節中介紹一些特殊情況。首先,當輸入和輸出坐標都是網格上的所有元素時,即密集張量,廣義卷積等于密集張量上的規則卷積。其次,當輸入和輸出坐標是稀疏張量上非零元素的坐標時,廣義卷積就變成了稀疏卷積。同樣,當使用超十字形內核時,廣義卷積等效于可分離卷積。
References
? [1] Sparse Convolutional Neural Networks, CVPR’15
? [2] 3D Semantic Segmentation with Submanifold Sparse Convolutional Neural Networks, CVPR’18
? [3] 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks, CVPR’19
? [4] High-dimensional Convolutional Neural Networks for 3D Perception, Stanford University Chapter 4. Sparse Tensor Networks
總結
- 上一篇: 英伟达TRTTorch
- 下一篇: 稀疏张量基础