要約
視覚に基づく意味的情景補完(Semantic Scene Completion: SSC)は、様々な3次元知覚タスクに広く応用されており、注目を集めている。既存のsparse-to-denseアプローチは、通常、様々な入力画像間で共有されたコンテキストに依存しないクエリを用いるが、これは異なる入力の焦点領域が異なるため、入力画像間の区別を捉えることができず、クロスアテンションの無向きの特徴集約を引き起こす可能性がある。さらに、奥行き情報がないため、画像平面に投影された点が同じ2次元位置を共有したり、特徴マップのサンプリング点が類似したりする可能性があり、奥行きの曖昧さが生じる。本論文では、コンテキストとジオメトリを意識した新しいボクセル変換器を提案する。これはコンテキストを意識したクエリ生成器を利用し、個々の入力画像に合わせたコンテキスト依存のクエリを初期化することで、その画像固有の特徴を効果的に捉え、関心領域内の情報を集約する。さらに、2Dから3Dピクセル空間への変形可能なクロスアテンションを拡張し、深度座標に基づいて類似した画像座標を持つ点の区別を可能にする。このモジュールをベースに、意味的なシーン補完を実現するために、CGFormerと名付けられたニューラルネットワークを導入する。同時に、CGFormerは複数の3D表現(ボクセルとTPV)を活用し、変換された3Dボリュームの意味的・幾何学的表現能力を局所的・大域的観点から高める。実験の結果、CGFormerは、SemanticKITTIおよびSSCBench-KITTI-360ベンチマークにおいて、それぞれ16.87および20.05のmIoU、45.99および48.07のIoUを達成し、最先端の性能を達成した。驚くべきことに、CGFormerは、入力として時間画像を用いたアプローチや、はるかに大規模な画像バックボーンネットワークをも凌駕している。
要約(オリジナル)
Vision-based Semantic Scene Completion (SSC) has gained much attention due to its widespread applications in various 3D perception tasks. Existing sparse-to-dense approaches typically employ shared context-independent queries across various input images, which fails to capture distinctions among them as the focal regions of different inputs vary and may result in undirected feature aggregation of cross-attention. Additionally, the absence of depth information may lead to points projected onto the image plane sharing the same 2D position or similar sampling points in the feature map, resulting in depth ambiguity. In this paper, we present a novel context and geometry aware voxel transformer. It utilizes a context aware query generator to initialize context-dependent queries tailored to individual input images, effectively capturing their unique characteristics and aggregating information within the region of interest. Furthermore, it extend deformable cross-attention from 2D to 3D pixel space, enabling the differentiation of points with similar image coordinates based on their depth coordinates. Building upon this module, we introduce a neural network named CGFormer to achieve semantic scene completion. Simultaneously, CGFormer leverages multiple 3D representations (i.e., voxel and TPV) to boost the semantic and geometric representation abilities of the transformed 3D volume from both local and global perspectives. Experimental results demonstrate that CGFormer achieves state-of-the-art performance on the SemanticKITTI and SSCBench-KITTI-360 benchmarks, attaining a mIoU of 16.87 and 20.05, as well as an IoU of 45.99 and 48.07, respectively. Remarkably, CGFormer even outperforms approaches employing temporal images as inputs or much larger image backbone networks.
arxiv情報
著者 | Zhu Yu,Runmin Zhang,Jiacheng Ying,Junchen Yu,Xiaohai Hu,Lun Luo,Si-Yuan Cao,Hui-Liang Shen |
発行日 | 2024-10-04 03:36:08+00:00 |
arxivサイト | arxiv_id(pdf) |