Context and Geometry Aware Voxel Transformer for Semantic Scene Completion

要約

ビジョンベースのセマンティック シーン補完 (SSC) は、さまざまな 3D 認識タスクに広く応用されているため、多くの注目を集めています。
既存の疎から密へのアプローチは通常、さまざまな入力画像にわたってコンテキストに依存しない共有クエリを使用しますが、異なる入力の焦点領域が変化するため画像間の区別を捕捉できず、クロスアテンションによる無向の特徴集約が発生する可能性があります。
さらに、深度情報が存在しないと、同じ 2D 位置または特徴マップ内の同様のサンプリング ポイントを共有する画像平面上に点が投影され、深度の曖昧さが生じる可能性があります。
この論文では、新しいコンテキストとジオメトリを認識したボクセル トランスフォーマーを紹介します。
コンテキスト認識クエリ ジェネレーターを利用して、個々の入力画像に合わせたコンテキスト依存クエリを初期化し、その固有の特性を効果的にキャプチャし、対象領域内の情報を集約します。
さらに、変形可能なクロスアテンションを 2D ピクセル空間から 3D ピクセル空間に拡張し、深度座標に基づいて類似した画像座標を持つ点を区別できるようにします。
このモジュールに基づいて、CGFormer という名前のニューラル ネットワークを導入して、セマンティック シーンの完成を実現します。
同時に、CGFormer は複数の 3D 表現 (つまり、ボクセルと TPV) を利用して、ローカルとグローバルの両方の観点から、変換された 3D ボリュームのセマンティックおよび幾何学的表現能力を強化します。
実験結果は、CGFormer が SemanticKITTI および SSCBench-KITTI-360 ベンチマークで最先端のパフォーマンスを達成し、それぞれ 16.87 と 20.05 の mIoU、および 45.99 と 48.07 の IoU を達成していることを示しています。
驚くべきことに、CGFormer は、時間画像を入力として使用するアプローチや、はるかに大規模な画像バックボーン ネットワークを使用するアプローチよりも優れたパフォーマンスを発揮します。

要約(オリジナル)

Vision-based Semantic Scene Completion (SSC) has gained much attention due to its widespread applications in various 3D perception tasks. Existing sparse-to-dense approaches typically employ shared context-independent queries across various input images, which fails to capture distinctions among them as the focal regions of different inputs vary and may result in undirected feature aggregation of cross-attention. Additionally, the absence of depth information may lead to points projected onto the image plane sharing the same 2D position or similar sampling points in the feature map, resulting in depth ambiguity. In this paper, we present a novel context and geometry aware voxel transformer. It utilizes a context aware query generator to initialize context-dependent queries tailored to individual input images, effectively capturing their unique characteristics and aggregating information within the region of interest. Furthermore, it extend deformable cross-attention from 2D to 3D pixel space, enabling the differentiation of points with similar image coordinates based on their depth coordinates. Building upon this module, we introduce a neural network named CGFormer to achieve semantic scene completion. Simultaneously, CGFormer leverages multiple 3D representations (i.e., voxel and TPV) to boost the semantic and geometric representation abilities of the transformed 3D volume from both local and global perspectives. Experimental results demonstrate that CGFormer achieves state-of-the-art performance on the SemanticKITTI and SSCBench-KITTI-360 benchmarks, attaining a mIoU of 16.87 and 20.05, as well as an IoU of 45.99 and 48.07, respectively. Remarkably, CGFormer even outperforms approaches employing temporal images as inputs or much larger image backbone networks.

arxiv情報

著者 Zhu Yu,Runmin Zhang,Jiacheng Ying,Junchen Yu,Xiaohai Hu,Lun Luo,Si-Yuan Cao,Hui-Liang Shen
発行日 2024-10-22 14:28:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク