Symphonize 3D Semantic Scene Completion with Contextual Instance Queries


3D セマンティック シーン補完 (SSC) は、部分的な LiDAR または画像入力から 3D シーン内のボクセルごとの占有を予測する必要があるため、自動運転にとって初期の重要なタスクとして浮上しています。
この論文では、SSC 用の Symphonies (Scene-from-Insts) と呼ばれる新しいパラダイムを紹介します。これは、コンテキスト認識を備えた入力から派生したインスタンス クエリのまばらなセットからシーン ボリュームを完成させます。
クエリをシーン内のインスタンス フィーチャ表現として組み込むことにより、Symphonies はインスタンス中心のセマンティクスを動的にエンコードし、高密度のボクセル単位のモデリングを回避しながら、画像およびボリューム フィーチャと対話します。
Symphonies は、困難な SemanticKITTI データセットで 13.02 mIoU という最先端の結果を達成し、既存の手法を上回り、パラダイムの有望な進歩を示しています。
コードは \url{} で入手できます。


3D Semantic Scene Completion (SSC) has emerged as a nascent and pivotal task for autonomous driving, as it involves predicting per-voxel occupancy within a 3D scene from partial LiDAR or image inputs. Existing methods primarily focus on the voxel-wise feature aggregation, while neglecting the instance-centric semantics and broader context. In this paper, we present a novel paradigm termed Symphonies (Scene-from-Insts) for SSC, which completes the scene volume from a sparse set of instance queries derived from the input with context awareness. By incorporating the queries as the instance feature representations within the scene, Symphonies dynamically encodes the instance-centric semantics to interact with the image and volume features while avoiding the dense voxel-wise modeling. Simultaneously, it orchestrates a more comprehensive understanding of the scenario by capturing context throughout the entire scene, contributing to alleviating the geometric ambiguity derived from occlusion and perspective errors. Symphonies achieves a state-of-the-art result of 13.02 mIoU on the challenging SemanticKITTI dataset, outperforming existing methods and showcasing the promising advancements of the paradigm. The code is available at \url{}.


著者 Haoyi Jiang,Tianheng Cheng,Naiyu Gao,Haoyang Zhang,Wenyu Liu,Xinggang Wang
発行日 2023-06-27 17:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, cs.RO パーマリンク