DQFormer: Towards Unified LiDAR Panoptic Segmentation with Decoupled Queries

要約

LiDAR パノプティック セグメンテーションは、物やもののクラスのインスタンスとセマンティック セグメンテーションを共同で実行し、LiDAR 認識タスクにおいて基本的な役割を果たします。
既存の方法のほとんどは、これら 2 つのセグメンテーション タスクを明示的に分離し、異なるブランチ (つまり、セマンティック ブランチとインスタンス ブランチ) を利用しますが、最近のいくつかの方法では、LiDAR パノプティック セグメンテーションを統合するためにクエリベースのパラダイムを採用しています。
しかし、3D シーンにおけるオブジェクト (物) とその周囲 (物) の明確な空間分布と固有の特性は、物/物の相互競合や分類/セグメント化の曖昧さなどの課題を引き起こします。
この論文では、曖昧さを軽減するために、個々のデコードと分類/セグメンテーションのもつれを解くための本質的な特性に従ってモノ/スタッフクエリを分離することを提案します。
この目的を達成するために、統合ワークフローでセマンティックおよびインスタンスのセグメンテーションを実装するための DQFormer と呼ばれる新しいフレームワークを提案します。
具体的には、物やものの位置をローカライズし、マルチレベルの BEV 埋め込みを融合することで、セマンティクスを備えた有益なクエリを提案する分離クエリ ジェネレーターを設計します。
さらに、クエリ指向マスク デコーダが導入され、クエリとマスク埋め込みの間でマスクされたクロスアテンションを実行することにより、対応するセグメンテーション マスクをデコードします。
最後に、デコードされたマスクがクエリのセマンティクスと結合されて、パノラマ結果が生成されます。
nuScenes と SemanticKITTI データセットに関する広範な実験により、DQFormer フレームワークの優位性が実証されました。

要約(オリジナル)

LiDAR panoptic segmentation, which jointly performs instance and semantic segmentation for things and stuff classes, plays a fundamental role in LiDAR perception tasks. While most existing methods explicitly separate these two segmentation tasks and utilize different branches (i.e., semantic and instance branches), some recent methods have embraced the query-based paradigm to unify LiDAR panoptic segmentation. However, the distinct spatial distribution and inherent characteristics of objects(things) and their surroundings(stuff) in 3D scenes lead to challenges, including the mutual competition of things/stuff and the ambiguity of classification/segmentation. In this paper, we propose decoupling things/stuff queries according to their intrinsic properties for individual decoding and disentangling classification/segmentation to mitigate ambiguity. To this end, we propose a novel framework dubbed DQFormer to implement semantic and instance segmentation in a unified workflow. Specifically, we design a decoupled query generator to propose informative queries with semantics by localizing things/stuff positions and fusing multi-level BEV embeddings. Moreover, a query-oriented mask decoder is introduced to decode corresponding segmentation masks by performing masked cross-attention between queries and mask embeddings. Finally, the decoded masks are combined with the semantics of the queries to produce panoptic results. Extensive experiments on nuScenes and SemanticKITTI datasets demonstrate the superiority of our DQFormer framework.

arxiv情報

著者 Yu Yang,Jianbiao Mei,Liang Liu,Siliang Du,Yilin Xiao,Jongwon Ra,Yong Liu,Xiao Xu,Huifeng Wu
発行日 2024-08-28 14:14:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク