4D-Former: Multimodal 4D Panoptic Segmentation

要約

4D パノプティック セグメンテーションは、LiDAR 点群シーケンス内のすべてのポイントにセマンティック クラス ラベルを割り当て、個々のオブジェクトをセグメント化して経時的に追跡する必要がある、困難ではありますが実用的に役立つタスクです。
既存のアプローチは、点がまばらな領域で限られた情報を伝達する LiDAR 入力のみを利用します。
ただし、この問題は、ジオメトリベースの LiDAR 機能を強化できる外観ベースの情報を提供する RGB カメラ画像を利用することで軽減できます。
これを動機として、我々は 4D-Former を提案します。これは、LiDAR と画像モダリティの両方を活用し、入力点群シーケンスのセマンティック マスクと時間的に一貫したオブジェクト マスクを予測する 4D パノプティック セグメンテーションの新しい方法です。
両方のデータ モダリティから特徴情報を吸収する一連の簡潔なクエリを使用して、セマンティック クラスとオブジェクトをエンコードします。
さらに、外観と空間的位置の両方を考慮して、時間の経過とともにオブジェクトの追跡を関連付けるための学習されたメカニズムを提案します。
4D-Former を nuScenes および SemanticKITTI データセットに適用すると、最先端の結果が得られます。

要約(オリジナル)

4D panoptic segmentation is a challenging but practically useful task that requires every point in a LiDAR point-cloud sequence to be assigned a semantic class label, and individual objects to be segmented and tracked over time. Existing approaches utilize only LiDAR inputs which convey limited information in regions with point sparsity. This problem can, however, be mitigated by utilizing RGB camera images which offer appearance-based information that can reinforce the geometry-based LiDAR features. Motivated by this, we propose 4D-Former: a novel method for 4D panoptic segmentation which leverages both LiDAR and image modalities, and predicts semantic masks as well as temporally consistent object masks for the input point-cloud sequence. We encode semantic classes and objects using a set of concise queries which absorb feature information from both data modalities. Additionally, we propose a learned mechanism to associate object tracks over time which reasons over both appearance and spatial location. We apply 4D-Former to the nuScenes and SemanticKITTI datasets where it achieves state-of-the-art results.

arxiv情報

著者 Ali Athar,Enxu Li,Sergio Casas,Raquel Urtasun
発行日 2023-11-17 21:58:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク