4D-Former: Multimodal 4D Panoptic Segmentation

要約

4Dパノプティックセグメンテーションは、LiDARポイントクラウドシーケンスのすべてのポイントにセマンティッククラスラベルを割り当て、個々のオブジェクトをセグメンテーションし、時間経過とともに追跡することを必要とする、挑戦的だが実用的に有用なタスクである。既存のアプローチでは、LiDAR入力のみを利用するため、点の疎な領域では限られた情報しか得られません。しかし、この問題は、形状ベースのLiDAR特徴を補強することができる外観ベースの情報を提供するRGBカメラ画像を利用することによって軽減することができる。4D-Formerは、LiDARと画像の両方のモダリティを活用し、入力点群シーケンスに対して、時間的に一貫性のあるオブジェクトマスクと同様に、意味的マスクを予測します。両データモダリティから特徴情報を吸収する一連の簡潔なクエリを用いて、意味クラスとオブジェクトを符号化する。さらに、外観と空間的位置の両方を理由とする、時間的なオブジェクトの軌跡を関連付ける学習されたメカニズムを提案する。我々は4D-FormerをnuScenesとSemanticKITTIデータセットに適用し、最先端の結果を達成した。

要約(オリジナル)

4D panoptic segmentation is a challenging but practically useful task that requires every point in a LiDAR point-cloud sequence to be assigned a semantic class label, and individual objects to be segmented and tracked over time. Existing approaches utilize only LiDAR inputs which convey limited information in regions with point sparsity. This problem can, however, be mitigated by utilizing RGB camera images which offer appearance-based information that can reinforce the geometry-based LiDAR features. Motivated by this, we propose 4D-Former: a novel method for 4D panoptic segmentation which leverages both LiDAR and image modalities, and predicts semantic masks as well as temporally consistent object masks for the input point-cloud sequence. We encode semantic classes and objects using a set of concise queries which absorb feature information from both data modalities. Additionally, we propose a learned mechanism to associate object tracks over time which reasons over both appearance and spatial location. We apply 4D-Former to the nuScenes and SemanticKITTI datasets where it achieves state-of-the-art results.

arxiv情報

著者 Ali Athar,Enxu Li,Sergio Casas,Raquel Urtasun
発行日 2023-11-02 18:09:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク