LiDARFormer: A Unified Transformer-based Multi-task Network for LiDAR Perception

要約

LiDAR知覚の分野では近年、タスクごとに別々のネットワークを使用するのではなく、複数のタスクを単一の強力なネットワークに統合し、性能を向上させる傾向がある。本稿では、トランスフォーマーに基づく新しいLiDARマルチタスク学習パラダイムを紹介する。提案するLiDARFormerは、空間横断的な大域的文脈特徴情報を利用し、複数の大規模データセットやベンチマークにおけるLiDAR知覚タスクの性能を向上させるために、タスク横断的な相乗効果を利用する。我々の新しい変換器ベースのフレームワークには、2D密な鳥瞰図(BEV)と3D疎なボクセル特徴マップの間のアテンション特徴を学習する異空間変換モジュールが含まれる。さらに、セグメンテーションタスクのための変換器デコーダを提案し、カテゴリ特徴表現を活用することで、学習した特徴を動的に調整する。さらに、セグメンテーションと検出の特徴を、オブジェクトレベルとクラスレベルの特徴を強化・統合するために、タスク横断的な注目レイヤーを持つ共有トランスフォーマーデコーダーに結合する。LiDARFormerは大規模なnuScenesとWaymo Openデータセットで3D検出とセマンティックセグメンテーションの両タスクで評価され、両タスクでこれまでに発表された全ての手法を凌駕した。特に、LiDARFormerは単一モデルのLiDARのみの手法において、難易度の高いWaymoとnuScenesの検出ベンチマークで76.4%のL2 mAPHと74.3%のNDSという最先端の性能を達成しています。

要約(オリジナル)

There is a recent trend in the LiDAR perception field towards unifying multiple tasks in a single strong network with improved performance, as opposed to using separate networks for each task. In this paper, we introduce a new LiDAR multi-task learning paradigm based on the transformer. The proposed LiDARFormer utilizes cross-space global contextual feature information and exploits cross-task synergy to boost the performance of LiDAR perception tasks across multiple large-scale datasets and benchmarks. Our novel transformer-based framework includes a cross-space transformer module that learns attentive features between the 2D dense Bird’s Eye View (BEV) and 3D sparse voxel feature maps. Additionally, we propose a transformer decoder for the segmentation task to dynamically adjust the learned features by leveraging the categorical feature representations. Furthermore, we combine the segmentation and detection features in a shared transformer decoder with cross-task attention layers to enhance and integrate the object-level and class-level features. LiDARFormer is evaluated on the large-scale nuScenes and the Waymo Open datasets for both 3D detection and semantic segmentation tasks, and it outperforms all previously published methods on both tasks. Notably, LiDARFormer achieves the state-of-the-art performance of 76.4% L2 mAPH and 74.3% NDS on the challenging Waymo and nuScenes detection benchmarks for a single model LiDAR-only method.

arxiv情報

著者 Zixiang Zhou,Dongqiangzi Ye,Weijia Chen,Yufei Xie,Yu Wang,Panqu Wang,Hassan Foroosh
発行日 2024-03-02 22:18:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク