UniTR: A Unified and Efficient Multi-Modal Transformer for Bird’s-Eye-View Representation

要約

信頼性の高い自動運転システムの正確かつ堅牢な認識を実現するには、複数のセンサーからの情報を共同処理することが重要です。
ただし、現在の 3D 知覚研究はモダリティ固有のパラダイムに従っているため、計算オーバーヘッドが増加し、異なるセンサー データ間の非効率な連携が発生します。
この論文では、統一モデリングと共有パラメータでさまざまなモダリティを処理する、UniTR という屋外 3D 認識のための効率的なマルチモーダル バックボーンを紹介します。
これまでの研究とは異なり、UniTR はモダリティに依存しないトランスフォーマー エンコーダーを導入して、追加の融合ステップを必要とせずに、並列モーダルごとの表現学習と自動クロスモーダル インタラクションのために、これらのビュー不一致センサー データを処理します。
さらに重要なことは、これらの相補的なセンサー タイプを最大限に活用するために、セマンティックが豊富な 2D パースペクティブとジオメトリを意識した 3D の疎な近傍関係の両方を考慮することにより、新しいマルチモーダル統合戦略を提案することです。
UniTR は、基本的にタスクに依存しないバックボーンでもあり、さまざまな 3D 認識タスクを自然にサポートします。
nuScenes ベンチマークで新たな最先端のパフォーマンスを確立し、より低い推論遅延で 3D オブジェクト検出で +1.1 高い NDS、BEV マップ セグメンテーションで +12.0 高い mIoU を達成します。
コードは https://github.com/Haiyang-W/UniTR で入手できます。

要約(オリジナル)

Jointly processing information from multiple sensors is crucial to achieving accurate and robust perception for reliable autonomous driving systems. However, current 3D perception research follows a modality-specific paradigm, leading to additional computation overheads and inefficient collaboration between different sensor data. In this paper, we present an efficient multi-modal backbone for outdoor 3D perception named UniTR, which processes a variety of modalities with unified modeling and shared parameters. Unlike previous works, UniTR introduces a modality-agnostic transformer encoder to handle these view-discrepant sensor data for parallel modal-wise representation learning and automatic cross-modal interaction without additional fusion steps. More importantly, to make full use of these complementary sensor types, we present a novel multi-modal integration strategy by both considering semantic-abundant 2D perspective and geometry-aware 3D sparse neighborhood relations. UniTR is also a fundamentally task-agnostic backbone that naturally supports different 3D perception tasks. It sets a new state-of-the-art performance on the nuScenes benchmark, achieving +1.1 NDS higher for 3D object detection and +12.0 higher mIoU for BEV map segmentation with lower inference latency. Code will be available at https://github.com/Haiyang-W/UniTR .

arxiv情報

著者 Haiyang Wang,Hao Tang,Shaoshuai Shi,Aoxue Li,Zhenguo Li,Bernt Schiele,Liwei Wang
発行日 2023-08-15 12:13:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク