FlatFusion: Delving into Details of Sparse Transformer-based Camera-LiDAR Fusion for Autonomous Driving

要約

さまざまなセンサー モダリティ (カメラや LiDAR など) からのデータの統合は、自動運転シナリオの範囲内で普及している方法論を構成します。
効率的な点群変換器の最近の進歩により、情報をスパース形式で統合することの有効性が強調されました。
融合に関して言えば、画像パッチはピクセル空間内に密集しており、奥行きが曖昧であるため、効果的な融合のためには追加の設計上の考慮事項が必要になります。
このペーパーでは、Transformer ベースのスパース カメラ LiDAR フュージョンの設計選択肢の包括的な調査を行います。
この調査には、画像から 3D および LiDAR から 2D へのマッピング、アテンション ネイバー グループ化、シングル モーダル トークナイザー、および Transformer の微細構造に関する戦略が含まれます。
私たちの調査を通じて明らかになった最も効果的な原理を統合することにより、スパース カメラと LiDAR の融合のために慎重に設計されたフレームワークである FlatFusion を導入します。
特に、FlatFusion は、UniTR、CMT、SparseFusion などの最先端のスパース Transformer ベースの手法を大幅に上回り、PyTorch を使用した 10.1 FPS の nuScenes 検証セットで 73.7 NDS を達成しました。

要約(オリジナル)

The integration of data from diverse sensor modalities (e.g., camera and LiDAR) constitutes a prevalent methodology within the ambit of autonomous driving scenarios. Recent advancements in efficient point cloud transformers have underscored the efficacy of integrating information in sparse formats. When it comes to fusion, since image patches are dense in pixel space with ambiguous depth, it necessitates additional design considerations for effective fusion. In this paper, we conduct a comprehensive exploration of design choices for Transformer-based sparse cameraLiDAR fusion. This investigation encompasses strategies for image-to-3D and LiDAR-to-2D mapping, attention neighbor grouping, single modal tokenizer, and micro-structure of Transformer. By amalgamating the most effective principles uncovered through our investigation, we introduce FlatFusion, a carefully designed framework for sparse camera-LiDAR fusion. Notably, FlatFusion significantly outperforms state-of-the-art sparse Transformer-based methods, including UniTR, CMT, and SparseFusion, achieving 73.7 NDS on the nuScenes validation set with 10.1 FPS with PyTorch.

arxiv情報

著者 Yutao Zhu,Xiaosong Jia,Xinyu Yang,Junchi Yan
発行日 2024-08-13 11:46:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク