X-Align++: cross-modal cross-view alignment for Bird’s-eye-view segmentation

要約

鳥瞰図 (BEV) グリッドは、自動運転における道路コンポーネント (走行可能エリアなど) の認識を典型的に表現したものです。
既存のアプローチのほとんどは、BEV 空間でのセグメンテーションを実行するためだけにカメラに依存していますが、これには信頼できる深度情報が存在しないという根本的な制約があります。
最新の作品では、カメラと LiDAR の両方のモダリティを活用していますが、シンプルな連結ベースのメカニズムを使用して、それらの機能を最適に融合していません。
このペーパーでは、特徴の融合を支援するために単峰特徴の位置合わせを強化し、カメラの透視図 (PV) と BEV 表現の間の位置合わせを強化することで、これらの問題に対処します。
我々は、BEV セグメンテーションのための新しいエンドツーエンドのクロスモーダルおよびクロスビュー学習フレームワークである X-Align を提案します。(i) 新しいクロスモーダル特徴アライメント (X-FA) 損失、(ii)
) マルチモーダル BEV 機能を暗黙的に調整するためのアテンションベースのクロスモーダル機能融合 (X-FF) モジュール、および (iii) PV を改善するためのクロスビュー セグメンテーション アライメント (X-SA) 損失を備えた補助 PV セグメンテーション ブランチ
からBEVへの変革。
私たちは、一般的に使用されている 2 つのベンチマーク データセット、つまり nuScenes と KITTI-360 にわたって提案された手法を評価します。
特に、X-Align は、nuScenes 上で最先端のパフォーマンスを 3 絶対 mIoU ポイント上回っています。
また、個々のコンポーネントの有効性を実証するために、広範なアブレーション研究も提供しています。

要約(オリジナル)

Bird’s-eye-view (BEV) grid is a typical representation of the perception of road components, e.g., drivable area, in autonomous driving. Most existing approaches rely on cameras only to perform segmentation in BEV space, which is fundamentally constrained by the absence of reliable depth information. The latest works leverage both camera and LiDAR modalities but suboptimally fuse their features using simple, concatenation-based mechanisms. In this paper, we address these problems by enhancing the alignment of the unimodal features in order to aid feature fusion, as well as enhancing the alignment between the cameras’ perspective view (PV) and BEV representations. We propose X-Align, a novel end-to-end cross-modal and cross-view learning framework for BEV segmentation consisting of the following components: (i) a novel Cross-Modal Feature Alignment (X-FA) loss, (ii) an attention-based Cross-Modal Feature Fusion (X-FF) module to align multi-modal BEV features implicitly, and (iii) an auxiliary PV segmentation branch with Cross-View Segmentation Alignment (X-SA) losses to improve the PV-to-BEV transformation. We evaluate our proposed method across two commonly used benchmark datasets, i.e., nuScenes and KITTI-360. Notably, X-Align significantly outperforms the state-of-the-art by 3 absolute mIoU points on nuScenes. We also provide extensive ablation studies to demonstrate the effectiveness of the individual components.

arxiv情報

著者 Shubhankar Borse,Senthil Yogamani,Marvin Klingner,Varun Ravi,Hong Cai,Abdulaziz Almuzairee,Fatih Porikli
発行日 2023-06-06 15:52:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク