X-Align: Cross-Modal Cross-View Alignment for Bird’s-Eye-View Segmentation

要約

鳥瞰図 (BEV) グリッドは、自動運転における運転可能エリアなどの道路コンポーネントの認識の一般的な表現です。
ほとんどの既存のアプローチは、BEV 空間でセグメンテーションを実行するためだけにカメラに依存していますが、これは信頼できる深度情報がないことによって根本的に制約されています。
最新の作品は、カメラと LiDAR の両方のモダリティを活用していますが、単純な連結ベースのメカニズムを使用して、それらの機能を最適に融合していません。
このホワイトペーパーでは、機能の融合を支援するためにユニモーダル機能の位置合わせを強化し、カメラの透視図 (PV) と BEV 表現の間の位置合わせを強化することで、これらの問題に対処します。
X-Align は、次のコンポーネントで構成される BEV セグメンテーション用の新しいエンドツーエンドのクロスモーダルおよびクロスビュー学習フレームワークです。(i) 新しいクロスモーダル機能アライメント (X-FA) 損失、(ii)
) マルチモーダル BEV 機能を暗黙的に調整するための注意ベースのクロスモーダル機能融合 (X-FF) モジュール、および (iii) PV を改善するためのクロスビュー セグメンテーション アラインメント (X-SA) 損失を伴う補助 PV セグメンテーション ブランチ
からBEVへの変換。
提案された方法を、一般的に使用される 2 つのベンチマーク データセット、つまり nuScenes と KITTI-360 で評価します。
特に、X-Align は nuScenes で最先端技術を 3 絶対 mIoU ポイント上回っています。
また、個々のコンポーネントの有効性を実証するために、広範なアブレーション研究も提供しています。

要約(オリジナル)

Bird’s-eye-view (BEV) grid is a common representation for the perception of road components, e.g., drivable area, in autonomous driving. Most existing approaches rely on cameras only to perform segmentation in BEV space, which is fundamentally constrained by the absence of reliable depth information. Latest works leverage both camera and LiDAR modalities, but sub-optimally fuse their features using simple, concatenation-based mechanisms. In this paper, we address these problems by enhancing the alignment of the unimodal features in order to aid feature fusion, as well as enhancing the alignment between the cameras’ perspective view (PV) and BEV representations. We propose X-Align, a novel end-to-end cross-modal and cross-view learning framework for BEV segmentation consisting of the following components: (i) a novel Cross-Modal Feature Alignment (X-FA) loss, (ii) an attention-based Cross-Modal Feature Fusion (X-FF) module to align multi-modal BEV features implicitly, and (iii) an auxiliary PV segmentation branch with Cross-View Segmentation Alignment (X-SA) losses to improve the PV-to-BEV transformation. We evaluate our proposed method across two commonly used benchmark datasets, i.e., nuScenes and KITTI-360. Notably, X-Align significantly outperforms the state-of-the-art by 3 absolute mIoU points on nuScenes. We also provide extensive ablation studies to demonstrate the effectiveness of the individual components.

arxiv情報

著者 Shubhankar Borse,Marvin Klingner,Varun Ravi Kumar,Hong Cai,Abdulaziz Almuzairee,Senthil Yogamani,Fatih Porikli
発行日 2022-10-31 17:58:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク