LaRa: Latents and Rays for Multi-Camera Bird’s-Eye-View Semantic Segmentation

要約

自動運転の最近の研究では、世界の中間表現としてバーズアイビュー(BEV)セマンティックマップが広く採用されています。
これらのBEVマップのオンライン予測には、マルチカメラデータの抽出や、共通のトップビューグリッドへの融合と投影などの重要な操作が含まれます。
これは通常、エラーが発生しやすい幾何学的操作(たとえば、単眼深度推定からのホモグラフィまたは逆投影)または画像ピクセルとBEVのピクセル間の高価な直接高密度マッピング(たとえば、MLPまたは注意を使用)で行われます。
この作業では、複数のカメラからの車両セマンティックセグメンテーションのための効率的なエンコーダ-デコーダ、トランスベースのモデルである「LaRa」を紹介します。
私たちのアプローチは、クロスアテンションのシステムを使用して、複数のセンサーにわたる情報をコンパクトでありながら豊富な潜在表現のコレクションに集約します。
これらの潜在的表現は、一連の自己注意ブロックによって処理された後、BEV空間で2番目の相互注意を使用して再投影されます。
私たちのモデルは、トランスを使用した以前の最高の作品であるnuScenesよりも優れていることを示しています。

要約(オリジナル)

Recent works in autonomous driving have widely adopted the bird’s-eye-view (BEV) semantic map as an intermediate representation of the world. Online prediction of these BEV maps involves non-trivial operations such as multi-camera data extraction as well as fusion and projection into a common top-view grid. This is usually done with error-prone geometric operations (e.g., homography or back-projection from monocular depth estimation) or expensive direct dense mapping between image pixels and pixels in BEV (e.g., with MLP or attention). In this work, we present ‘LaRa’, an efficient encoder-decoder, transformer-based model for vehicle semantic segmentation from multiple cameras. Our approach uses a system of cross-attention to aggregate information over multiple sensors into a compact, yet rich, collection of latent representations. These latent representations, after being processed by a series of self-attention blocks, are then reprojected with a second cross-attention in the BEV space. We demonstrate that our model outperforms on nuScenes the best previous works using transformers.

arxiv情報

著者 Florent Bartoccioni,Éloi Zablocki,Andrei Bursuc,Patrick Pérez,Matthieu Cord,Karteek Alahari
発行日 2022-06-27 13:37:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク