要約
自動運転知覚モデルは、複数のカメラから3Dセマンティック表現をまとめてエゴカーの鳥瞰図(BEV)座標フレームに抽出し、下流のプランナーを接地することを目的としています。
既存の知覚方法は、多くの場合、シーン全体のエラーが発生しやすい深度推定、またはターゲットジオメトリ構造のないスパース仮想3D表現の学習に依存しますが、どちらもパフォーマンスや機能が制限されたままです。
この論文では、任意の数の制約のないカメラビューから学習する自我3D表現のための新しいエンドツーエンドアーキテクチャを提示します。
レイトレーシングの原理に触発されて、学習可能な自我3D表現として「想像上の目」の偏光グリッドを設計し、3Dから2Dへの投影と組み合わせた適応注意メカニズムを使用して学習プロセスを定式化します。
重要なことに、この定式化により、深度を監視することなく、2D画像から豊富な3D表現を抽出できます。また、組み込みのジオメトリ構造を使用して、一貫性のあるw.r.t.
BEV。
そのシンプルさと汎用性にもかかわらず、標準のBEVビジュアルタスク(カメラベースの3Dオブジェクト検出やBEVセグメンテーションなど)に関する広範な実験は、私たちのモデルがすべての最先端の選択肢を大幅に上回り、計算効率に追加の利点があることを示しています
マルチタスク学習。
要約(オリジナル)
A self-driving perception model aims to extract 3D semantic representations from multiple cameras collectively into the bird’s-eye-view (BEV) coordinate frame of the ego car in order to ground downstream planner. Existing perception methods often rely on error-prone depth estimation of the whole scene or learning sparse virtual 3D representations without the target geometry structure, both of which remain limited in performance and/or capability. In this paper, we present a novel end-to-end architecture for ego 3D representation learning from an arbitrary number of unconstrained camera views. Inspired by the ray tracing principle, we design a polarized grid of ‘imaginary eyes’ as the learnable ego 3D representation and formulate the learning process with the adaptive attention mechanism in conjunction with the 3D-to-2D projection. Critically, this formulation allows extracting rich 3D representation from 2D images without any depth supervision, and with the built-in geometry structure consistent w.r.t. BEV. Despite its simplicity and versatility, extensive experiments on standard BEV visual tasks (e.g., camera-based 3D object detection and BEV segmentation) show that our model outperforms all state-of-the-art alternatives significantly, with an extra advantage in computational efficiency from multi-task learning.
arxiv情報
著者 | Jiachen Lu,Zheyuan Zhou,Xiatian Zhu,Hang Xu,Li Zhang |
発行日 | 2022-07-12 16:15:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google