要約
自動運転における知覚モデルは、複数のカメラから3次元の意味表現を一括して鳥瞰図(BEV)座標系に抽出し、下流プランナーの根拠とすることを目的としている。既存の知覚手法は、誤差を生じやすいシーン全体の奥行き推定や、ターゲット形状構造を持たない疎な仮想3D表現の学習に頼ることが多く、いずれも性能・機能に限界がある。本論文では、任意の数の制約のないカメラビューからエゴの3D表現を学習するための新しいエンドツーエンドのアーキテクチャを紹介する。レイトレーシングの原理に基づき、学習可能なエゴ3D表現として「架空の目」の偏光グリッドを設計し、3Dから2Dへの投影と適応的注意機構を用いて学習プロセスを定式化する。この定式化により、2次元画像から深度監視なしで、かつBEVと整合した幾何学的構造を持つ豊かな3次元表現を抽出することができる。その単純さと汎用性にもかかわらず、標準的なBEV視覚タスク(例えば、カメラベースの3Dオブジェクト検出やBEVセグメンテーション)に対する広範な実験により、我々のモデルが、マルチタスク学習による計算効率の優位性をもって、全ての最新代替案を大幅に上回ることが示された。
要約(オリジナル)
A self-driving perception model aims to extract 3D semantic representations from multiple cameras collectively into the bird’s-eye-view (BEV) coordinate frame of the ego car in order to ground downstream planner. Existing perception methods often rely on error-prone depth estimation of the whole scene or learning sparse virtual 3D representations without the target geometry structure, both of which remain limited in performance and/or capability. In this paper, we present a novel end-to-end architecture for ego 3D representation learning from an arbitrary number of unconstrained camera views. Inspired by the ray tracing principle, we design a polarized grid of ‘imaginary eyes’ as the learnable ego 3D representation and formulate the learning process with the adaptive attention mechanism in conjunction with the 3D-to-2D projection. Critically, this formulation allows extracting rich 3D representation from 2D images without any depth supervision, and with the built-in geometry structure consistent w.r.t. BEV. Despite its simplicity and versatility, extensive experiments on standard BEV visual tasks (e.g., camera-based 3D object detection and BEV segmentation) show that our model outperforms all state-of-the-art alternatives significantly, with an extra advantage in computational efficiency from multi-task learning.
arxiv情報
著者 | Jiachen Lu,Zheyuan Zhou,Xiatian Zhu,Hang Xu,Li Zhang |
発行日 | 2022-06-08 17:55:50+00:00 |
arxivサイト | arxiv_id(pdf) |