GaussianAD: Gaussian-Centric End-to-End Autonomous Driving

要約

ビジョンベースの自動運転は、その満足のいく性能と低コストにより、大きな可能性を秘めています。
既存の手法のほとんどは、意思決定に密な表現 (鳥瞰図など) または疎な表現 (インスタンス ボックスなど) を採用しており、包括性と効率性の間のトレードオフに悩まされています。
この論文では、ガウス中心のエンドツーエンド自動運転 (GaussianAD) フレームワークを検討し、3D セマンティック ガウスを利用して広範囲かつまばらにシーンを記述します。
均一な 3D ガウスでシーンを初期化し、周囲のビューの画像を使用してそれらを徐々に調整して、3D ガウス シーン表現を取得します。
次に、スパース畳み込みを使用して 3D 認識 (3D 検出、セマンティック マップ構築など) を効率的に実行します。
動的セマンティクスを使用してガウスの 3D フローを予測し、将来のシーン予測の目的に応じてエゴの軌道を計画します。
GaussianAD は、利用可能な場合はオプションの認識ラベルを使用して、エンドツーエンドの方法でトレーニングできます。
広く使用されている nuScenes データセットに関する広範な実験により、動作計画、3D 占有予測、4D 占有予測などのさまざまなタスクに対するエンドツーエンドの GaussianAD の有効性が検証されています。
コード: https://github.com/wzzheng/GaussianAD。

要約(オリジナル)

Vision-based autonomous driving shows great potential due to its satisfactory performance and low costs. Most existing methods adopt dense representations (e.g., bird’s eye view) or sparse representations (e.g., instance boxes) for decision-making, which suffer from the trade-off between comprehensiveness and efficiency. This paper explores a Gaussian-centric end-to-end autonomous driving (GaussianAD) framework and exploits 3D semantic Gaussians to extensively yet sparsely describe the scene. We initialize the scene with uniform 3D Gaussians and use surrounding-view images to progressively refine them to obtain the 3D Gaussian scene representation. We then use sparse convolutions to efficiently perform 3D perception (e.g., 3D detection, semantic map construction). We predict 3D flows for the Gaussians with dynamic semantics and plan the ego trajectory accordingly with an objective of future scene forecasting. Our GaussianAD can be trained in an end-to-end manner with optional perception labels when available. Extensive experiments on the widely used nuScenes dataset verify the effectiveness of our end-to-end GaussianAD on various tasks including motion planning, 3D occupancy prediction, and 4D occupancy forecasting. Code: https://github.com/wzzheng/GaussianAD.

arxiv情報

著者 Wenzhao Zheng,Junjie Wu,Yao Zheng,Sicheng Zuo,Zixun Xie,Longchao Yang,Yong Pan,Zhihui Hao,Peng Jia,Xianpeng Lang,Shanghang Zhang
発行日 2024-12-13 18:59:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク