Visual Point Cloud Forecasting enables Scalable Autonomous Driving

要約

一般的な視覚に関する広範な研究とは対照的に、スケーラブルな視覚自動運転のための事前トレーニングはほとんど研究されていません。
視覚的自動運転アプリケーションでは、共同認識、予測、計画のためにセマンティクス、3D ジオメトリ、時間情報を同時に包含する機能が必要であり、事前トレーニングに劇的な課題をもたらします。
これを解決するために、視覚点群予測と呼ばれる新しい事前トレーニング タスクを導入します。つまり、履歴の視覚入力から将来の点群を予測します。
このタスクの主な利点は、セマンティクス、3D 構造、および時間ダイナミクスの相乗的な学習を捕捉することです。
したがって、さまざまな下流タスクで優位性を示します。
この新しい問題に対処するために、ダウンストリームのビジュアル エンコーダーを事前トレーニングするための一般的なモデルである ViDAR を紹介します。
まず、エンコーダーによって過去の埋め込みを抽出します。
これらの表現は、将来の点群予測のために新しい潜在レンダリング オペレーターを介して 3D 幾何学的空間に変換されます。
実験では、下流タスクでの大幅な向上が示されています。たとえば、3D 検出で NDS が 3.1%、動き予測でエラーが最大 10% 削減され、プランニングで衝突率が最大 15% 減少しました。

要約(オリジナル)

In contrast to extensive studies on general vision, pre-training for scalable visual autonomous driving remains seldom explored. Visual autonomous driving applications require features encompassing semantics, 3D geometry, and temporal information simultaneously for joint perception, prediction, and planning, posing dramatic challenges for pre-training. To resolve this, we bring up a new pre-training task termed as visual point cloud forecasting – predicting future point clouds from historical visual input. The key merit of this task captures the synergic learning of semantics, 3D structures, and temporal dynamics. Hence it shows superiority in various downstream tasks. To cope with this new problem, we present ViDAR, a general model to pre-train downstream visual encoders. It first extracts historical embeddings by the encoder. These representations are then transformed to 3D geometric space via a novel Latent Rendering operator for future point cloud prediction. Experiments show significant gain in downstream tasks, e.g., 3.1% NDS on 3D detection, ~10% error reduction on motion forecasting, and ~15% less collision rate on planning.

arxiv情報

著者 Zetong Yang,Li Chen,Yanan Sun,Hongyang Li
発行日 2023-12-29 15:44:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク