BEVGPT: Generative Pre-trained Large Model for Autonomous Driving Prediction, Decision-Making, and Planning

要約

自動運転には予測、意思決定、動作計画が不可欠です。
現代の作品のほとんどでは、それらは個別のモジュールとして考慮されるか、バックボーンは共有されているがタスクヘッドが別々であるマルチタスク学習パラダイムに組み合わされています。
しかし、私たちはそれらを包括的な枠組みに統合すべきだと主張します。
最近のいくつかのアプローチはこのスキームに従っていますが、複雑な入力表現と冗長なフレームワーク設計という問題があります。
さらに重要なのは、将来の運転シナリオについて長期的な予測を立てることができないことです。
これらの課題に対処するために、私たちは自動運転タスクにおける各モジュールの必要性を再考し、必要なモジュールのみをミニマリストな自動運転フレームワークに組み込みます。
私たちは、運転シナリオの予測、意思決定、動作計画を統合する生成的な事前トレーニングされた大規模モデルである BEVGPT を提案します。
このモデルは、鳥瞰図 (BEV) 画像を唯一の入力ソースとして受け取り、周囲の交通シナリオに基づいて運転の意思決定を行います。
走行軌跡の実現可能性と滑らかさを確保するために、最適化に基づいた動作計画手法を開発します。
Lyft レベル 5 データセットで BEVGPT をインスタンス化し、現実的な運転シミュレーションに Woven Planet L5Kit を使用します。
提案されたフレームワークの有効性と堅牢性は、100% の意思決定メトリクスと 66% の動作計画メトリクスにおいて以前の方法を上回っているという事実によって検証されます。
さらに、長期にわたって BEV 画像を正確に生成するフレームワークの能力は、運転シナリオ予測のタスクを通じて実証されます。
私たちの知る限り、これは、BEV 画像のみを入力として自動運転の予測、意思決定、動作計画を行うための、事前トレーニングされた初めての大規模な生成モデルです。

要約(オリジナル)

Prediction, decision-making, and motion planning are essential for autonomous driving. In most contemporary works, they are considered as individual modules or combined into a multi-task learning paradigm with a shared backbone but separate task heads. However, we argue that they should be integrated into a comprehensive framework. Although several recent approaches follow this scheme, they suffer from complicated input representations and redundant framework designs. More importantly, they can not make long-term predictions about future driving scenarios. To address these issues, we rethink the necessity of each module in an autonomous driving task and incorporate only the required modules into a minimalist autonomous driving framework. We propose BEVGPT, a generative pre-trained large model that integrates driving scenario prediction, decision-making, and motion planning. The model takes the bird’s-eye-view (BEV) images as the only input source and makes driving decisions based on surrounding traffic scenarios. To ensure driving trajectory feasibility and smoothness, we develop an optimization-based motion planning method. We instantiate BEVGPT on Lyft Level 5 Dataset and use Woven Planet L5Kit for realistic driving simulation. The effectiveness and robustness of the proposed framework are verified by the fact that it outperforms previous methods in 100% decision-making metrics and 66% motion planning metrics. Furthermore, the ability of our framework to accurately generate BEV images over the long term is demonstrated through the task of driving scenario prediction. To the best of our knowledge, this is the first generative pre-trained large model for autonomous driving prediction, decision-making, and motion planning with only BEV images as input.

arxiv情報

著者 Pengqin Wang,Meixin Zhu,Hongliang Lu,Hui Zhong,Xianda Chen,Shaojie Shen,Xuesong Wang,Yinhai Wang
発行日 2023-10-16 12:50:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク