ADriver-I: A General World Model for Autonomous Driving

要約

通常、自動運転ではモジュール設計が採用されており、フルスタックが認識、予測、計画、制御の各部分に分割されます。
解釈可能ではありますが、このようなモジュール設計はかなりの冗長性を導入する傾向があります。
最近、マルチモーダル大規模言語モデル (MLLM) と拡散技術は、理解力と生成能力において優れたパフォーマンスを発揮することが証明されています。
この論文では、視覚特徴と制御信号の形式を統一するインターリーブ視覚アクションペアの概念を最初に紹介します。
ビジョンとアクションのペアに基づいて、MLLM に基づく一般的な世界モデルと、ADriver-I と呼ばれる自動運転の普及モデルを構築します。
ビジョンとアクションのペアを入力として受け取り、現在のフレームの制御信号を自己回帰的に予測します。
生成された制御信号は、過去のビジョンとアクションのペアとともに、将来のフレームを予測するためにさらに条件付けされます。
予測された次のフレームを使用して、ADriver-I はさらに制御信号の予測を実行します。
このようなプロセスを無限に繰り返すことで、ADriver-Iは自らが作り出した世界での自動運転を実現します。
nuScenes と大規模なプライベート データセットに対して広範な実験が行われています。
ADriver-I は、構築されたいくつかのベースラインと比較して優れたパフォーマンスを示します。
私たちは、ADriver-I が将来の自動運転と身体化されたインテリジェンスに新たな洞察を提供できることを願っています。

要約(オリジナル)

Typically, autonomous driving adopts a modular design, which divides the full stack into perception, prediction, planning and control parts. Though interpretable, such modular design tends to introduce a substantial amount of redundancy. Recently, multimodal large language models (MLLM) and diffusion techniques have demonstrated their superior performance on comprehension and generation ability. In this paper, we first introduce the concept of interleaved vision-action pair, which unifies the format of visual features and control signals. Based on the vision-action pairs, we construct a general world model based on MLLM and diffusion model for autonomous driving, termed ADriver-I. It takes the vision-action pairs as inputs and autoregressively predicts the control signal of the current frame. The generated control signals together with the historical vision-action pairs are further conditioned to predict the future frames. With the predicted next frame, ADriver-I performs further control signal prediction. Such a process can be repeated infinite times, ADriver-I achieves autonomous driving in the world created by itself. Extensive experiments are conducted on nuScenes and our large-scale private datasets. ADriver-I shows impressive performance compared to several constructed baselines. We hope our ADriver-I can provide some new insights for future autonomous driving and embodied intelligence.

arxiv情報

著者 Fan Jia,Weixin Mao,Yingfei Liu,Yucheng Zhao,Yuqing Wen,Chi Zhang,Xiangyu Zhang,Tiancai Wang
発行日 2023-11-22 17:44:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク