ADriver-I: A General World Model for Autonomous Driving


最近、マルチモーダル大規模言語モデル (MLLM) と拡散技術は、理解力と生成能力において優れたパフォーマンスを発揮することが証明されています。
ビジョンとアクションのペアに基づいて、MLLM に基づく一般的な世界モデルと、ADriver-I と呼ばれる自動運転の普及モデルを構築します。
予測された次のフレームを使用して、ADriver-I はさらに制御信号の予測を実行します。
nuScenes と大規模なプライベート データセットに対して広範な実験が行われています。
ADriver-I は、構築されたいくつかのベースラインと比較して優れたパフォーマンスを示します。
私たちは、ADriver-I が将来の自動運転と身体化されたインテリジェンスに新たな洞察を提供できることを願っています。


Typically, autonomous driving adopts a modular design, which divides the full stack into perception, prediction, planning and control parts. Though interpretable, such modular design tends to introduce a substantial amount of redundancy. Recently, multimodal large language models (MLLM) and diffusion techniques have demonstrated their superior performance on comprehension and generation ability. In this paper, we first introduce the concept of interleaved vision-action pair, which unifies the format of visual features and control signals. Based on the vision-action pairs, we construct a general world model based on MLLM and diffusion model for autonomous driving, termed ADriver-I. It takes the vision-action pairs as inputs and autoregressively predicts the control signal of the current frame. The generated control signals together with the historical vision-action pairs are further conditioned to predict the future frames. With the predicted next frame, ADriver-I performs further control signal prediction. Such a process can be repeated infinite times, ADriver-I achieves autonomous driving in the world created by itself. Extensive experiments are conducted on nuScenes and our large-scale private datasets. ADriver-I shows impressive performance compared to several constructed baselines. We hope our ADriver-I can provide some new insights for future autonomous driving and embodied intelligence.


著者 Fan Jia,Weixin Mao,Yingfei Liu,Yucheng Zhao,Yuqing Wen,Chi Zhang,Xiangyu Zhang,Tiancai Wang
発行日 2023-11-22 17:44:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, cs.RO パーマリンク