要約
世界モデルに基づく探索と計画は、人間レベルの身体的知性への有望な道として広く認識されています。
しかし、現在の運転世界モデルは主にビデオ拡散モデルに依存しており、これはビジュアル生成に特化していますが、アクションなどの他のモダリティを組み込む柔軟性に欠けています。
対照的に、自己回帰トランスフォーマーは、マルチモーダル データのモデル化において優れた能力を実証しています。
私たちの研究の目的は、駆動モデルのシミュレーションと軌道計画の両方を単一のシーケンス モデリング問題に統合することです。
私たちは、インターリーブされた画像とアクションのトークンに基づいたマルチモーダル運転言語を導入し、標準的な次のトークンの予測を通じて共同世界のモデリングと計画を学習するための DrivingGPT を開発します。
当社の DrivingGPT は、アクション条件付きビデオ生成とエンドツーエンド プランニングの両方で強力なパフォーマンスを示し、大規模な nuPlan および NAVSIM ベンチマークの強力なベースラインを上回ります。
要約(オリジナル)
World model-based searching and planning are widely recognized as a promising path toward human-level physical intelligence. However, current driving world models primarily rely on video diffusion models, which specialize in visual generation but lack the flexibility to incorporate other modalities like action. In contrast, autoregressive transformers have demonstrated exceptional capability in modeling multimodal data. Our work aims to unify both driving model simulation and trajectory planning into a single sequence modeling problem. We introduce a multimodal driving language based on interleaved image and action tokens, and develop DrivingGPT to learn joint world modeling and planning through standard next-token prediction. Our DrivingGPT demonstrates strong performance in both action-conditioned video generation and end-to-end planning, outperforming strong baselines on large-scale nuPlan and NAVSIM benchmarks.
arxiv情報
著者 | Yuntao Chen,Yuqi Wang,Zhaoxiang Zhang |
発行日 | 2024-12-24 18:59:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google