DriveDreamer: Towards Real-world-driven World Models for Autonomous Driving

要約

世界のモデル、特に自動運転分野のモデルは、運転環境を把握する能力によりトレンドとなっており、大きな注目を集めています。
確立された世界モデルは、高品質の運転ビデオの生成と、安全な運転のための運転方針の生成に計り知れない可能性を秘めています。
ただし、関連する研究には重大な制限があり、主にゲーム環境やシミュレートされた設定に重点が置かれているため、現実世界の運転シナリオの表現が欠けています。
そこで、実際の運転シナリオから完全に派生した先駆的な世界モデルである DriveDreamer を紹介します。
複雑な運転シーンで世界をモデリングするには圧倒的な検索空間が必要であることに関して、強力な拡散モデルを利用して複雑な環境の包括的な表現を構築することを提案します。
さらに、2 段階のトレーニング パイプラインを導入します。
DriveDreamer は、初期段階で構造化されたトラフィックの制約を深く理解し、その後の段階で将来の状態を予測する機能を備えます。
提案された DriveDreamer は、現実世界の運転シナリオから確立された最初の世界モデルです。
私たちは、難易度の高い nuScenes ベンチマークで DriveDreamer をインスタンス化し、広範な実験により、DriveDreamer が現実世界の交通シナリオの構造的制約を忠実に捉えた、正確で制御可能なビデオ生成を可能にすることを検証しました。
さらに、DriveDreamer は現実的かつ合理的な運転ポリシーの生成を可能にし、対話と実用化への道を開きます。

要約(オリジナル)

World models, especially in autonomous driving, are trending and drawing extensive attention due to their capacity for comprehending driving environments. The established world model holds immense potential for the generation of high-quality driving videos, and driving policies for safe maneuvering. However, a critical limitation in relevant research lies in its predominant focus on gaming environments or simulated settings, thereby lacking the representation of real-world driving scenarios. Therefore, we introduce DriveDreamer, a pioneering world model entirely derived from real-world driving scenarios. Regarding that modeling the world in intricate driving scenes entails an overwhelming search space, we propose harnessing the powerful diffusion model to construct a comprehensive representation of the complex environment. Furthermore, we introduce a two-stage training pipeline. In the initial phase, DriveDreamer acquires a deep understanding of structured traffic constraints, while the subsequent stage equips it with the ability to anticipate future states. The proposed DriveDreamer is the first world model established from real-world driving scenarios. We instantiate DriveDreamer on the challenging nuScenes benchmark, and extensive experiments verify that DriveDreamer empowers precise, controllable video generation that faithfully captures the structural constraints of real-world traffic scenarios. Additionally, DriveDreamer enables the generation of realistic and reasonable driving policies, opening avenues for interaction and practical applications.

arxiv情報

著者 Xiaofeng Wang,Zheng Zhu,Guan Huang,Xinze Chen,Jiwen Lu
発行日 2023-09-18 13:58:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク