要約
ドライビングワールドモデル(DWM)は、将来のシーン予測を可能にすることにより、自律運転に不可欠になりました。
ただし、既存のDWMはシーン生成に限定されており、シーンの理解を組み込むことができません。これには、運転環境に関する解釈と推論が含まれます。
この論文では、Hermesという名前の統一された運転世界モデルを紹介します。
3Dシーンの理解と将来のシーンの進化(世代)を、運転シナリオの統一されたフレームワークを通じてシームレスに統合します。
具体的には、エルメスは鳥瞰図(BEV)表現を活用して、幾何学的な関係と相互作用を維持しながら、マルチビューの空間情報を統合します。
また、大規模な言語モデルでの因果関係を介して世界の知識をBEV機能に組み込み、理解と生成タスクのコンテキスト濃縮を可能にする世界クエリも紹介します。
私たちは、ヌスケンとオムニドライブヌスセンデータセットに関する包括的な研究を実施して、方法の有効性を検証します。
エルメスは最先端のパフォーマンスを達成し、生成エラーを32.4%削減し、サイダーなどの理解のメトリックを8.0%削減します。
モデルとコードは、https://github.com/lmd0311/hermesで公開されます。
要約(オリジナル)
Driving World Models (DWMs) have become essential for autonomous driving by enabling future scene prediction. However, existing DWMs are limited to scene generation and fail to incorporate scene understanding, which involves interpreting and reasoning about the driving environment. In this paper, we present a unified Driving World Model named HERMES. We seamlessly integrate 3D scene understanding and future scene evolution (generation) through a unified framework in driving scenarios. Specifically, HERMES leverages a Bird’s-Eye View (BEV) representation to consolidate multi-view spatial information while preserving geometric relationships and interactions. We also introduce world queries, which incorporate world knowledge into BEV features via causal attention in the Large Language Model, enabling contextual enrichment for understanding and generation tasks. We conduct comprehensive studies on nuScenes and OmniDrive-nuScenes datasets to validate the effectiveness of our method. HERMES achieves state-of-the-art performance, reducing generation error by 32.4% and improving understanding metrics such as CIDEr by 8.0%. The model and code will be publicly released at https://github.com/LMD0311/HERMES.
arxiv情報
著者 | Xin Zhou,Dingkang Liang,Sifan Tu,Xiwu Chen,Yikang Ding,Dingyuan Zhang,Feiyang Tan,Hengshuang Zhao,Xiang Bai |
発行日 | 2025-03-12 17:58:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google