要約
世界モデルは、潜在的な将来のシナリオを予測する能力のために、自律運転に注目を集めています。
この論文では、マルチモーダルセンサーの入力を統合されたコンパクトな鳥瞰図(BEV)潜在環境モデリングのための潜在スペースに変換する新しいフレームワークであるBevworldを提案します。
提案された世界モデルは、マルチモーダルトークネイザーと潜在的なBEVシーケンス拡散モデルの2つの主要なコンポーネントで構成されています。
マルチモーダルトークナザーは最初に不均一な感覚データをエンコードし、そのデコーダーは、自己補助的な方法でレイキャスティングレンダリングを介して、潜在的なBevトークンをライダーとサラウンドビューの画像観測に再構築します。
これにより、共有された空間表現内で、パノラマ画像とポイントクラウドデータの共同モデリングと双方向のエンコーディングデコードが可能になります。
これに加えて、潜在的なBEVシーケンス拡散モデルは、高レベルのアクショントークンを条件付けした将来のシーンの一時的に一貫した予測を実行し、時間の経過とともにシーンレベルの推論を可能にします。
広範な実験は、自律的な運転ベンチマークに対するBevworldの有効性を示し、現実的な将来のシーン生成における能力と、知覚やモーション予測などのダウンストリームタスクの利点を示しています。
要約(オリジナル)
World models have attracted increasing attention in autonomous driving for their ability to forecast potential future scenarios. In this paper, we propose BEVWorld, a novel framework that transforms multimodal sensor inputs into a unified and compact Bird’s Eye View (BEV) latent space for holistic environment modeling. The proposed world model consists of two main components: a multi-modal tokenizer and a latent BEV sequence diffusion model. The multi-modal tokenizer first encodes heterogeneous sensory data, and its decoder reconstructs the latent BEV tokens into LiDAR and surround-view image observations via ray-casting rendering in a self-supervised manner. This enables joint modeling and bidirectional encoding-decoding of panoramic imagery and point cloud data within a shared spatial representation. On top of this, the latent BEV sequence diffusion model performs temporally consistent forecasting of future scenes, conditioned on high-level action tokens, enabling scene-level reasoning over time. Extensive experiments demonstrate the effectiveness of BEVWorld on autonomous driving benchmarks, showcasing its capability in realistic future scene generation and its benefits for downstream tasks such as perception and motion prediction.
arxiv情報
著者 | Yumeng Zhang,Shi Gong,Kaixin Xiong,Xiaoqing Ye,Xiaofan Li,Xiao Tan,Fan Wang,Jizhou Huang,Hua Wu,Haifeng Wang |
発行日 | 2025-04-30 13:43:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google