OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving

要約

効果的な自動運転には、3D シーンの進化を理解することが重要です。
従来の方法では、個々のインスタンスの動きを使用してシーンの開発をモード化しますが、ワールド モデルは、一般的なシーンのダイナミクスを記述するための生成フレームワークとして現れます。
ただし、既存の手法のほとんどは、次のトークンの予測を実行するために自己回帰フレームワークを採用しており、長期的な時間的進化をモデル化する際の非効率性に悩まされています。
これに対処するために、自動運転のための 3D 世界の開発をシミュレートする拡散ベースの 4D 占有生成モデル OccSora を提案します。
4D シーン トークナイザーを採用して、4D 占有入力のコンパクトな離散時空間表現を取得し、長いシーケンスの占有ビデオの高品質な再構成を実現します。
次に、時空間表現に関する拡散変換を学習し、軌道プロンプトに基づいて条件付けされた 4D 占有を生成します。
私たちは、Occ3D 占有アノテーションを使用して、広く使用されている nuScenes データセットに対して広範な実験を行っています。
OccSora は、本物の 3D レイアウトと時間的一貫性を備えた 16 秒ビデオを生成でき、運転シーンの空間的および時間的分布を理解する能力を実証します。
軌道を認識した 4D 生成を備えた OccSora は、自動運転の意思決定のための世界シミュレーターとして機能する可能性を秘めています。
コードは https://github.com/wzzheng/OccSora で入手できます。

要約(オリジナル)

Understanding the evolution of 3D scenes is important for effective autonomous driving. While conventional methods mode scene development with the motion of individual instances, world models emerge as a generative framework to describe the general scene dynamics. However, most existing methods adopt an autoregressive framework to perform next-token prediction, which suffer from inefficiency in modeling long-term temporal evolutions. To address this, we propose a diffusion-based 4D occupancy generation model, OccSora, to simulate the development of the 3D world for autonomous driving. We employ a 4D scene tokenizer to obtain compact discrete spatial-temporal representations for 4D occupancy input and achieve high-quality reconstruction for long-sequence occupancy videos. We then learn a diffusion transformer on the spatial-temporal representations and generate 4D occupancy conditioned on a trajectory prompt. We conduct extensive experiments on the widely used nuScenes dataset with Occ3D occupancy annotations. OccSora can generate 16s-videos with authentic 3D layout and temporal consistency, demonstrating its ability to understand the spatial and temporal distributions of driving scenes. With trajectory-aware 4D generation, OccSora has the potential to serve as a world simulator for the decision-making of autonomous driving. Code is available at: https://github.com/wzzheng/OccSora.

arxiv情報

著者 Lening Wang,Wenzhao Zheng,Yilong Ren,Han Jiang,Zhiyong Cui,Haiyang Yu,Jiwen Lu
発行日 2024-05-30 17:59:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク