Stag-1: Towards Realistic 4D Driving Simulation with Video Generation Model

要約

現実的な自動運転シミュレーターの開発には4D運転シミュレーションが不可欠です。
運転シーンを生成する既存の方法は進歩していますが、ビュー変換と時空間動的モデリングには大きな課題が残っています。
これらの制限に対処するために、現実世界のシーンを再構築し、4D シミュレーションを実現する制御可能な生成ネットワークを設計するための運転用時空間シミュレーション (Stag-1) モデルを提案します。
Stag-1 は、自動運転車からのサラウンドビュー データを使用して、連続 4D 点群シーンを構築します。
時空間の関係を切り離し、一貫したキーフレーム ビデオを生成します。
さらに、Stag-1 はビデオ生成モデルを活用して、あらゆる視点から写真のようにリアルで制御可能な 4D ドライビング シミュレーション ビデオを取得します。
ビュー生成の範囲を拡大するために、分解されたカメラのポーズに基づいて車両のモーション ビデオをトレーニングし、遠くのシーンのモデリング機能を強化します。
さらに、車両カメラの軌跡を再構築して連続ビュー全体の 3D ポイントを統合し、時間次元に沿った包括的なシーンの理解を可能にします。
広範なマルチレベル シーンのトレーニングに続いて、Stag-1 は任意の視点からシミュレーションし、静的な時空間条件下でのシーンの進化を深く理解することができます。
既存の手法と比較して、私たちのアプローチは、マルチビューシーンの一貫性、背景の一貫性、精度において有望なパフォーマンスを示しており、現実的な自動運転シミュレーションの継続的な進歩に貢献します。
コード: https://github.com/wzzheng/Stag。

要約(オリジナル)

4D driving simulation is essential for developing realistic autonomous driving simulators. Despite advancements in existing methods for generating driving scenes, significant challenges remain in view transformation and spatial-temporal dynamic modeling. To address these limitations, we propose a Spatial-Temporal simulAtion for drivinG (Stag-1) model to reconstruct real-world scenes and design a controllable generative network to achieve 4D simulation. Stag-1 constructs continuous 4D point cloud scenes using surround-view data from autonomous vehicles. It decouples spatial-temporal relationships and produces coherent keyframe videos. Additionally, Stag-1 leverages video generation models to obtain photo-realistic and controllable 4D driving simulation videos from any perspective. To expand the range of view generation, we train vehicle motion videos based on decomposed camera poses, enhancing modeling capabilities for distant scenes. Furthermore, we reconstruct vehicle camera trajectories to integrate 3D points across consecutive views, enabling comprehensive scene understanding along the temporal dimension. Following extensive multi-level scene training, Stag-1 can simulate from any desired viewpoint and achieve a deep understanding of scene evolution under static spatial-temporal conditions. Compared to existing methods, our approach shows promising performance in multi-view scene consistency, background coherence, and accuracy, and contributes to the ongoing advancements in realistic autonomous driving simulation. Code: https://github.com/wzzheng/Stag.

arxiv情報

著者 Lening Wang,Wenzhao Zheng,Dalong Du,Yunpeng Zhang,Yilong Ren,Han Jiang,Zhiyong Cui,Haiyang Yu,Jie Zhou,Jiwen Lu,Shanghang Zhang
発行日 2024-12-06 18:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク