要約
マルチカメラのストリートビュー ビデオの生成は、自動運転データセットを強化し、広範で多様なデータに対する緊急の需要に対応するために重要です。
多様性の制限と照明条件の処理における課題により、従来のレンダリングベースの手法が拡散ベースの手法に取って代わられつつあります。
ただし、拡散ベースの方法における重要な課題は、生成されたセンサー データがワールド内の一貫性とセンサー間の一貫性の両方を確実に保持することです。
これらの課題に対処するために、追加の明示的なワールド ボリュームを組み合わせて、ワールド ボリュームを認識したマルチカメラ ドライビング シーン ジェネレーター (WoVoGen) を提案します。
このシステムは、ビデオ生成の基礎要素として 4D ワールド ボリュームを活用するように特別に設計されています。
私たちのモデルは 2 つの異なるフェーズで動作します。(i) 車両制御シーケンスに基づいて将来の 4D 時間世界ボリュームを想定すること、および (ii) この想定された 4D 時間世界ボリュームとセンサーの相互接続性から情報を得て、マルチカメラ ビデオを生成することです。
4D ワールド ボリュームを組み込むことで、WoVoGen は車両制御入力に応じて高品質のストリートビュー ビデオを生成できるだけでなく、シーン編集タスクも容易になります。
要約(オリジナル)
Generating multi-camera street-view videos is critical for augmenting autonomous driving datasets, addressing the urgent demand for extensive and varied data. Due to the limitations in diversity and challenges in handling lighting conditions, traditional rendering-based methods are increasingly being supplanted by diffusion-based methods. However, a significant challenge in diffusion-based methods is ensuring that the generated sensor data preserve both intra-world consistency and inter-sensor coherence. To address these challenges, we combine an additional explicit world volume and propose the World Volume-aware Multi-camera Driving Scene Generator (WoVoGen). This system is specifically designed to leverage 4D world volume as a foundational element for video generation. Our model operates in two distinct phases: (i) envisioning the future 4D temporal world volume based on vehicle control sequences, and (ii) generating multi-camera videos, informed by this envisioned 4D temporal world volume and sensor interconnectivity. The incorporation of the 4D world volume empowers WoVoGen not only to generate high-quality street-view videos in response to vehicle control inputs but also to facilitate scene editing tasks.
arxiv情報
著者 | Jiachen Lu,Ze Huang,Zeyu Yang,Jiahui Zhang,Li Zhang |
発行日 | 2024-03-19 15:33:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google