要約
自律運転システムの認識と計画能力を高めるために、多様で現実的な運転シナリオの作成が不可欠になっています。
ただし、長期にわたるサラウンドビューの一貫した運転ビデオを生成することは、依然として大きな課題です。
これに対処するために、正確な制御の下で拡張されたストリートマルチパース視ビデオを生成するように設計された統一されたフレームワークであるUnimlvgを提示します。
単一およびマルチビューのドライビングビデオをトレーニングデータに統合することにより、当社のアプローチは、マルチトレーニング目標を備えた3つの段階にわたってクロスフレームおよびクロスビューモジュールを備えたDITベースの拡散モデルを更新し、生成された視覚コンテンツの多様性と品質を大幅に高めます。
重要なことに、モーション遷移の一貫性を効果的に改善するために、マルチビュービデオ生成のための革新的な明示的な視点モデリングアプローチを提案します。
さまざまな入力参照形式(テキスト、画像、ビデオなど)を処理できる場合、UNIMLVGは、3Dバウンディングボックスやフレームレベルのテキストの説明などの対応する条件の制約に従って高品質のマルチビュービデオを生成します。
同様の機能を備えた最高のモデルと比較して、当社のフレームワークは、FIDで48.2%、FVDで35.2%の改善を達成しています。
要約(オリジナル)
The creation of diverse and realistic driving scenarios has become essential to enhance perception and planning capabilities of the autonomous driving system. However, generating long-duration, surround-view consistent driving videos remains a significant challenge. To address this, we present UniMLVG, a unified framework designed to generate extended street multi-perspective videos under precise control. By integrating single- and multi-view driving videos into the training data, our approach updates a DiT-based diffusion model equipped with cross-frame and cross-view modules across three stages with multi training objectives, substantially boosting the diversity and quality of generated visual content. Importantly, we propose an innovative explicit viewpoint modeling approach for multi-view video generation to effectively improve motion transition consistency. Capable of handling various input reference formats (e.g., text, images, or video), our UniMLVG generates high-quality multi-view videos according to the corresponding condition constraints such as 3D bounding boxes or frame-level text descriptions. Compared to the best models with similar capabilities, our framework achieves improvements of 48.2% in FID and 35.2% in FVD.
arxiv情報
著者 | Rui Chen,Zehuan Wu,Yichen Liu,Yuxin Guo,Jingcheng Ni,Haifeng Xia,Siyu Xia |
発行日 | 2025-03-06 14:40:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google