要約
将来のビデオフレームを予測することは意思決定システムに不可欠ですが、RGBフレームだけでは、現実世界の根底にある複雑さを完全にキャプチャするために必要な情報が不足しています。
この制限に対処するために、補完的なデータモダリティを組み込んだ同期ビデオ予測(SyncVP)のマルチモーダルフレームワークを提案し、将来の予測の豊かさと精度を高めます。
SYNCVPは、事前に訓練されたモダリティ固有の拡散モデルに基づいて構築され、効率的な時空間交差アテナテンションモジュールを導入して、モダリティ全体で効果的な情報共有を可能にします。
深さを追加のモダリティとして使用して、CityscapesやBairなどの標準のベンチマークデータセットでSyncVPを評価します。
さらに、セマンティック情報を備えたシンシアの他のモダリティと気候データを持つERA5ランドへの一般化を実証します。
特に、SyncVPは、1つのモダリティのみが存在するシナリオであっても、最先端のパフォーマンスを実現し、幅広いアプリケーションの堅牢性と可能性を示しています。
要約(オリジナル)
Predicting future video frames is essential for decision-making systems, yet RGB frames alone often lack the information needed to fully capture the underlying complexities of the real world. To address this limitation, we propose a multi-modal framework for Synchronous Video Prediction (SyncVP) that incorporates complementary data modalities, enhancing the richness and accuracy of future predictions. SyncVP builds on pre-trained modality-specific diffusion models and introduces an efficient spatio-temporal cross-attention module to enable effective information sharing across modalities. We evaluate SyncVP on standard benchmark datasets, such as Cityscapes and BAIR, using depth as an additional modality. We furthermore demonstrate its generalization to other modalities on SYNTHIA with semantic information and ERA5-Land with climate data. Notably, SyncVP achieves state-of-the-art performance, even in scenarios where only one modality is present, demonstrating its robustness and potential for a wide range of applications.
arxiv情報
著者 | Enrico Pallotta,Sina Mokhtarzadeh Azar,Shuai Li,Olga Zatsarynna,Juergen Gall |
発行日 | 2025-03-24 17:53:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google