Video Generation with Learned Action Prior

要約

確率的ビデオ生成は、カメラが移動プラットフォームに取り付けられている場合に特に困難です。これは、カメラの動きが観察された画像のピクセルと相互作用し、複雑な時空間ダイナミクスが生成され、問題が部分的に観察可能になるためです。
既存の方法は通常、カメラの動きのダイナミクスを明示的にモデル化せずに、生のピクセルレベルの画像再構成に焦点を当てることで、この問題に対処しています。
私たちは、カメラの動きやアクションを観察された画像状態の一部として考慮し、マルチモーダル学習フレームワーク内で画像とアクションの両方をモデル化することによってソリューションを提案します。
3 つのモデルを紹介します。学習アクション事前学習によるビデオ生成 (VG-LeAP) は、画像とアクションのペアを単一の潜在確率プロセスから生成された拡張状態として扱い、変分推論を使用して画像とアクションの潜在事前を学習します。
Causal-LeAP は、アクションと時刻 $t$ での観察された画像フレームとの間の因果関係を確立し、観察された画像の状態に基づいて事前に条件付けされたアクションを学習します。
RAFI は、拡張された画像アクション状態概念を拡散生成プロセスとのフローマッチングに統合し、このアクション条件付き画像生成概念が他の拡散ベースのモデルに拡張できることを示しています。
私たちは、新しいビデオ アクション データセットである RoAM に関する詳細な実証研究を通じて、部分的に観察可能なビデオ生成問題におけるマルチモーダル トレーニングの重要性を強調しています。

要約(オリジナル)

Stochastic video generation is particularly challenging when the camera is mounted on a moving platform, as camera motion interacts with observed image pixels, creating complex spatio-temporal dynamics and making the problem partially observable. Existing methods typically address this by focusing on raw pixel-level image reconstruction without explicitly modelling camera motion dynamics. We propose a solution by considering camera motion or action as part of the observed image state, modelling both image and action within a multi-modal learning framework. We introduce three models: Video Generation with Learning Action Prior (VG-LeAP) treats the image-action pair as an augmented state generated from a single latent stochastic process and uses variational inference to learn the image-action latent prior; Causal-LeAP, which establishes a causal relationship between action and the observed image frame at time $t$, learning an action prior conditioned on the observed image states; and RAFI, which integrates the augmented image-action state concept into flow matching with diffusion generative processes, demonstrating that this action-conditioned image generation concept can be extended to other diffusion-based models. We emphasize the importance of multi-modal training in partially observable video generation problems through detailed empirical studies on our new video action dataset, RoAM.

arxiv情報

著者 Meenakshi Sarkar,Devansh Bhardwaj,Debasish Ghose
発行日 2024-06-20 16:00:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク