CamContextI2V: Context-aware Controllable Video Generation

要約

最近、画像間(I2V)拡散モデルは、発生を導くための画像条件を組み込んだ印象的なシーンの理解と生成品質を実証しています。
ただし、これらのモデルは主に、提供されたコンテキストを超えて拡張せずに静的画像をアニメーション化します。
カメラの軌跡などの追加の制約を導入することで、多様性を高めることができますが、多くの場合視覚的な品質を低下させ、忠実なシーンの表現を必要とするタスクへの適用性を制限します。
複数の画像条件を3D制約と統合してカメラ制御と統合して、グローバルなセマンティクスと細粒の視覚的詳細の両方を濃縮するI2VモデルであるCamContexti2Vを提案します。
これにより、よりコヒーレントでコンテキストを意識するビデオ生成が可能になります。
さらに、効果的なコンテキスト表現に対する一時的な認識の必要性を動機づけます。
Realestate10Kデータセットに関する当社の包括的な研究では、視覚的な品質とカメラの制御性の改善が示されています。
コードとモデルをhttps://github.com/ldenninger/camcontexti2vで公開しています。

要約(オリジナル)

Recently, image-to-video (I2V) diffusion models have demonstrated impressive scene understanding and generative quality, incorporating image conditions to guide generation. However, these models primarily animate static images without extending beyond their provided context. Introducing additional constraints, such as camera trajectories, can enhance diversity but often degrades visual quality, limiting their applicability for tasks requiring faithful scene representation. We propose CamContextI2V, an I2V model that integrates multiple image conditions with 3D constraints alongside camera control to enrich both global semantics and fine-grained visual details. This enables more coherent and context-aware video generation. Moreover, we motivate the necessity of temporal awareness for an effective context representation. Our comprehensive study on the RealEstate10K dataset demonstrates improvements in visual quality and camera controllability. We make our code and models publicly available at: https://github.com/LDenninger/CamContextI2V.

arxiv情報

著者 Luis Denninger,Sina Mokhtarzadeh Azar,Juergen Gall
発行日 2025-04-08 13:26:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク