I2V-Adapter: A General Image-to-Video Adapter for Diffusion Models

要約

テキストガイドによる画像からビデオへの (I2V) 生成は、入力画像のアイデンティティを保持し、入力プロンプトと意味的に一致する一貫したビデオを生成することを目的としています。
既存の方法は通常、モデルに供給される前に画像とノイズのあるビデオ フレームをチャネルごとに連結するか、事前トレーニングされた画像エンコーダーによって生成された画像埋め込みをクロスアテンション モジュールに注入することによって、事前トレーニングされたテキストからビデオへの (T2V) モデルを強化します。
ただし、前者のアプローチでは、多くの場合、事前トレーニングされた T2V モデルの基本的な重みを変更する必要があるため、オープンソース コミュニティ内でのモデルの互換性が制限され、モデルの事前知識が破壊されます。
一方、後者は通常、入力画像のアイデンティティを保存できません。
このような制限を克服するための I2V アダプターを紹介します。
I2V アダプターは、クロスフレーム アテンション メカニズムを通じてノイズのない入力画像を後続のノイズのあるフレームに適切に伝播し、事前トレーニングされた T2V モデルを変更することなく入力画像の同一性を維持します。
特に、I2V アダプターはトレーニング可能なパラメーターを少数しか導入しないため、トレーニング コストが大幅に軽減され、既存のコミュニティ主導のパーソナライズされたモデルや制御ツールとの互換性も確保されます。
さらに、2 つの調整可能な制御係数を通じて、生成されたビデオの動きの振幅と安定性のバランスをとるための、新しいフレーム類似性以前を提案します。
私たちの実験結果は、I2V アダプターが高品質のビデオを生成できることを示しています。
このパフォーマンスは、機敏性と適応性と相まって、I2V の分野、特にパーソナライズされた制御可能なアプリケーションにおいて大幅な進歩を示しています。

要約(オリジナル)

Text-guided image-to-video (I2V) generation aims to generate a coherent video that preserves the identity of the input image and semantically aligns with the input prompt. Existing methods typically augment pretrained text-to-video (T2V) models by either concatenating the image with noised video frames channel-wise before being fed into the model or injecting the image embedding produced by pretrained image encoders in cross-attention modules. However, the former approach often necessitates altering the fundamental weights of pretrained T2V models, thus restricting the model’s compatibility within the open-source communities and disrupting the model’s prior knowledge. Meanwhile, the latter typically fails to preserve the identity of the input image. We present I2V-Adapter to overcome such limitations. I2V-Adapter adeptly propagates the unnoised input image to subsequent noised frames through a cross-frame attention mechanism, maintaining the identity of the input image without any changes to the pretrained T2V model. Notably, I2V-Adapter only introduces a few trainable parameters, significantly alleviating the training cost and also ensures compatibility with existing community-driven personalized models and control tools. Moreover, we propose a novel Frame Similarity Prior to balance the motion amplitude and the stability of generated videos through two adjustable control coefficients. Our experimental results demonstrate that I2V-Adapter is capable of producing high-quality videos. This performance, coupled with its agility and adaptability, represents a substantial advancement in the field of I2V, particularly for personalized and controllable applications.

arxiv情報

著者 Xun Guo,Mingwu Zheng,Liang Hou,Yuan Gao,Yufan Deng,Pengfei Wan,Di Zhang,Yufan Liu,Weiming Hu,Zhengjun Zha,Haibin Huang,Chongyang Ma
発行日 2024-05-14 17:27:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク