EasyControl: Transfer ControlNet to Video Diffusion for Controllable Generation and Interpolation

要約

Stable Diffusion に代表されるテキストガイドによる画像生成技術の進歩を受けて、学術コミュニティではビデオ生成への注目が高まっています。
ただし、ビデオ生成のテキスト ガイダンスのみに依存することには重大な制限があります。ビデオには、特に動きの点で画像よりもはるかに豊富なコンテンツが含まれているためです。
この情報は、プレーン テキストで適切に説明することはほとんどできません。
幸いなことに、コンピュータ ビジョンでは、さまざまな視覚的表現が生成をガイドする追加の制御信号として機能します。
これらの信号の助けを借りて、ビデオ生成をより詳細に制御できるため、さまざまなアプリケーションに対する柔軟性が高まります。
ただし、さまざまなコントロールを統合するのは簡単ではありません。
この論文では、EasyControl と呼ばれる汎用フレームワークを提案します。
条件アダプターを介して条件特徴を伝播および挿入することにより、私たちの方法では、ユーザーが単一の条件マップでビデオ生成を制御できるようになります。
私たちのフレームワークを使用すると、生のピクセル、深度、HED などを含むさまざまな条件を、低実用コストでさまざまな Unet ベースの事前トレーニング済みビデオ拡散モデルに統合できます。
私たちは公開データセットに対して包括的な実験を実施しており、定量的および定性的結果の両方で、私たちの手法が最先端の手法よりも優れていることが示されています。
EasyControl は、以前の作業と比較して、複数の検証データセットにわたるさまざまな評価指標を大幅に改善します。
具体的には、スケッチからビデオへの生成タスクに関して、EasyControl は VideoComposer と比較して、UCF101 で FVD で 152.0、IS で 19.9 の向上をそれぞれ達成しています。
忠実度に関しては、当社のモデルは強力な画像保持能力を示しており、その結果、他の画像からビデオへのモデルと比較して、UCF101 および MSR-VTT で高い FVD と IS が得られます。

要約(オリジナル)

Following the advancements in text-guided image generation technology exemplified by Stable Diffusion, video generation is gaining increased attention in the academic community. However, relying solely on text guidance for video generation has serious limitations, as videos contain much richer content than images, especially in terms of motion. This information can hardly be adequately described with plain text. Fortunately, in computer vision, various visual representations can serve as additional control signals to guide generation. With the help of these signals, video generation can be controlled in finer detail, allowing for greater flexibility for different applications. Integrating various controls, however, is nontrivial. In this paper, we propose a universal framework called EasyControl. By propagating and injecting condition features through condition adapters, our method enables users to control video generation with a single condition map. With our framework, various conditions including raw pixels, depth, HED, etc., can be integrated into different Unet-based pre-trained video diffusion models at a low practical cost. We conduct comprehensive experiments on public datasets, and both quantitative and qualitative results indicate that our method outperforms state-of-the-art methods. EasyControl significantly improves various evaluation metrics across multiple validation datasets compared to previous works. Specifically, for the sketch-to-video generation task, EasyControl achieves an improvement of 152.0 on FVD and 19.9 on IS, respectively, in UCF101 compared with VideoComposer. For fidelity, our model demonstrates powerful image retention ability, resulting in high FVD and IS in UCF101 and MSR-VTT compared to other image-to-video models.

arxiv情報

著者 Cong Wang,Jiaxi Gu,Panwen Hu,Haoyu Zhao,Yuanfan Guo,Jianhua Han,Hang Xu,Xiaodan Liang
発行日 2024-08-23 11:48:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク