VideoControlNet: A Motion-Guided Video-to-Video Translation Framework by Using Diffusion Model with ControlNet

要約

最近、StableDiffusion のような拡散モデルは、印象的な画像生成結果を達成しました。
ただし、このような拡散モデルの生成プロセスは制御できないため、継続的で一貫したコンテンツを含むビデオを生成することが困難になります。
この研究では、ControlNet の拡散モデルを使用することにより、与えられたプロンプトと入力ビデオからの条件に基づいてさまざまなビデオを生成する、VideoControlNet と呼ばれる新しいモーションガイド付きビデオ間変換フレームワークを提案しました。
時間的な冗長性を減らすためにモーション情報を使用するビデオ コーデックからインスピレーションを得た私たちのフレームワークは、コンテンツの一貫性を保つためにモーション情報を使用して冗長領域の再生成を防ぎます。
具体的には、ControlNet の拡散モデルを使用して最初のフレーム (つまり、I フレーム) を生成します。
次に、新しく提案されたモーションガイド付き P フレーム生成 (MgPG) 方法を使用して、前の I/P フレームに基づいて他のキー フレーム (つまり P フレーム) を生成します。
モーション情報とオクルージョン領域は、拡散モデルを使用して修復されます。
最後に、モーション ガイド付き B フレーム補間 (MgBI) モジュールを使用して、残りのフレーム (つまり B フレーム) が生成されます。
私たちの実験は、提案した VideoControlNet が事前トレーニングされた大規模拡散モデルの生成機能を継承し、動き情報を使用して画像拡散モデルをビデオ拡散モデルに拡張することを示しています。
詳細な結果はプロジェクト ページで提供されます。

要約(オリジナル)

Recently, diffusion models like StableDiffusion have achieved impressive image generation results. However, the generation process of such diffusion models is uncontrollable, which makes it hard to generate videos with continuous and consistent content. In this work, by using the diffusion model with ControlNet, we proposed a new motion-guided video-to-video translation framework called VideoControlNet to generate various videos based on the given prompts and the condition from the input video. Inspired by the video codecs that use motion information for reducing temporal redundancy, our framework uses motion information to prevent the regeneration of the redundant areas for content consistency. Specifically, we generate the first frame (i.e., the I-frame) by using the diffusion model with ControlNet. Then we generate other key frames (i.e., the P-frame) based on the previous I/P-frame by using our newly proposed motion-guided P-frame generation (MgPG) method, in which the P-frames are generated based on the motion information and the occlusion areas are inpainted by using the diffusion model. Finally, the rest frames (i.e., the B-frame) are generated by using our motion-guided B-frame interpolation (MgBI) module. Our experiments demonstrate that our proposed VideoControlNet inherits the generation capability of the pre-trained large diffusion model and extends the image diffusion model to the video diffusion model by using motion information. More results are provided at our project page.

arxiv情報

著者 Zhihao Hu,Dong Xu
発行日 2023-07-26 09:50:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク