要約
拡散モデルは、テキスト駆動の画像とビデオの生成において大きな進歩を遂げました。
現在、テキストから画像への基礎モデルは、制御可能な画像生成や画像編集など、さまざまな下流の画像合成タスクに広く適用されていますが、下流のビデオ合成タスクは、いくつかの理由からあまり研究されていません。
まず、ビデオ生成基盤モデルをトレーニングするには、膨大なメモリと計算オーバーヘッドが必要です。
ビデオ基盤モデルを使用した場合でも、ダウンストリームのビデオ合成タスクには依然としてコストのかかる追加のトレーニングが必要です。
第 2 に、一部の作品ではトレーニング不要の方法で画像拡散モデルをビデオに拡張していますが、時間的な一貫性を十分に保つことができません。
最後に、これらの適応方法は 1 つのタスク用に特別に設計されており、さまざまなダウンストリーム ビデオ合成タスクに一般化することはできません。
これらの問題を軽減するために、特定の画像拡散モデルと一般的なテキストからビデオへの基礎拡散モデルをブリッジすることにより、トレーニング不要の汎用ビデオ合成フレームワーク (BIVDiff という造語) を提案します。
具体的には、まずフレーム単位のビデオ生成に画像拡散モデル (ControlNet、Instruct Pix2Pix など) を使用し、次に生成されたビデオに対して混合反転を実行し、最後に時間的平滑化のために反転された潜在をビデオ拡散モデルに入力します。
画像モデルとビデオ モデルを分離することで、さまざまな目的に合わせて柔軟な画像モデルを選択できるようになり、フレームワークに強力なタスクの一般化と高効率が与えられます。
BIVDiff の有効性と一般的な使用法を検証するために、制御可能なビデオ生成ビデオ編集、ビデオのインペイントとアウトペイントを含む幅広いビデオ生成タスクを実行します。
私たちのプロジェクト ページは https://bivdiff.github.io でご覧いただけます。
要約(オリジナル)
Diffusion models have made tremendous progress in text-driven image and video generation. Now text-to-image foundation models are widely applied to various downstream image synthesis tasks, such as controllable image generation and image editing, while downstream video synthesis tasks are less explored for several reasons. First, it requires huge memory and compute overhead to train a video generation foundation model. Even with video foundation models, additional costly training is still required for downstream video synthesis tasks. Second, although some works extend image diffusion models into videos in a training-free manner, temporal consistency cannot be well kept. Finally, these adaption methods are specifically designed for one task and fail to generalize to different downstream video synthesis tasks. To mitigate these issues, we propose a training-free general-purpose video synthesis framework, coined as BIVDiff, via bridging specific image diffusion models and general text-to-video foundation diffusion models. Specifically, we first use an image diffusion model (like ControlNet, Instruct Pix2Pix) for frame-wise video generation, then perform Mixed Inversion on the generated video, and finally input the inverted latents into the video diffusion model for temporal smoothing. Decoupling image and video models enables flexible image model selection for different purposes, which endows the framework with strong task generalization and high efficiency. To validate the effectiveness and general use of BIVDiff, we perform a wide range of video generation tasks, including controllable video generation video editing, video inpainting and outpainting. Our project page is available at https://bivdiff.github.io.
arxiv情報
著者 | Fengyuan Shi,Jiaxi Gu,Hang Xu,Songcen Xu,Wei Zhang,Limin Wang |
発行日 | 2023-12-05 14:56:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google