要約
レイヤーを意識したビデオ生成のための統合ソリューション、LayerFlowを紹介する。レイヤーごとのプロンプトが与えられると、LayerFlowは透明な前景、きれいな背景、ブレンドされたシーンのビデオを生成する。また、ブレンドされたビデオを分解したり、与えられた前景のために背景を生成したり、その逆のような多様なバリエーションもサポートする。テキストからビデオへの拡散変換から始めて、異なるレイヤーのビデオをサブクリップとして整理し、各クリップと対応するレイヤーごとのプロンプトを区別するためにレイヤー埋め込みを活用する。このようにして、1つの統一されたフレームワークで前述のバリエーションをシームレスにサポートする。高品質なレイヤーごとのトレーニング動画がないため、高品質なレイヤー注釈を持つ静止画像に対応するための多段階トレーニング戦略を設計する。具体的には、まず低品質のビデオデータでモデルを訓練する。次に、静止フレームに対応するように、モーションLoRAをチューニングする。その後、コンテンツLoRAを、コピーペーストされたビデオデータとともに、高品質なレイヤー画像を含む画像データの混合で訓練する。推論中、モーションLoRAを除去し、目的のレイヤーを持つ滑らかな動画を生成する。
要約(オリジナル)
We present LayerFlow, a unified solution for layer-aware video generation. Given per-layer prompts, LayerFlow generates videos for the transparent foreground, clean background, and blended scene. It also supports versatile variants like decomposing a blended video or generating the background for the given foreground and vice versa. Starting from a text-to-video diffusion transformer, we organize the videos for different layers as sub-clips, and leverage layer embeddings to distinguish each clip and the corresponding layer-wise prompts. In this way, we seamlessly support the aforementioned variants in one unified framework. For the lack of high-quality layer-wise training videos, we design a multi-stage training strategy to accommodate static images with high-quality layer annotations. Specifically, we first train the model with low-quality video data. Then, we tune a motion LoRA to make the model compatible with static frames. Afterward, we train the content LoRA on the mixture of image data with high-quality layered images along with copy-pasted video data. During inference, we remove the motion LoRA thus generating smooth videos with desired layers.
arxiv情報
著者 | Sihui Ji,Hao Luo,Xi Chen,Yuanpeng Tu,Yiyang Wang,Hengshuang Zhao |
発行日 | 2025-06-04 17:59:58+00:00 |
arxivサイト | arxiv_id(pdf) |