要約
拡散モデルは、テキスト プロンプトや画像から高品質のビデオを生成する際に優れたパフォーマンスを示しています。
ただし、カメラ操作やコンテンツ編集などのビデオ生成プロセスを正確に制御することは依然として大きな課題です。
制御されたビデオ生成のための既存の方法は、通常、単一の制御タイプに限定されており、多様な制御要求に対処する柔軟性に欠けています。
このペーパーでは、統合アーキテクチャ内で複数のビデオ制御タスクをサポートする新しいアプローチである Diffusion as Shader (DaS) を紹介します。
私たちの重要な洞察は、ビデオは基本的に動的な 3D コンテンツの 2D レンダリングであるため、多用途のビデオ制御を実現するには 3D 制御信号を活用する必要があるということです。
2D 制御信号に限定された従来の方法とは異なり、DaS は 3D トラッキング ビデオを制御入力として活用し、ビデオ拡散プロセスを本質的に 3D 対応にします。
この革新により、DaS は 3D トラッキング ビデオを操作するだけで、幅広いビデオ制御を実現できます。
3D トラッキング ビデオを使用することのさらなる利点は、フレームを効果的にリンクできるため、生成されたビデオの時間的一貫性が大幅に向上することです。
DaS は、10,000 未満のビデオを使用して 8 つの H800 GPU でわずか 3 日間の微調整を行うだけで、メッシュからビデオへの生成、カメラ制御、モーション転送、オブジェクト操作など、さまざまなタスクにわたって強力な制御機能を実証します。
要約(オリジナル)
Diffusion models have demonstrated impressive performance in generating high-quality videos from text prompts or images. However, precise control over the video generation process, such as camera manipulation or content editing, remains a significant challenge. Existing methods for controlled video generation are typically limited to a single control type, lacking the flexibility to handle diverse control demands. In this paper, we introduce Diffusion as Shader (DaS), a novel approach that supports multiple video control tasks within a unified architecture. Our key insight is that achieving versatile video control necessitates leveraging 3D control signals, as videos are fundamentally 2D renderings of dynamic 3D content. Unlike prior methods limited to 2D control signals, DaS leverages 3D tracking videos as control inputs, making the video diffusion process inherently 3D-aware. This innovation allows DaS to achieve a wide range of video controls by simply manipulating the 3D tracking videos. A further advantage of using 3D tracking videos is their ability to effectively link frames, significantly enhancing the temporal consistency of the generated videos. With just 3 days of fine-tuning on 8 H800 GPUs using less than 10k videos, DaS demonstrates strong control capabilities across diverse tasks, including mesh-to-video generation, camera control, motion transfer, and object manipulation.
arxiv情報
著者 | Zekai Gu,Rui Yan,Jiahao Lu,Peng Li,Zhiyang Dou,Chenyang Si,Zhen Dong,Qifeng Liu,Cheng Lin,Ziwei Liu,Wenping Wang,Yuan Liu |
発行日 | 2025-01-07 15:01:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google