要約
拡散モデルの最近の進歩により、ビデオ生成の品質が大幅に向上しました。
ただし、カメラのポーズをきめ細かく制御することは依然として課題です。
U-Net ベースのモデルはカメラ制御に関して有望な結果を示していますが、大規模なビデオ生成に推奨されるアーキテクチャであるトランスベースの拡散モデル (DiT) は、カメラの動きの精度が大幅に低下するという問題があります。
このペーパーでは、この問題の根本的な原因を調査し、DiT アーキテクチャに合わせたソリューションを提案します。
私たちの調査により、カメラ制御のパフォーマンスは、一般に信じられているカメラのポーズ表現ではなく、調整方法の選択に大きく依存することが明らかになりました。
DiT における永続的なモーションの劣化に対処するために、分類子を使用しないガイダンスに基づくカメラ モーション ガイダンス (CMG) を導入し、カメラ制御を 400% 以上向上させます。
さらに、スパース カメラ制御パイプラインを提供し、長いビデオのカメラ ポーズを指定するプロセスを大幅に簡素化します。
私たちの方法は U-Net モデルと DiT モデルの両方に普遍的に適用され、ビデオ生成タスクのカメラ制御が向上します。
要約(オリジナル)
Recent advancements in diffusion models have significantly enhanced the quality of video generation. However, fine-grained control over camera pose remains a challenge. While U-Net-based models have shown promising results for camera control, transformer-based diffusion models (DiT)-the preferred architecture for large-scale video generation – suffer from severe degradation in camera motion accuracy. In this paper, we investigate the underlying causes of this issue and propose solutions tailored to DiT architectures. Our study reveals that camera control performance depends heavily on the choice of conditioning methods rather than camera pose representations that is commonly believed. To address the persistent motion degradation in DiT, we introduce Camera Motion Guidance (CMG), based on classifier-free guidance, which boosts camera control by over 400%. Additionally, we present a sparse camera control pipeline, significantly simplifying the process of specifying camera poses for long videos. Our method universally applies to both U-Net and DiT models, offering improved camera control for video generation tasks.
arxiv情報
著者 | Soon Yau Cheong,Duygu Ceylan,Armin Mustafa,Andrew Gilbert,Chun-Hao Paul Huang |
発行日 | 2024-10-14 17:58:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google