FreeTraj: Tuning-Free Trajectory Control in Video Diffusion Models

要約

普及モデルはビデオ生成において顕著な能力を実証しており、生成プロセスに軌道制御を導入することへの関心がさらに高まっています。
既存の研究は主にトレーニングベースの方法(条件付きアダプターなど)に焦点を当てていますが、拡散モデル自体により、トレーニングを必要とせずに生成されたコンテンツを適切に制御できると主張します。
この研究では、ノイズ構築と注意計算の両方にガイダンスを課すことにより、軌道制御可能なビデオ生成を実現するための調整不要のフレームワークを導入します。
具体的には、1) まずいくつかの有益な現象を示し、初期ノイズが生成されたコンテンツのモーション軌跡にどのような影響を与えるかを分析します。
2) 次に、ノイズサンプリングとアテンションメカニズムを変更することで軌道制御を可能にするチューニング不要のアプローチである FreeTraj を提案します。
3) さらに、FreeTraj を拡張して、制御可能な軌道でより長く、より大きなビデオの生成を容易にします。
これらの設計を備えているため、ユーザーは手動で軌道を提供することも、LLM 軌道プランナーによって自動的に生成される軌道を選択することもできる柔軟性を備えています。
広範な実験により、ビデオ拡散モデルの軌道制御性を強化する際の私たちのアプローチの有効性が検証されています。

要約(オリジナル)

Diffusion model has demonstrated remarkable capability in video generation, which further sparks interest in introducing trajectory control into the generation process. While existing works mainly focus on training-based methods (e.g., conditional adapter), we argue that diffusion model itself allows decent control over the generated content without requiring any training. In this study, we introduce a tuning-free framework to achieve trajectory-controllable video generation, by imposing guidance on both noise construction and attention computation. Specifically, 1) we first show several instructive phenomenons and analyze how initial noises influence the motion trajectory of generated content. 2) Subsequently, we propose FreeTraj, a tuning-free approach that enables trajectory control by modifying noise sampling and attention mechanisms. 3) Furthermore, we extend FreeTraj to facilitate longer and larger video generation with controllable trajectories. Equipped with these designs, users have the flexibility to provide trajectories manually or opt for trajectories automatically generated by the LLM trajectory planner. Extensive experiments validate the efficacy of our approach in enhancing the trajectory controllability of video diffusion models.

arxiv情報

著者 Haonan Qiu,Zhaoxi Chen,Zhouxia Wang,Yingqing He,Menghan Xia,Ziwei Liu
発行日 2024-06-24 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク