Training-free Camera Control for Video Generation

要約

私たちは、既製のビデオ拡散モデルにカメラの動きの制御を提供する、トレーニング不要の堅牢なソリューションを提案します。
以前の研究とは異なり、私たちの方法では、カメラ注釈付きデータセットの教師あり微調整や、データ拡張による自己教師ありトレーニングは必要ありません。
代わりに、ほとんどの事前トレーニング済みビデオ拡散モデルに接続して再生し、単一の画像またはテキスト プロンプトを入力としてカメラ制御可能なビデオを生成できます。
私たちの仕事のインスピレーションは、生成された結果に対して中間潜在が保持される前のレイアウトから得ています。そのため、中間潜在のノイズのあるピクセルを再配置すると、出力コンテンツも再割り当てされます。
カメラの動きは、視点の変更によって引き起こされる一種のピクセルの再配置とも見なすことができるため、ノイズの多い潜在がそれに応じて変化する場合、特定のカメラの動きに従ってビデオを再構成することができます。
これに基づいて、ビデオ拡散モデルの堅牢なカメラ制御を可能にする手法 CamTrol を提案します。
これは 2 段階のプロセスによって実現されます。
まず、3D 点群空間での明示的なカメラの動きによる画像レイアウトの再配置をモデル化します。
次に、一連の再配置された画像によって形成されるノイズの多い潜在の事前レイアウトを使用して、カメラ モーションのあるビデオを生成します。
広範な実験により、生成されたビデオのカメラの動きを制御する際に私たちの方法が保持する堅牢性が実証されました。
さらに、私たちの方法が動的コンテンツを含む 3D 回転ビデオを生成する際に印象的な結果を生み出すことができることを示します。
プロジェクトページは https://lifedecoder.github.io/CamTrol/ にあります。

要約(オリジナル)

We propose a training-free and robust solution to offer camera movement control for off-the-shelf video diffusion models. Unlike previous work, our method does not require any supervised finetuning on camera-annotated datasets or self-supervised training via data augmentation. Instead, it can be plugged and played with most pretrained video diffusion models and generate camera controllable videos with a single image or text prompt as input. The inspiration of our work comes from the layout prior that intermediate latents hold towards generated results, thus rearranging noisy pixels in them will make output content reallocated as well. As camera move could also be seen as a kind of pixel rearrangement caused by perspective change, videos could be reorganized following specific camera motion if their noisy latents change accordingly. Established on this, we propose our method CamTrol, which enables robust camera control for video diffusion models. It is achieved by a two-stage process. First, we model image layout rearrangement through explicit camera movement in 3D point cloud space. Second, we generate videos with camera motion using layout prior of noisy latents formed by a series of rearranged images. Extensive experiments have demonstrated the robustness our method holds in controlling camera motion of generated videos. Furthermore, we show that our method can produce impressive results in generating 3D rotation videos with dynamic content. Project page at https://lifedecoder.github.io/CamTrol/.

arxiv情報

著者 Chen Hou,Guoqiang Wei,Yan Zeng,Zhibo Chen
発行日 2024-06-14 15:33:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク