ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

要約

最近、ビデオ モデリングの進歩により、生成されたビデオ内でカメラの軌道を制御できるようになりました。
ただし、これらの方法は、ビデオ モデルによって生成されていないユーザー提供のビデオには直接適用できません。
この論文では、ユーザーが提供した単一のビデオから新しいカメラ軌跡を持つ新しいビデオを生成する方法である ReCapture を紹介します。
私たちの方法では、既存のシーンのモーションをすべて含めて、非常に異なる角度から、映画のようなカメラのモーションを使用してリファレンス ビデオを再生成できます。
特に、私たちの方法を使用すると、参照ビデオでは観察できなかったシーンの一部をまことしやかに幻覚させることもできます。
私たちの方法は、(1) マルチビュー拡散モデルまたは深度ベースの点群レンダリングを使用して新しいカメラ軌道でノイズのあるアンカー ビデオを生成し、次に (2) 提案したマスクされたビデオを使用してアンカー ビデオをクリーンで時間的に一貫した再角度付けビデオに再生成することによって機能します。
微調整テクニック。

要約(オリジナル)

Recently, breakthroughs in video modeling have allowed for controllable camera trajectories in generated videos. However, these methods cannot be directly applied to user-provided videos that are not generated by a video model. In this paper, we present ReCapture, a method for generating new videos with novel camera trajectories from a single user-provided video. Our method allows us to re-generate the reference video, with all its existing scene motion, from vastly different angles and with cinematic camera motion. Notably, using our method we can also plausibly hallucinate parts of the scene that were not observable in the reference video. Our method works by (1) generating a noisy anchor video with a new camera trajectory using multiview diffusion models or depth-based point cloud rendering and then (2) regenerating the anchor video into a clean and temporally consistent reangled video using our proposed masked video fine-tuning technique.

arxiv情報

著者 David Junhao Zhang,Roni Paiss,Shiran Zada,Nikhil Karnad,David E. Jacobs,Yael Pritch,Inbar Mosseri,Mike Zheng Shou,Neal Wadhwa,Nataniel Ruiz
発行日 2024-11-07 18:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG パーマリンク