Vid-CamEdit: Video Camera Trajectory Editing with Generative Rendering from Estimated Geometry

要約

ビデオカメラの軌跡編集のための新しいフレームワークであるVID-CAMEDITを紹介し、ユーザー定義のカメラパスに沿ってモノクラービデオの再合成を可能にします。
このタスクは、その不適切な性質とトレーニング用の限られたマルチビュービデオデータのために困難です。
従来の再構築方法は、極端な軌跡の変化に苦しんでおり、動的な新規ビューの合成のための既存の生成モデルは、内部のビデオを処理できません。
私たちのアプローチは、一時的に一貫したジオメトリの推定と、このジオメトリによって導かれる生成レンダリングの2つのステップで構成されています。
幾何学的なプライアーを統合することにより、生成モデルは、推定されたジオメトリが不確かな現実的な詳細の合成に焦点を当てています。
マルチビュー画像とビデオデータを使用して空間的および時間的コンポーネントを個別にトレーニングする因数分解された微調整フレームワークを介して、広範な4Dトレーニングデータの必要性を排除します。
私たちの方法は、特に現実世界の映像の極端な外挿シナリオで、新しいカメラの軌跡からもっともらしいビデオを作成する際のベースラインを上回ります。

要約(オリジナル)

We introduce Vid-CamEdit, a novel framework for video camera trajectory editing, enabling the re-synthesis of monocular videos along user-defined camera paths. This task is challenging due to its ill-posed nature and the limited multi-view video data for training. Traditional reconstruction methods struggle with extreme trajectory changes, and existing generative models for dynamic novel view synthesis cannot handle in-the-wild videos. Our approach consists of two steps: estimating temporally consistent geometry, and generative rendering guided by this geometry. By integrating geometric priors, the generative model focuses on synthesizing realistic details where the estimated geometry is uncertain. We eliminate the need for extensive 4D training data through a factorized fine-tuning framework that separately trains spatial and temporal components using multi-view image and video data. Our method outperforms baselines in producing plausible videos from novel camera trajectories, especially in extreme extrapolation scenarios on real-world footage.

arxiv情報

著者 Junyoung Seo,Jisang Han,Jaewoo Jung,Siyoon Jin,Joungbin Lee,Takuya Narihira,Kazumi Fukuda,Takashi Shibuya,Donghoon Ahn,Shoukang Hu,Seungryong Kim,Yuki Mitsufuji
発行日 2025-06-16 17:02:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク