要約
このペーパーでは、Cameractrl IIを紹介します。これは、カメラ制御されたビデオ拡散モデルを通じて大規模な動的シーン探索を可能にするフレームワークです。
以前のカメラで調整されたビデオ生成モデルは、大きなカメラの動きを備えたビデオを生成する際に、ビデオダイナミクスの減少と視点の限られた範囲に悩まされています。
ダイナミックシーンの生成を徐々に拡張するアプローチを採用します。最初に個々のビデオクリップ内で動的コンテンツを強化し、次にこの機能を拡張して、幅広い視点範囲にわたってシームレスな探索を作成します。
具体的には、トレーニング用のカメラパラメーターアノテーションを備えた大量のダイナミクスを特徴とするデータセットを構築し、軽量カメラインジェクションモジュールとトレーニングスキームを設計して、前処理されたモデルのダイナミクスを維持します。
これらの改善されたシングルクリップテクニックに基づいて、コヒーレントビデオシーケンスを生成するためのカメラ軌道をユーザーが反復的に指定できるようにすることにより、拡張シーン探索を可能にします。
多様なシナリオ全体の実験は、Cameractrl IIが以前のアプローチよりも大幅に広い空間探索を備えたカメラ制御の動的シーン合成を可能にすることを示しています。
要約(オリジナル)
This paper introduces CameraCtrl II, a framework that enables large-scale dynamic scene exploration through a camera-controlled video diffusion model. Previous camera-conditioned video generative models suffer from diminished video dynamics and limited range of viewpoints when generating videos with large camera movement. We take an approach that progressively expands the generation of dynamic scenes — first enhancing dynamic content within individual video clip, then extending this capability to create seamless explorations across broad viewpoint ranges. Specifically, we construct a dataset featuring a large degree of dynamics with camera parameter annotations for training while designing a lightweight camera injection module and training scheme to preserve dynamics of the pretrained models. Building on these improved single-clip techniques, we enable extended scene exploration by allowing users to iteratively specify camera trajectories for generating coherent video sequences. Experiments across diverse scenarios demonstrate that CameraCtrl Ii enables camera-controlled dynamic scene synthesis with substantially wider spatial exploration than previous approaches.
arxiv情報
著者 | Hao He,Ceyuan Yang,Shanchuan Lin,Yinghao Xu,Meng Wei,Liangke Gui,Qi Zhao,Gordon Wetzstein,Lu Jiang,Hongsheng Li |
発行日 | 2025-03-13 17:42:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google