CameraCtrl: Enabling Camera Control for Text-to-Video Generation

要約

制御性は、ユーザーが希望のコンテンツを作成できるため、ビデオ生成において重要な役割を果たします。
しかし、既存のモデルでは、より深い物語のニュアンスを表現するための映画言語として機能するカメラのポーズの正確な制御がほとんど見落とされていました。
この問題を軽減するために、Text-to-Video(T2V) モデルの正確なカメラ ポーズ制御を可能にする CameraCtrl を導入しました。
カメラの軌道を正確にパラメータ化した後、プラグアンドプレイ カメラ モジュールが T2V モデルでトレーニングされ、他のモジュールには影響を与えません。
さらに、さまざまなデータセットの効果に関する包括的な研究も行われており、多様なカメラ配置と類似した外観を持つビデオが実際に制御性と汎用性を向上させることが示唆されています。
実験結果は、正確でドメインに適応したカメラ制御を実現する際の CameraCtrl の有効性を実証し、テキストとカメラのポーズ入力からの動的でカスタマイズされたビデオ ストーリーテリングの追求において一歩前進しました。
私たちのプロジェクトの Web サイトは、https://hehao13.github.io/projects-CameraCtrl/ にあります。

要約(オリジナル)

Controllability plays a crucial role in video generation since it allows users to create desired content. However, existing models largely overlooked the precise control of camera pose that serves as a cinematic language to express deeper narrative nuances. To alleviate this issue, we introduce CameraCtrl, enabling accurate camera pose control for text-to-video(T2V) models. After precisely parameterizing the camera trajectory, a plug-and-play camera module is then trained on a T2V model, leaving others untouched. Additionally, a comprehensive study on the effect of various datasets is also conducted, suggesting that videos with diverse camera distribution and similar appearances indeed enhance controllability and generalization. Experimental results demonstrate the effectiveness of CameraCtrl in achieving precise and domain-adaptive camera control, marking a step forward in the pursuit of dynamic and customized video storytelling from textual and camera pose inputs. Our project website is at: https://hehao13.github.io/projects-CameraCtrl/.

arxiv情報

著者 Hao He,Yinghao Xu,Yuwei Guo,Gordon Wetzstein,Bo Dai,Hongsheng Li,Ceyuan Yang
発行日 2024-04-02 16:52:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク