Image Conductor: Precision Control for Interactive Video Synthesis

要約

映画制作やアニメーション制作では、多くの場合、カメラのトランジションやオブジェクトの動きを調整するための高度な技術が必要で、通常は労働集約的な現実世界のキャプチャが必要になります。
ビデオ作成のための生成 AI の進歩にもかかわらず、インタラクティブなビデオ アセット生成のためのモーションの正確な制御を実現することは依然として課題です。
この目的を達成するために、カメラの遷移とオブジェクトの動きを正確に制御して単一の画像からビデオ アセットを生成する方法である Image Conductor を提案します。
カメラの LoRA 重みとオブジェクトの LoRA 重みによって個別のカメラとオブジェクトの動きを分離する、よく練られたトレーニング戦略が提案されています。
不適切な姿勢の軌道による映画の変化にさらに対処するために、推論中にカメラフリーのガイダンス技術を導入し、カメラのトランジションを排除しながらオブジェクトの動きを強化します。
さらに、トレーニング用に軌跡指向のビデオ モーション データ キュレーション パイプラインを開発します。
定量的および定性的な実験は、画像からモーション制御可能なビデオを生成する際の私たちの方法の精度ときめの細かい制御を実証し、インタラクティブビデオ合成の実用化を前進させます。
プロジェクトの Web ページは https://liyaowei-stu.github.io/project/ImageConductor/ から入手できます。

要約(オリジナル)

Filmmaking and animation production often require sophisticated techniques for coordinating camera transitions and object movements, typically involving labor-intensive real-world capturing. Despite advancements in generative AI for video creation, achieving precise control over motion for interactive video asset generation remains challenging. To this end, we propose Image Conductor, a method for precise control of camera transitions and object movements to generate video assets from a single image. An well-cultivated training strategy is proposed to separate distinct camera and object motion by camera LoRA weights and object LoRA weights. To further address cinematographic variations from ill-posed trajectories, we introduce a camera-free guidance technique during inference, enhancing object movements while eliminating camera transitions. Additionally, we develop a trajectory-oriented video motion data curation pipeline for training. Quantitative and qualitative experiments demonstrate our method’s precision and fine-grained control in generating motion-controllable videos from images, advancing the practical application of interactive video synthesis. Project webpage available at https://liyaowei-stu.github.io/project/ImageConductor/

arxiv情報

著者 Yaowei Li,Xintao Wang,Zhaoyang Zhang,Zhouxia Wang,Ziyang Yuan,Liangbin Xie,Yuexian Zou,Ying Shan
発行日 2024-06-21 17:55:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク