MotionBooth: Motion-Aware Customized Text-to-Video Generation

要約

この作品では、オブジェクトとカメラの動きの両方を正確に制御して、カスタマイズされた被写体をアニメーション化するために設計された革新的なフレームワークである MotionBooth を紹介します。
特定のオブジェクトのいくつかの画像を活用することで、テキストからビデオへのモデルを効率的に微調整し、オブジェクトの形状と属性を正確にキャプチャします。
私たちのアプローチは、被験者の学習パフォーマンスを向上させるために被験者領域の損失とビデオ保存の損失を提示するとともに、カスタマイズされた被験者とモーション制御信号を統合するための被験者トークンのクロスアテンション損失を提示します。
さらに、推論中に被写体とカメラの動きを管理するためのトレーニング不要の手法を提案します。
特に、クロスアテンションマップ操作を利用して被写体の動きを制御し、カメラの動きの制御にも新しい潜在シフトモジュールを導入します。
MotionBooth は、被写体の外観を維持しながら、生成されたビデオの動きを同時に制御することに優れています。
広範な定量的および定性的評価により、私たちの手法の優位性と有効性が実証されています。
私たちのプロジェクト ページは https://jianzongwu.github.io/projects/motionbooth にあります。

要約(オリジナル)

In this work, we present MotionBooth, an innovative framework designed for animating customized subjects with precise control over both object and camera movements. By leveraging a few images of a specific object, we efficiently fine-tune a text-to-video model to capture the object’s shape and attributes accurately. Our approach presents subject region loss and video preservation loss to enhance the subject’s learning performance, along with a subject token cross-attention loss to integrate the customized subject with motion control signals. Additionally, we propose training-free techniques for managing subject and camera motions during inference. In particular, we utilize cross-attention map manipulation to govern subject motion and introduce a novel latent shift module for camera movement control as well. MotionBooth excels in preserving the appearance of subjects while simultaneously controlling the motions in generated videos. Extensive quantitative and qualitative evaluations demonstrate the superiority and effectiveness of our method. Our project page is at https://jianzongwu.github.io/projects/motionbooth

arxiv情報

著者 Jianzong Wu,Xiangtai Li,Yanhong Zeng,Jiangning Zhang,Qianyu Zhou,Yining Li,Yunhai Tong,Kai Chen
発行日 2024-06-25 17:42:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク