VideoMage: Multi-Subject and Motion Customization of Text-to-Video Diffusion Models

要約

カスタマイズされたテキストからビデオへの生成は、ユーザーが指定したサブジェクトのアイデンティティまたはモーションパターンを組み込んだ高品質のビデオを作成することを目的としています。
ただし、既存の方法は、主に、被験者のアイデンティティまたはモーションパターンの単一の概念のパーソナライズに焦点を当て、目的のモーションパターンを使用して複数の被験者の有効性を制限します。
この課題に取り組むために、複数の被験者とそれらのインタラクティブな動きの両方をめぐるビデオカスタマイズのための統一されたフレームワークビデオを提案します。
Videomageは、サブジェクトとモーションロラを採用して、ユーザーが提供する画像やビデオからパーソナライズされたコンテンツをキャプチャし、視覚的な外観からモーションパターンを解くための外観に依存しないモーション学習アプローチをキャプチャします。
さらに、目的のモーションパターン内の被験者間の相互作用を導くための空間的組成スキームを開発します。
広範な実験は、ビデオ化が既存の方法を上回り、一貫した主題のアイデンティティと相互作用を備えたコヒーレントなユーザー制御ビデオを生成することを示しています。

要約(オリジナル)

Customized text-to-video generation aims to produce high-quality videos that incorporate user-specified subject identities or motion patterns. However, existing methods mainly focus on personalizing a single concept, either subject identity or motion pattern, limiting their effectiveness for multiple subjects with the desired motion patterns. To tackle this challenge, we propose a unified framework VideoMage for video customization over both multiple subjects and their interactive motions. VideoMage employs subject and motion LoRAs to capture personalized content from user-provided images and videos, along with an appearance-agnostic motion learning approach to disentangle motion patterns from visual appearance. Furthermore, we develop a spatial-temporal composition scheme to guide interactions among subjects within the desired motion patterns. Extensive experiments demonstrate that VideoMage outperforms existing methods, generating coherent, user-controlled videos with consistent subject identities and interactions.

arxiv情報

著者 Chi-Pin Huang,Yen-Siang Wu,Hung-Kai Chung,Kai-Po Chang,Fu-En Yang,Yu-Chiang Frank Wang
発行日 2025-03-27 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク