Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers


私たちは、映画レベルの品質とダイナミックなモーションを備えたアイデンティティを保持したビデオを生成するためのフレームワークである Magic Mirror を紹介します。
ビデオ拡散トランスフォーマーに基づいて構築された私たちの手法では、次の 3 つの主要なコンポーネントが導入されています。(1) アイデンティティと構造的特徴の両方をキャプチャするデュアルブランチの顔特徴抽出器、(2) 効率的なアイデンティティ統合のための条件付き適応正規化を備えた軽量クロスモーダル アダプタ、
(3) 合成 ID ペアとビデオ データを組み合わせた 2 段階のトレーニング戦略。
広範な実験により、Magic Mirror はアイデンティティの一貫性と自然な動きのバランスを効果的に取っており、追加するパラメータを最小限に抑えながら、複数のメトリクスにわたって既存の方法よりも優れたパフォーマンスを発揮することが実証されています。
コードとモデルは、 で公開されます。


We present Magic Mirror, a framework for generating identity-preserved videos with cinematic-level quality and dynamic motion. While recent advances in video diffusion models have shown impressive capabilities in text-to-video generation, maintaining consistent identity while producing natural motion remains challenging. Previous methods either require person-specific fine-tuning or struggle to balance identity preservation with motion diversity. Built upon Video Diffusion Transformers, our method introduces three key components: (1) a dual-branch facial feature extractor that captures both identity and structural features, (2) a lightweight cross-modal adapter with Conditioned Adaptive Normalization for efficient identity integration, and (3) a two-stage training strategy combining synthetic identity pairs with video data. Extensive experiments demonstrate that Magic Mirror effectively balances identity consistency with natural motion, outperforming existing methods across multiple metrics while requiring minimal parameters added. The code and model will be made publicly available at:


著者 Yuechen Zhang,Yaoyang Liu,Bin Xia,Bohao Peng,Zexin Yan,Eric Lo,Jiaya Jia
発行日 2025-01-07 16:48:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク