要約
カスタマイズされたビデオジェネレーションは、柔軟なユーザー定義条件下で特定の主題を特徴とするビデオを作成することを目的としていますが、既存の方法は、アイデンティティの一貫性と限られた入力モダリティに苦労することがよくあります。
このペーパーでは、画像、オーディオ、ビデオ、テキストの条件をサポートしながら主題の一貫性を強調するマルチモーダルカスタマイズされたビデオ生成フレームワークであるHunyuancustomを提案します。
Hunyuanvideoに基づいて構築されたこのモデルは、最初に画像テキスト条件付き生成タスクに対処し、LLAVAに基づいてマルチモーダル理解を強化するためのテキストイメージ融合モジュールを導入し、画像ID強化モジュールをレバレッジしてフレーム全体のアイデンティティ機能を強化する画像ID強化モジュールを導入します。
オーディオおよびビデオコンディショナルの生成を有効にするために、モダリティ固有の条件インジェクションメカニズムをさらに提案します。空間交差に関する階層的アライメントを達成するオーディオンモジュール、およびパッチ化ベースの特徴的整合ネットワークを介して潜在的な圧縮条件ビデオを統合するビデオ駆動型注入モジュールを提案します。
単一およびマルチサブジェクトのシナリオに関する広範な実験は、HunyuancustomがIDの一貫性、リアリズム、およびテキストビデオアラインメントの観点から、最先端のオープンソースメソッドを大幅に上回ることを示しています。
さらに、オーディオやビデオ駆動型のカスタマイズされたビデオ生成など、下流のタスク全体でその堅牢性を検証します。
私たちの結果は、制御可能なビデオ生成を進める際のマルチモーダルコンディショニングとアイデンティティを提供する戦略の有効性を強調しています。
すべてのコードとモデルは、https://hunyuancustom.github.ioで入手できます。
要約(オリジナル)
Customized video generation aims to produce videos featuring specific subjects under flexible user-defined conditions, yet existing methods often struggle with identity consistency and limited input modalities. In this paper, we propose HunyuanCustom, a multi-modal customized video generation framework that emphasizes subject consistency while supporting image, audio, video, and text conditions. Built upon HunyuanVideo, our model first addresses the image-text conditioned generation task by introducing a text-image fusion module based on LLaVA for enhanced multi-modal understanding, along with an image ID enhancement module that leverages temporal concatenation to reinforce identity features across frames. To enable audio- and video-conditioned generation, we further propose modality-specific condition injection mechanisms: an AudioNet module that achieves hierarchical alignment via spatial cross-attention, and a video-driven injection module that integrates latent-compressed conditional video through a patchify-based feature-alignment network. Extensive experiments on single- and multi-subject scenarios demonstrate that HunyuanCustom significantly outperforms state-of-the-art open- and closed-source methods in terms of ID consistency, realism, and text-video alignment. Moreover, we validate its robustness across downstream tasks, including audio and video-driven customized video generation. Our results highlight the effectiveness of multi-modal conditioning and identity-preserving strategies in advancing controllable video generation. All the code and models are available at https://hunyuancustom.github.io.
arxiv情報
著者 | Teng Hu,Zhentao Yu,Zhengguang Zhou,Sen Liang,Yuan Zhou,Qin Lin,Qinglin Lu |
発行日 | 2025-05-08 08:29:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google