要約
現在のビデオ生成基盤モデルは、主にテキストからビデオへのタスクに焦点を当てており、細粒のビデオコンテンツの作成を制限しています。
アダプターベースのアプローチ(コントロールネットなど)は、最小限の微調整を伴う追加のコントロールを可能にしますが、独立した訓練されたアダプター間の分岐競合、計算コストの増加につながるパラメーター冗長性、および完全な微調整と比較して最適でないパフォーマンスなど、複数の条件を統合する際に課題に遭遇します。
これらの課題に対処するために、統一されたフルアテンションメカニズムを介して複数の条件をシームレスに統合するビデオ生成のための統一された基盤モデルであるFullditを紹介します。
マルチタスク条件を統一されたシーケンス表現に融合し、完全な自己触媒の長いコンテスト学習能力を活用して条件ダイナミクスをキャプチャすることにより、フルルディットはパラメーターのオーバーヘッドを削減し、状態の競合を回避し、スケーラビリティと緊急能力を示します。
さらに、マルチタスクビデオ生成評価のためにフルベンチを紹介します。
実験は、Fullditが最新の結果を達成し、複雑なマルチタスクビデオ生成における完全攻撃の有効性を強調することを示しています。
要約(オリジナル)
Current video generative foundation models primarily focus on text-to-video tasks, providing limited control for fine-grained video content creation. Although adapter-based approaches (e.g., ControlNet) enable additional controls with minimal fine-tuning, they encounter challenges when integrating multiple conditions, including: branch conflicts between independently trained adapters, parameter redundancy leading to increased computational cost, and suboptimal performance compared to full fine-tuning. To address these challenges, we introduce FullDiT, a unified foundation model for video generation that seamlessly integrates multiple conditions via unified full-attention mechanisms. By fusing multi-task conditions into a unified sequence representation and leveraging the long-context learning ability of full self-attention to capture condition dynamics, FullDiT reduces parameter overhead, avoids conditions conflict, and shows scalability and emergent ability. We further introduce FullBench for multi-task video generation evaluation. Experiments demonstrate that FullDiT achieves state-of-the-art results, highlighting the efficacy of full-attention in complex multi-task video generation.
arxiv情報
著者 | Xuan Ju,Weicai Ye,Quande Liu,Qiulin Wang,Xintao Wang,Pengfei Wan,Di Zhang,Kun Gai,Qiang Xu |
発行日 | 2025-03-25 17:59:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google