要約
特にフラックスのような高度な拡散変圧器(DIT)を使用して、柔軟で忠実なアイデンティティに保存された画像生成を実現することは恐ろしいままです。
このタスクにDITを活用する最も早い堅牢なフレームワークの1つであるInfiniteYou(INFU)を紹介します。
INFUは、アイデンティティの類似性が不十分である、テキスト画像の整合性が低い、低生成品質と美学など、既存の方法の重要な問題に対処します。
Infuの中心はInfusenetです。これは、保証能力を維持しながらアイデンティティの類似性を高めるために、Infusenetです。
合成シングルパーソンマルトサンプル(SPMS)データを備えた事前削除および監視付き微調整(SFT)を含むマルチステージトレーニング戦略は、テキストイメージのアライメントをさらに改善し、画質を改善し、顔のコピーパスティングを軽減します。
広範な実験は、INFUが既存のベースラインを上回り、最先端のパフォーマンスを達成することを示しています。
さらに、INFUのプラグアンドプレイ設計により、さまざまな既存の方法との互換性が保証され、より広範なコミュニティに貴重な貢献が提供されます。
要約(オリジナル)
Achieving flexible and high-fidelity identity-preserved image generation remains formidable, particularly with advanced Diffusion Transformers (DiTs) like FLUX. We introduce InfiniteYou (InfU), one of the earliest robust frameworks leveraging DiTs for this task. InfU addresses significant issues of existing methods, such as insufficient identity similarity, poor text-image alignment, and low generation quality and aesthetics. Central to InfU is InfuseNet, a component that injects identity features into the DiT base model via residual connections, enhancing identity similarity while maintaining generation capabilities. A multi-stage training strategy, including pretraining and supervised fine-tuning (SFT) with synthetic single-person-multiple-sample (SPMS) data, further improves text-image alignment, ameliorates image quality, and alleviates face copy-pasting. Extensive experiments demonstrate that InfU achieves state-of-the-art performance, surpassing existing baselines. In addition, the plug-and-play design of InfU ensures compatibility with various existing methods, offering a valuable contribution to the broader community.
arxiv情報
著者 | Liming Jiang,Qing Yan,Yumin Jia,Zichuan Liu,Hao Kang,Xin Lu |
発行日 | 2025-03-20 17:59:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google