ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning

要約

普及モデルの急速な発展により、さまざまな用途が生まれました。
アイデンティティを保持したテキストから画像への生成 (ID-T2I) は、AI ポートレートや広告などの幅広いアプリケーション シナリオにより特に大きな注目を集めています。
既存の ID-T2I 手法は目覚ましい結果を示していますが、いくつかの重要な課題が残っています: (1) 参照ポートレートの同一性特性を正確に維持するのは難しい、(2) 生成された画像は、特に同一性保持を強制している間は美的魅力に欠ける、および (3)
) LoRA ベースのメソッドとアダプター ベースのメソッドを同時に互換できないという制限があります。
これらの問題に対処するために、ID-T2I のパフォーマンスを向上させるための一般的なフィードバック学習フレームワークである \textbf{ID-Aligner} を紹介します。
ID 特徴の損失を解決するために、ID 整合性報酬の微調整を導入し、顔検出および認識モデルからのフィードバックを利用して、生成された ID の保存を改善します。
さらに、人間が注釈を付けた嗜好データからの報酬と、美的調整信号を提供するキャラクター構造生成に関する自動的に構築されたフィードバックを活用した、アイデンティティの美的報酬の微調整を提案します。
普遍的なフィードバック微調整フレームワークのおかげで、私たちの方法は LoRA モデルとアダプター モデルの両方に容易に適用でき、一貫したパフォーマンスの向上を実現します。
SD1.5 および SDXL 拡散モデルに関する広範な実験により、私たちのアプローチの有効性が検証されました。
\textbf{プロジェクト ページ: \url{https://idaligner.github.io/}}

要約(オリジナル)

The rapid development of diffusion models has triggered diverse applications. Identity-preserving text-to-image generation (ID-T2I) particularly has received significant attention due to its wide range of application scenarios like AI portrait and advertising. While existing ID-T2I methods have demonstrated impressive results, several key challenges remain: (1) It is hard to maintain the identity characteristics of reference portraits accurately, (2) The generated images lack aesthetic appeal especially while enforcing identity retention, and (3) There is a limitation that cannot be compatible with LoRA-based and Adapter-based methods simultaneously. To address these issues, we present \textbf{ID-Aligner}, a general feedback learning framework to enhance ID-T2I performance. To resolve identity features lost, we introduce identity consistency reward fine-tuning to utilize the feedback from face detection and recognition models to improve generated identity preservation. Furthermore, we propose identity aesthetic reward fine-tuning leveraging rewards from human-annotated preference data and automatically constructed feedback on character structure generation to provide aesthetic tuning signals. Thanks to its universal feedback fine-tuning framework, our method can be readily applied to both LoRA and Adapter models, achieving consistent performance gains. Extensive experiments on SD1.5 and SDXL diffusion models validate the effectiveness of our approach. \textbf{Project Page: \url{https://idaligner.github.io/}}

arxiv情報

著者 Weifeng Chen,Jiacheng Zhang,Jie Wu,Hefeng Wu,Xuefeng Xiao,Liang Lin
発行日 2024-04-23 18:41:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク