InstructBooth: Instruction-following Personalized Text-to-Image Generation

要約

特定のオブジェクトに対して限られた画像セットを使用してテキストから画像へのモデルをパーソナライズすることは、主題固有の画像生成において検討されてきました。
ただし、既存の方法では、限られたトレーニング画像に過剰適合するため、テキスト プロンプトに合わせるという課題に直面することがよくあります。
この研究では、パーソナライズ機能を犠牲にすることなく、パーソナライズされたテキストと画像のモデルにおける画像とテキストの位置合わせを強化するように設計された新しい方法である InstructBooth を紹介します。
私たちのアプローチでは、まず、一意の識別子を使用して、少数の主題固有の画像を使用してテキストから画像へのモデルをパーソナライズします。
パーソナライゼーション後、強化学習を使用してパーソナライズされたテキストから画像へのモデルを微調整し、画像とテキストの配置を定量化する報酬を最大化します。
さらに、これら 2 つのプロセス間の相乗効果を高めるための補完的な手法を提案します。
私たちの方法は、高いパーソナライゼーション能力を維持しながら、既存のベースラインと比較して優れた画像とテキストの位置合わせを実証します。
人間による評価では、あらゆる総合的な要素を考慮すると、InstructBooth が優れています。
私たちのプロジェクト ページは https://sites.google.com/view/instructbooth にあります。

要約(オリジナル)

Personalizing text-to-image models using a limited set of images for a specific object has been explored in subject-specific image generation. However, existing methods often face challenges in aligning with text prompts due to overfitting to the limited training images. In this work, we introduce InstructBooth, a novel method designed to enhance image-text alignment in personalized text-to-image models without sacrificing the personalization ability. Our approach first personalizes text-to-image models with a small number of subject-specific images using a unique identifier. After personalization, we fine-tune personalized text-to-image models using reinforcement learning to maximize a reward that quantifies image-text alignment. Additionally, we propose complementary techniques to increase the synergy between these two processes. Our method demonstrates superior image-text alignment compared to existing baselines, while maintaining high personalization ability. In human evaluations, InstructBooth outperforms them when considering all comprehensive factors. Our project page is at https://sites.google.com/view/instructbooth.

arxiv情報

著者 Daewon Chae,Nokyung Park,Jinkyu Kim,Kimin Lee
発行日 2024-02-15 16:38:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク