SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with Auto-Generated Data

要約

最近の text-to-image (T2I) 生成モデルは、テキストの説明から画像を作成する優れた機能を実証しています。
ただし、これらの T2I 生成モデルでは、不正確な空間関係やオブジェクトの欠落など、テキスト入力の詳細に正確に一致する画像を生成できないことがよくあります。
このペーパーでは、SELMA: スキル固有の専門家の学習と自動生成データとの結合を紹介します。これは、自動生成されたマルチスキル画像テキスト データセットのモデルをスキルで微調整することにより、T2I モデルの忠実性を向上させる新しいパラダイムです。
– 特定の専門家の学習と統合。
まず、SELMA は LLM のインコンテキスト学習機能を利用して、さまざまなスキルを教えることができるテキスト プロンプトの複数のデータセットを生成し、その後、プロンプトに基づいて T2I モデルを使用して画像を生成します。
次に、SELMA は、複数の単一スキル LoRA (低ランク適応) エキスパートを学習し、続いてエキスパートを結合することにより、T2I モデルを新しいスキルに適応させます。
当社の独立した専門家による微調整は、さまざまなスキルに合わせて複数のモデルに特化しており、専門家による統合は、さまざまなデータセットからの知識の競合を軽減しながら、多様なテキスト プロンプトを与えられた場合に忠実な画像を生成できる共同マルチスキル T2I モデルの構築に役立ちます。
私たちは、SELMA が複数のベンチマーク (TIFA で +2.1%、DSG で +6.9%)、人間の好みの指標 (PickScore、ImageReward、および
HPS)、および人間の評価。
さらに、SELMA 経由で自動収集された画像とテキストのペアを使用した微調整は、グラウンド トゥルース データを使用した微調整と同等のパフォーマンスを示します。
最後に、弱い T2I モデルからの画像を使用した微調整が、より強力な T2I モデルの生成品質の向上に役立つことを示し、T2I モデルにおける弱から強への一般化が有望であることを示唆しています。

要約(オリジナル)

Recent text-to-image (T2I) generation models have demonstrated impressive capabilities in creating images from text descriptions. However, these T2I generation models often fall short of generating images that precisely match the details of the text inputs, such as incorrect spatial relationship or missing objects. In this paper, we introduce SELMA: Skill-Specific Expert Learning and Merging with Auto-Generated Data, a novel paradigm to improve the faithfulness of T2I models by fine-tuning models on automatically generated, multi-skill image-text datasets, with skill-specific expert learning and merging. First, SELMA leverages an LLM’s in-context learning capability to generate multiple datasets of text prompts that can teach different skills, and then generates the images with a T2I model based on the prompts. Next, SELMA adapts the T2I model to the new skills by learning multiple single-skill LoRA (low-rank adaptation) experts followed by expert merging. Our independent expert fine-tuning specializes multiple models for different skills, and expert merging helps build a joint multi-skill T2I model that can generate faithful images given diverse text prompts, while mitigating the knowledge conflict from different datasets. We empirically demonstrate that SELMA significantly improves the semantic alignment and text faithfulness of state-of-the-art T2I diffusion models on multiple benchmarks (+2.1% on TIFA and +6.9% on DSG), human preference metrics (PickScore, ImageReward, and HPS), as well as human evaluation. Moreover, fine-tuning with image-text pairs auto-collected via SELMA shows comparable performance to fine-tuning with ground truth data. Lastly, we show that fine-tuning with images from a weaker T2I model can help improve the generation quality of a stronger T2I model, suggesting promising weak-to-strong generalization in T2I models.

arxiv情報

著者 Jialu Li,Jaemin Cho,Yi-Lin Sung,Jaehong Yoon,Mohit Bansal
発行日 2024-03-11 17:35:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク