Regularized Personalization of Text-to-Image Diffusion Models without Distributional Drift

要約

テキストから画像への拡散モデルを使用したパーソナライズには、少数の画像例を持つ新規被験者に事前に処理されたモデルを適応させることが含まれます。
このタスクは、新しい主題を効果的に学習するだけでなく、幅広いプロンプトで多様で一貫した出力を生成する能力を維持する必要があるため、根本的な課題を提示します。
言い換えれば、パーソナライズを成功させるには、以前に学習された生成機能を忘れることなく、新しい概念を統合する必要があります。
忘れることは、意図しない分布ドリフトを示します。ここでは、モデルの出力分布が元の前提型モデルの分布から逸脱します。
この論文では、この問題の分析を提供し、標準的なトレーニング目標とパーソナライズの目標との間の不一致を特定します。
これに対処するために、前提条件の分布からの逸脱を明示的に制約するリプシッツに縛られた定式化に基づいて、新しいトレーニング目標を提案します。
私たちの方法は、分布ドリフトの改善された制御を提供し、データスカースシナリオでもうまく機能します。
実験結果は、私たちのアプローチが既存のパーソナライズ方法を常に上回っており、より高いCLIP-T、CLIP-I、およびDINOスコアを達成することを示しています。

要約(オリジナル)

Personalization using text-to-image diffusion models involves adapting a pretrained model to novel subjects with only a few image examples. This task presents a fundamental challenge, as the model must not only learn the new subject effectively but also preserve its ability to generate diverse and coherent outputs across a wide range of prompts. In other words, successful personalization requires integrating new concepts without forgetting previously learned generative capabilities. Forgetting denotes unintended distributional drift, where the model’s output distribution deviates from that of the original pretrained model. In this paper, we provide an analysis of this issue and identify a mismatch between standard training objectives and the goals of personalization. To address this, we propose a new training objective based on a Lipschitz-bounded formulation that explicitly constrains deviation from the pretrained distribution. Our method provides improved control over distributional drift and performs well even in data-scarce scenarios. Experimental results demonstrate that our approach consistently outperforms existing personalization methods, achieving higher CLIP-T, CLIP-I, and DINO scores.

arxiv情報

著者 Gihoon Kim,Hyungjin Park,Taesup Kim
発行日 2025-05-27 15:31:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク