要約
我々は、事前学習されたテキスト対画像(T2I)潜在拡散モデルを用いた少数サンプルの生成について研究する。T2I生成の文脈における少数インスタンスは、テキスト条件データ分布の低密度領域に存在するものとして定義できる。マイノリティインスタンスは、データ補強や創造的AIなど、最新のT2I生成器の様々な応用にとって貴重である。残念ながら、既存の事前学習されたT2I拡散モデルは、主に高密度領域に焦点を当てており、その主な原因は、高品質な生成に不可欠な(CFGのような)ガイド付きサンプラーの影響である。これに対処するために、我々はT2I拡散モデルの高密度焦点に対抗するための新しいフレームワークを提示する。具体的には、まず、ユーザから提供されたプロンプトの意味的内容を保持しつつ、推論中に望ましい性質の出現を促すオンラインプロンプト最適化フレームワークを開発する。続いて、この汎用的なプロンプト最適化器を、注意深く作成された尤度目標を組み込むことによって少数特徴の生成を促進する特殊なソルバーに調整する。様々な種類のT2Iモデルに対して行った広範な実験により、我々のアプローチが、既存のサンプラーと比較して、高品質な少数インスタンスを生成する能力を大幅に向上させることが実証された。コードはhttps://github.com/soobin-um/MinorityPrompt。
要約(オリジナル)
We investigate the generation of minority samples using pretrained text-to-image (T2I) latent diffusion models. Minority instances, in the context of T2I generation, can be defined as ones living on low-density regions of text-conditional data distributions. They are valuable for various applications of modern T2I generators, such as data augmentation and creative AI. Unfortunately, existing pretrained T2I diffusion models primarily focus on high-density regions, largely due to the influence of guided samplers (like CFG) that are essential for high-quality generation. To address this, we present a novel framework to counter the high-density-focus of T2I diffusion models. Specifically, we first develop an online prompt optimization framework that encourages emergence of desired properties during inference while preserving semantic contents of user-provided prompts. We subsequently tailor this generic prompt optimizer into a specialized solver that promotes generation of minority features by incorporating a carefully-crafted likelihood objective. Extensive experiments conducted across various types of T2I models demonstrate that our approach significantly enhances the capability to produce high-quality minority instances compared to existing samplers. Code is available at https://github.com/soobin-um/MinorityPrompt.
arxiv情報
著者 | Soobin Um,Jong Chul Ye |
発行日 | 2025-04-04 10:37:36+00:00 |
arxivサイト | arxiv_id(pdf) |