要約
この調査では、ユーザープロンプトを変更することにより、テキストから画像の生成システムのバイアスを大きく削減できる方法を調べます。
ニュートラルプロンプトが与えられた人口統計からのモデルの不当な逸脱としてバイアスを定義します。
安定した拡散XL、3.5、およびフラックスを使用した実験は、LLM修飾プロンプトが画像の多様性を大幅に増加させ、画像ジェネレーター自体を変更する必要なくバイアスを減らすことを示しています。
時折、元のユーザーの意図を手の込んだプロンプトの意図から分岐する結果を生成しますが、このアプローチは一般に、表面的なバリエーションではなく、模擬除外された要求のより多様な解釈を提供します。
この方法は、障害の表現などの特定のコンテキストでは制限が持続しますが、より高度な画像ジェネレーターでは特にうまく機能します。
すべてのプロンプトと生成された画像は、https://iisys-hof.github.io/llm-plt-img-gen/で入手できます。
要約(オリジナル)
This study examines how Large Language Models (LLMs) can reduce biases in text-to-image generation systems by modifying user prompts. We define bias as a model’s unfair deviation from population statistics given neutral prompts. Our experiments with Stable Diffusion XL, 3.5 and Flux demonstrate that LLM-modified prompts significantly increase image diversity and reduce bias without the need to change the image generators themselves. While occasionally producing results that diverge from original user intent for elaborate prompts, this approach generally provides more varied interpretations of underspecified requests rather than superficial variations. The method works particularly well for less advanced image generators, though limitations persist for certain contexts like disability representation. All prompts and generated images are available at https://iisys-hof.github.io/llm-prompt-img-gen/
arxiv情報
著者 | René Peinl |
発行日 | 2025-04-15 11:52:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google