Reproducibility Study of ‘ITI-GEN: Inclusive Text-to-Image Generation’


この研究は、Zhang らの「ITI-GEN: Inclusive Text-to-Image Generation」で提示された結果を再現することを目的としています。
ITI-GEN についての著者らの主張のほとんどが成り立つことを示します。つまり、生成された画像の多様性と品質が向上し、さまざまなドメインに拡張可能であり、プラグ アンド プレイ機能があり、計算効率が高いということです。
ただし、ITI-GEN は、望ましくない属性を代理特徴として使用することがあり、性別やハゲなどの (相関する) 属性のペアを解きほぐすことができません。
さらに、考慮される属性の数が増加すると、トレーニング時間は指数関数的に増加し、ITI-GEN は結合分布内のすべての要素の包括的な画像を生成するのに苦労します。
これらの問題を解決するために、否定プロンプトを含むハード プロンプト検索を使用することを提案します。これはトレーニングを必要とせず、通常のハード プロンプト検索よりも適切に否定を処理する方法です。
それにもかかわらず、ハード プロンプト検索 (ネガティブ プロンプトの有無にかかわらず) は、自然言語で表現するのが難しい連続属性には使用できません。トレーニング中に画像によってガイドされるため、ITI-GEN が優れている分野です。
最後に、ITI-GEN とハード プロンプト検索をネガティブ プロンプトと組み合わせることを提案します。


Text-to-image generative models often present issues regarding fairness with respect to certain sensitive attributes, such as gender or skin tone. This study aims to reproduce the results presented in ‘ITI-GEN: Inclusive Text-to-Image Generation’ by Zhang et al. (2023a), which introduces a model to improve inclusiveness in these kinds of models. We show that most of the claims made by the authors about ITI-GEN hold: it improves the diversity and quality of generated images, it is scalable to different domains, it has plug-and-play capabilities, and it is efficient from a computational point of view. However, ITI-GEN sometimes uses undesired attributes as proxy features and it is unable to disentangle some pairs of (correlated) attributes such as gender and baldness. In addition, when the number of considered attributes increases, the training time grows exponentially and ITI-GEN struggles to generate inclusive images for all elements in the joint distribution. To solve these issues, we propose using Hard Prompt Search with negative prompting, a method that does not require training and that handles negation better than vanilla Hard Prompt Search. Nonetheless, Hard Prompt Search (with or without negative prompting) cannot be used for continuous attributes that are hard to express in natural language, an area where ITI-GEN excels as it is guided by images during training. Finally, we propose combining ITI-GEN and Hard Prompt Search with negative prompting.


著者 Daniel Gallo Fernández,Răzvan-Andrei Matisan,Alejandro Monroy Muñoz,Janusz Partyka
発行日 2024-07-29 13:27:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV パーマリンク