Improving Geo-diversity of Generated Images with Contextualized Vendi Score Guidance

要約

テキストから画像への生成モデルの人気が高まるにつれ、そのリスクや偏りを理解することに注目が集まっている。最近の研究では、最先端のモデルは、現実世界の真の多様性を持つ日常的なオブジェクトを描写するのに苦労しており、地理的な地域間に顕著なギャップがあることが判明している。本研究では、生成される一般的な物体の画像の多様性を高め、地域ごとの差異が実世界を代表するようにすることを目指す。これは、潜在拡散モデルの後方ステップをガイドし、以前に生成された画像の「メモリバンク」と比較してサンプルの多様性を増加させるが、同時に、実世界の文脈を表す画像の模範セットの範囲内に変動量を制約する。地理的に代表的な2つのデータセットを用いてc-VSGを評価した結果、c-VSGは、生成された画像の多様性を、最もパフォーマンスの悪い地域と平均の両方で大幅に増加させると同時に、画質と一貫性を維持または改善することがわかった。さらに、定性的な分析により、生成された画像の多様性が、元のモデルに存在する還元的な地域の描写を含め、大幅に改善されていることが明らかになった。この研究が、世界の真の地理的多様性を反映したテキストから画像への生成モデルへの一歩となることを期待している。

要約(オリジナル)

With the growing popularity of text-to-image generative models, there has been increasing focus on understanding their risks and biases. Recent work has found that state-of-the-art models struggle to depict everyday objects with the true diversity of the real world and have notable gaps between geographic regions. In this work, we aim to increase the diversity of generated images of common objects such that per-region variations are representative of the real world. We introduce an inference time intervention, contextualized Vendi Score Guidance (c-VSG), that guides the backwards steps of latent diffusion models to increase the diversity of a sample as compared to a ‘memory bank’ of previously generated images while constraining the amount of variation within that of an exemplar set of real-world contextualizing images. We evaluate c-VSG with two geographically representative datasets and find that it substantially increases the diversity of generated images, both for the worst performing regions and on average, while simultaneously maintaining or improving image quality and consistency. Additionally, qualitative analyses reveal that diversity of generated images is significantly improved, including along the lines of reductive region portrayals present in the original model. We hope that this work is a step towards text-to-image generative models that reflect the true geographic diversity of the world.

arxiv情報

著者 Reyhane Askari Hemmat,Melissa Hall,Alicia Sun,Candace Ross,Michal Drozdzal,Adriana Romero-Soriano
発行日 2024-08-02 16:09:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク