Seeing the Unseen: How EMoE Unveils Bias in Text-to-Image Diffusion Models

要約

テキスト間拡散モデルの不確実性の推定は、パラメーター数が大きい(多くの場合1億を超える)、および事実上無限の入力可能性を備えた複雑で高次元の空間での動作のために困難です。
この論文では、拡散モデルの認識論的不確実性を効率的に推定するための新しいフレームワークである専門家(EMOE)の認識論的混合を提案します。
EMOEは、追加のトレーニングを必要とせずに事前に訓練されたネットワークを活用し、プロンプトからの直接的な不確実性の推定を可能にします。
既存の方法よりも認識論的な不確実性をよりよくキャプチャする拡散プロセス内の潜在空間を活用します。
COCOデータセットの実験結果は、エモーの有効性を示し、不確実性と画質の間に強い相関関係を示しています。
さらに、EMOEは不確実性が高いため、サンプリングされていない言語と地域を特定し、トレーニングセットに隠されたバイアスが明らかになります。
この能力は、AIが生成されたコンテンツの公平性と説明責任に対処するためのツールとしてのEMOEの関連性を示しています。

要約(オリジナル)

Estimating uncertainty in text-to-image diffusion models is challenging because of their large parameter counts (often exceeding 100 million) and operation in complex, high-dimensional spaces with virtually infinite input possibilities. In this paper, we propose Epistemic Mixture of Experts (EMoE), a novel framework for efficiently estimating epistemic uncertainty in diffusion models. EMoE leverages pre-trained networks without requiring additional training, enabling direct uncertainty estimation from a prompt. We leverage a latent space within the diffusion process that captures epistemic uncertainty better than existing methods. Experimental results on the COCO dataset demonstrate EMoE’s effectiveness, showing a strong correlation between uncertainty and image quality. Additionally, EMoE identifies under-sampled languages and regions with higher uncertainty, revealing hidden biases in the training set. This capability demonstrates the relevance of EMoE as a tool for addressing fairness and accountability in AI-generated content.

arxiv情報

著者 Lucas Berry,Axel Brando,Wei-Di Chang,Juan Camilo Gamboa Higuera,David Meger
発行日 2025-05-19 15:53:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク