Balancing the Picture: Debiasing Vision-Language Datasets with Synthetic Contrast Sets

要約

画像を大規模に生成、編集、キャプションを付けるための視覚言語モデルの人気が高まり、一般に公開されるようになりました。
しかし、その出力は、インターネットからの厳選されていない画像とテキストのペアに関する事前トレーニング中に学習した社会的偏見を永続させ、増幅させる可能性があります。
バイアスを軽減する方法が提案されていますが、モデルのバイアスのこれらの測定はデータセットのバイアスにより妥当性が欠けていると主張します。
バイアスを評価するために最も一般的に使用されるデータセットである COCO キャプションには、背景コンテキストと現場の人々の性別の間に偽の相関関係があることを実証します。
一般的に使用されるバイアス指標 (Bias@K など) は性別ごとの基本率に依存しているため、これには問題があります。
この問題に対処するために、私たちは、COCO データセットを合成の性別バランスのとれたコントラスト セットで強化する新しいデータセット バイアス除去パイプラインを提案します。この場合、被写体の性別のみが編集され、背景は固定されます。
ただし、既存の画像編集方法には限界があり、低品質の画像が生成される場合があります。
そこで、実際の画像との類似性に基づいて、生成された画像を自動的にフィルタリングする方法を紹介します。
バランスのとれた合成コントラスト セットを使用して、複数の CLIP ベースのモデルのバイアスをベンチマークし、元の COCO 画像の不均衡によってメトリクスがどのように歪むかを実証します。
私たちの結果は、提案されたアプローチが評価の妥当性を向上させ、最終的には視覚言語モデルにおけるバイアスのより現実的な理解に貢献することを示しています。

要約(オリジナル)

Vision-language models are growing in popularity and public visibility to generate, edit, and caption images at scale; but their outputs can perpetuate and amplify societal biases learned during pre-training on uncurated image-text pairs from the internet. Although debiasing methods have been proposed, we argue that these measurements of model bias lack validity due to dataset bias. We demonstrate there are spurious correlations in COCO Captions, the most commonly used dataset for evaluating bias, between background context and the gender of people in-situ. This is problematic because commonly-used bias metrics (such as Bias@K) rely on per-gender base rates. To address this issue, we propose a novel dataset debiasing pipeline to augment the COCO dataset with synthetic, gender-balanced contrast sets, where only the gender of the subject is edited and the background is fixed. However, existing image editing methods have limitations and sometimes produce low-quality images; so, we introduce a method to automatically filter the generated images based on their similarity to real images. Using our balanced synthetic contrast sets, we benchmark bias in multiple CLIP-based models, demonstrating how metrics are skewed by imbalance in the original COCO images. Our results indicate that the proposed approach improves the validity of the evaluation, ultimately contributing to more realistic understanding of bias in vision-language models.

arxiv情報

著者 Brandon Smith,Miguel Farinha,Siobhan Mackenzie Hall,Hannah Rose Kirk,Aleksandar Shtedritski,Max Bain
発行日 2023-05-24 17:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク