Vision-Language Models Performing Zero-Shot Tasks Exhibit Gender-based Disparities

要約

ゼロショット視覚言語モデルが、さまざまな視覚課題に対して性別バイアスを示す程度を調査します。
従来、ビジョン モデルには、概念を表すためのタスク固有のラベルと微調整が必​​要でした。
CLIP のようなゼロ ショット モデルは、代わりにオープン ボキャブラリーを使用してタスクを実行します。つまり、概念を表すためにテキストの埋め込みを使用することで、固定された一連のラベルを必要としません。
これらの機能を念頭に置いて、次の質問をします。視覚言語モデルは、ゼロショット画像分類、オブジェクト検出、セマンティック セグメンテーションを実行するときに性別バイアスを示しますか?
一連の概念全体で複数のデータセットを使用してさまざまな視覚言語モデルを評価し、(i) 評価されたすべてのモデルが、画像内の特定の概念と共起する人物の認識された性別に基づいて明確なパフォーマンスの違いを示し、
すべての概念は、これらの懸念を覆い隠すことができます。
(ii) モデルのキャリブレーション (つまり、精度と信頼度の関係) も、同様の概念表現で評価した場合でも、知覚される性別によって明らかに異なります。
(iii)これらの観察された格差は、言語モデルからの単語埋め込みにおける既存の性別バイアスと一致しています。
これらの調査結果は、言語が視覚タスクの能力を大幅に拡張する一方で、ゼロショットビジョン設定における社会的偏見にも寄与する可能性があることを示唆しています.
さらに、CLIP のような基本モデルを他のモデルで使用してゼロショット機能を有効にすると、バイアスがさらに伝播する可能性があります。

要約(オリジナル)

We explore the extent to which zero-shot vision-language models exhibit gender bias for different vision tasks. Vision models traditionally required task-specific labels for representing concepts, as well as finetuning; zero-shot models like CLIP instead perform tasks with an open-vocabulary, meaning they do not need a fixed set of labels, by using text embeddings to represent concepts. With these capabilities in mind, we ask: Do vision-language models exhibit gender bias when performing zero-shot image classification, object detection and semantic segmentation? We evaluate different vision-language models with multiple datasets across a set of concepts and find (i) all models evaluated show distinct performance differences based on the perceived gender of the person co-occurring with a given concept in the image and that aggregating analyses over all concepts can mask these concerns; (ii) model calibration (i.e. the relationship between accuracy and confidence) also differs distinctly by perceived gender, even when evaluating on similar representations of concepts; and (iii) these observed disparities align with existing gender biases in word embeddings from language models. These findings suggest that, while language greatly expands the capability of vision tasks, it can also contribute to social biases in zero-shot vision settings. Furthermore, biases can further propagate when foundational models like CLIP are used by other models to enable zero-shot capabilities.

arxiv情報

著者 Melissa Hall,Laura Gustafson,Aaron Adcock,Ishan Misra,Candace Ross
発行日 2023-01-26 13:44:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.CY, cs.HC パーマリンク