要約
視覚言語モデル (VLM) は、画像に映る個人の評価を必要とするタスクなど、多くの下流タスクで集中的に使用されます。
VLM は単純な 1 人のシナリオではうまく機能しますが、実際のアプリケーションでは、性別の異なる人がさまざまな活動を行っている複雑な状況に直面することがよくあります。
このような場合、VLMは(モデルに根付いた性別の固定観念または他の形式のサンプル選択バイアスに従って)予想される性別を持つ個人をアクティビティの実行者として特定することに偏っていることを示します。
私たちは、アクティビティと画像やテキスト内の実際の実行者の性別を関連付けた場合のこのバイアスを、ジェンダー-アクティビティ バインディング (GAB) バイアスと呼び、このバイアスが VLM にどのように内面化されるかを分析します。
この偏りを評価するために、さまざまなアクティビティを表す約 5,500 枚の AI 生成画像を含む GAB データセットを導入し、一部のシナリオにおける現実世界の画像の不足に対処しました。
広範な品質管理を行うために、生成された画像は多様性、品質、リアリズムに関して評価されます。
私たちは、テキストから画像への検索および画像からテキストへの検索のコンテキストで、このデータセットで 12 の有名な事前トレーニング済み VLM をテストし、予測に対するこのバイアスの影響を測定しました。
さらに、VLM のテキスト エンコーダーのバイアスを定量化し、VLM のアクティビティを認識する能力を評価するための補足実験を実施しました。
私たちの実験によると、VLM は性別活動による拘束バイアスに直面すると、平均して約 13.2% のパフォーマンス低下を経験します。
要約(オリジナル)
Vision-language models (VLMs) are intensively used in many downstream tasks, including those requiring assessments of individuals appearing in the images. While VLMs perform well in simple single-person scenarios, in real-world applications, we often face complex situations in which there are persons of different genders doing different activities. We show that in such cases, VLMs are biased towards identifying the individual with the expected gender (according to ingrained gender stereotypes in the model or other forms of sample selection bias) as the performer of the activity. We refer to this bias in associating an activity with the gender of its actual performer in an image or text as the Gender-Activity Binding (GAB) bias and analyze how this bias is internalized in VLMs. To assess this bias, we have introduced the GAB dataset with approximately 5500 AI-generated images that represent a variety of activities, addressing the scarcity of real-world images for some scenarios. To have extensive quality control, the generated images are evaluated for their diversity, quality, and realism. We have tested 12 renowned pre-trained VLMs on this dataset in the context of text-to-image and image-to-text retrieval to measure the effect of this bias on their predictions. Additionally, we have carried out supplementary experiments to quantify the bias in VLMs’ text encoders and to evaluate VLMs’ capability to recognize activities. Our experiments indicate that VLMs experience an average performance decline of about 13.2% when confronted with gender-activity binding bias.
arxiv情報
著者 | Ali Abdollahi,Mahdi Ghaznavi,Mohammad Reza Karimi Nejad,Arash Mari Oriyad,Reza Abbasi,Ali Salesi,Melika Behjati,Mohammad Hossein Rohban,Mahdieh Soleymani Baghshah |
発行日 | 2024-07-30 17:46:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google