Uncovering Bias in Large Vision-Language Models at Scale with Counterfactuals

要約

ますます優れた機能を備えた大規模言語モデル (LLM) の出現に伴い、視覚入力で LLM を強化するために、多数の大規模視覚言語モデル (LVLM) が提案されています。
このようなモデルは、入力画像とテキスト プロンプトの両方で生成されたテキストを条件付けし、視覚的な質問応答やマルチモーダル チャットなどのさまざまなユース ケースを可能にします。
これまでの研究では、LLM によって生成されたテキストに含まれる社会的バイアスが調査されてきましたが、このトピックは LVLM では比較的調査されていませんでした。
LVLM における社会的バイアスを調査することは、テキストおよび視覚的モダリティ全体に含まれる情報によって誘発されるバイアスが交絡的に寄与するため、特に困難です。
この困難な問題に対処するために、私たちは、入力画像に反事実的な変更を加えて、さまざまな LVLM によって生成されたテキストの大規模な研究を実施しました。
具体的には、異なる反事実セットからの画像を条件付けしながら、同一の自由形式のテキストプロンプトを含む LVLM を提示します。各セットには、共通の対象 (医師など) の描写においてはほぼ同一の画像が含まれていますが、異なる点のみが異なります。
交差する社会的属性 (人種や性別など)。
私たちは、この反事実生成設定の下でさまざまなモデルによって生成されたテキストを大規模に総合的に評価し、人気のある LVLM から 5,700 万を超える応答を生成しています。
私たちの多次元分析により、入力画像に描かれた人種、性別、身体的特徴などの社会的属性が、有害なコンテンツ、コンピテンシーに関連した単語、有害な固定観念、描かれた個人の数値評価の生成に大きな影響を与える可能性があることが明らかになりました。
さらに、LVLM とそれに対応する LLM の社会的バイアスと、バイアスを軽減するための推論時の戦略との関係を調査します。

要約(オリジナル)

With the advent of Large Language Models (LLMs) possessing increasingly impressive capabilities, a number of Large Vision-Language Models (LVLMs) have been proposed to augment LLMs with visual inputs. Such models condition generated text on both an input image and a text prompt, enabling a variety of use cases such as visual question answering and multimodal chat. While prior studies have examined the social biases contained in text generated by LLMs, this topic has been relatively unexplored in LVLMs. Examining social biases in LVLMs is particularly challenging due to the confounding contributions of bias induced by information contained across the text and visual modalities. To address this challenging problem, we conduct a large-scale study of text generated by different LVLMs under counterfactual changes to input images. Specifically, we present LVLMs with identical open-ended text prompts while conditioning on images from different counterfactual sets, where each set contains images which are largely identical in their depiction of a common subject (e.g., a doctor), but vary only in terms of intersectional social attributes (e.g., race and gender). We comprehensively evaluate the text produced by different models under this counterfactual generation setting at scale, producing over 57 million responses from popular LVLMs. Our multi-dimensional analysis reveals that social attributes such as race, gender, and physical characteristics depicted in input images can significantly influence the generation of toxic content, competency-associated words, harmful stereotypes, and numerical ratings of depicted individuals. We additionally explore the relationship between social bias in LVLMs and their corresponding LLMs, as well as inference-time strategies to mitigate bias.

arxiv情報

著者 Phillip Howard,Kathleen C. Fraser,Anahita Bhiwandiwalla,Svetlana Kiritchenko
発行日 2024-05-30 15:27:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク