See It from My Perspective: Diagnosing the Western Cultural Bias of Large Vision-Language Models in Image Understanding

要約

ビジョン言語モデル (VLM) は、多くの言語の画像に関するクエリに応答できます。
しかし、言語を超えて、文化は私たちのものの見方に影響を与えます。
たとえば、西洋文化の人々は画像の中心人物に重点を置きますが、東洋文化の人々はシーンの文脈にもっと注意を払います。
この研究では、画像理解における VLM の西洋的偏見を実証し、特定する新しい調査を紹介します。
私たちは、文化的に多様な画像と注釈を使用して、主観的および客観的な視覚タスクにわたって大規模な VLM を評価します。
VLM は、各タスクの東部のサブセットよりも西部のサブセットで優れたパフォーマンスを発揮することがわかりました。
このバイアスの原因を追跡する制御された実験により、たとえ推論が英語で実行される場合でも、公平な VLM を構築するためのテキストのみの事前トレーニングにおける多様な言語の組み合わせの重要性が浮き彫りになりました。
さらに、対象文化の言語でプロンプトを表示することは偏見の軽減につながる可能性がありますが、世界の言語をより代表する AI を構築することに代わるものではありません。

要約(オリジナル)

Vision-language models (VLMs) can respond to queries about images in many languages. However, beyond language, culture affects how we see things. For example, individuals from Western cultures focus more on the central figure in an image while individuals from Eastern cultures attend more to scene context. In this work, we present a novel investigation that demonstrates and localizes VLMs’ Western bias in image understanding. We evaluate large VLMs across subjective and objective visual tasks with culturally diverse images and annotations. We find that VLMs perform better on the Western subset than the Eastern subset of each task. Controlled experimentation tracing the source of this bias highlights the importance of a diverse language mix in text-only pre-training for building equitable VLMs, even when inference is performed in English. Moreover, while prompting in the language of a target culture can lead to reductions in bias, it is not a substitute for building AI more representative of the world’s languages.

arxiv情報

著者 Amith Ananthram,Elias Stengel-Eskin,Carl Vondrick,Mohit Bansal,Kathleen McKeown
発行日 2024-06-17 15:49:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク