要約
大規模言語モデル (LLM) とそれに続くチャット モデルの最近の進歩に続いて、大規模ビジョン言語モデル (LVLM) の新しい波が現れています。
このようなモデルは、テキストに加えて画像を入力として組み込むことができ、視覚的な質問応答、画像キャプション、ストーリー生成などのタスクを実行できます。ここでは、人々の認識された特性に基づいて、そのようなシステムにおける潜在的な性別と人種の偏見を調査します。
入力画像の中で。
これを達成するために、新しいデータセット PAIRS (毎日のシナリオの並列画像) を提示します。
PAIRS データセットには、AI によって生成された人物の画像のセットが含まれています。これらの画像は、背景とビジュアル コンテンツの点では非常によく似ていますが、性別 (男性、女性) と人種 (黒人、白人) の次元では異なります。
このような画像を使用して LVLM にクエリを実行すると、描かれている人物の認識される性別や人種に応じて応答に大きな違いがあることがわかります。
要約(オリジナル)
Following on recent advances in large language models (LLMs) and subsequent chat models, a new wave of large vision-language models (LVLMs) has emerged. Such models can incorporate images as input in addition to text, and perform tasks such as visual question answering, image captioning, story generation, etc. Here, we examine potential gender and racial biases in such systems, based on the perceived characteristics of the people in the input images. To accomplish this, we present a new dataset PAIRS (PArallel Images for eveRyday Scenarios). The PAIRS dataset contains sets of AI-generated images of people, such that the images are highly similar in terms of background and visual content, but differ along the dimensions of gender (man, woman) and race (Black, white). By querying the LVLMs with such images, we observe significant differences in the responses according to the perceived gender or race of the person depicted.
arxiv情報
著者 | Kathleen C. Fraser,Svetlana Kiritchenko |
発行日 | 2024-02-08 16:11:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google