要約
私たちは、広く使用されているオープンソースの視覚言語モデルである CLIP を使用して、人間の顔の社会的認識を調査します。
この目的を達成するために、さまざまなテキスト プロンプトと一連の顔画像の間の CLIP 埋め込みの類似性を比較します。
私たちのテキストプロンプトは、社会的認識を表す十分に検証された社会心理学用語から構成されています。
顔画像は合成されており、法的に保護されている年齢、性別、人種、表情、照明、ポーズの 6 つの側面に沿って体系的かつ独立して変化させられます。
顔の属性を独立して体系的に操作することで、社会的認識に対するそれぞれの影響を研究することができ、属性間の制御されていない系統的な相関によって野生で収集されたデータで発生する可能性のある混乱を回避できます。
したがって、私たちの発見は観察的なものではなく実験的なものです。
私たちの主な発見は 3 つです。
まず、CLIP はさまざまな画像やテキストを使ってトレーニングされていますが、顔画像に対して人間のようなきめ細かい社会的判断を下すことができます。
第二に、年齢、性別、人種は、CLIP の顔に対する社会的認識に体系的に影響を及ぼしており、法的に保護された属性に対する CLIP の望ましくない偏りを示唆しています。
最も顕著なのは、黒人女性の顔に関する強い偏見のパターンが見つかり、CLIP はさまざまな年齢や顔の表情にわたって社会的認識の極端な値を生み出します。
第三に、顔の表情は年齢や照明よりも年齢と同じくらい社会的認識に影響を与えます。
最後の発見は、保護されていない視覚的属性を管理していない研究はバイアスに関して誤った結論に達する可能性があることを予測しています。
私たちの新しい調査方法は、社会心理学の文献と個人の属性の操作を伴う実験に基づいており、これまでの観察方法よりも鮮明で信頼性の高い観察が得られ、あらゆる視覚言語モデルのバイアスの研究に適用できます。
要約(オリジナル)
We explore social perception of human faces in CLIP, a widely used open-source vision-language model. To this end, we compare the similarity in CLIP embeddings between different textual prompts and a set of face images. Our textual prompts are constructed from well-validated social psychology terms denoting social perception. The face images are synthetic and are systematically and independently varied along six dimensions: the legally protected attributes of age, gender, and race, as well as facial expression, lighting, and pose. Independently and systematically manipulating face attributes allows us to study the effect of each on social perception and avoids confounds that can occur in wild-collected data due to uncontrolled systematic correlations between attributes. Thus, our findings are experimental rather than observational. Our main findings are three. First, while CLIP is trained on the widest variety of images and texts, it is able to make fine-grained human-like social judgments on face images. Second, age, gender, and race do systematically impact CLIP’s social perception of faces, suggesting an undesirable bias in CLIP vis-a-vis legally protected attributes. Most strikingly, we find a strong pattern of bias concerning the faces of Black women, where CLIP produces extreme values of social perception across different ages and facial expressions. Third, facial expression impacts social perception more than age and lighting as much as age. The last finding predicts that studies that do not control for unprotected visual attributes may reach the wrong conclusions on bias. Our novel method of investigation, which is founded on the social psychology literature and on the experiments involving the manipulation of individual attributes, yields sharper and more reliable observations than previous observational methods and may be applied to study biases in any vision-language model.
arxiv情報
| 著者 | Carina I. Hausladen,Manuel Knott,Colin F. Camerer,Pietro Perona | 
| 発行日 | 2024-08-26 17:21:54+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
