Social perception of faces in a vision-language model


私たちは、広く使用されているオープンソースの視覚言語モデルである CLIP を使用して、人間の顔の社会的認識を調査します。
この目的を達成するために、さまざまなテキスト プロンプトと一連の顔画像の間の CLIP 埋め込みの類似性を比較します。
顔画像は合成されており、法的に保護されている年齢、性別、人種、表情、照明、ポーズの 6 つの側面に沿って体系的かつ独立して変化させられます。
私たちの主な発見は 3 つです。
まず、CLIP はさまざまな画像やテキストを使ってトレーニングされていますが、顔画像に対して人間のようなきめ細かい社会的判断を下すことができます。
第二に、年齢、性別、人種は、CLIP の顔に対する社会的認識に体系的に影響を及ぼしており、法的に保護された属性に対する CLIP の望ましくない偏りを示唆しています。
最も顕著なのは、黒人女性の顔に関する強い偏見のパターンが見つかり、CLIP はさまざまな年齢や顔の表情にわたって社会的認識の極端な値を生み出します。


We explore social perception of human faces in CLIP, a widely used open-source vision-language model. To this end, we compare the similarity in CLIP embeddings between different textual prompts and a set of face images. Our textual prompts are constructed from well-validated social psychology terms denoting social perception. The face images are synthetic and are systematically and independently varied along six dimensions: the legally protected attributes of age, gender, and race, as well as facial expression, lighting, and pose. Independently and systematically manipulating face attributes allows us to study the effect of each on social perception and avoids confounds that can occur in wild-collected data due to uncontrolled systematic correlations between attributes. Thus, our findings are experimental rather than observational. Our main findings are three. First, while CLIP is trained on the widest variety of images and texts, it is able to make fine-grained human-like social judgments on face images. Second, age, gender, and race do systematically impact CLIP’s social perception of faces, suggesting an undesirable bias in CLIP vis-a-vis legally protected attributes. Most strikingly, we find a strong pattern of bias concerning the faces of Black women, where CLIP produces extreme values of social perception across different ages and facial expressions. Third, facial expression impacts social perception more than age and lighting as much as age. The last finding predicts that studies that do not control for unprotected visual attributes may reach the wrong conclusions on bias. Our novel method of investigation, which is founded on the social psychology literature and on the experiments involving the manipulation of individual attributes, yields sharper and more reliable observations than previous observational methods and may be applied to study biases in any vision-language model.


著者 Carina I. Hausladen,Manuel Knott,Colin F. Camerer,Pietro Perona
発行日 2024-08-26 17:21:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV, cs.CY, cs.LG パーマリンク