A Friendly Face: Do Text-to-Image Systems Rely on Stereotypes when the Input is Under-Specified?

要約

テキストから画像へのシステムが一般大衆の間で人気を博し続けているため、生成された画像の偏りや多様性について疑問が生じています。
ここでは、視覚的に十分に指定されていないが、顕著な社会的属性を含むプロンプトに応答して生成された画像のプロパティを調査します (たとえば、「脅迫的な人物の肖像画」と「友好的な人物の肖像画」)。
私たちの研究を社会的認知理論に基づいて行うと、多くの場合、画像にはステレオタイプの文献で報告されているものと同様の人口学的バイアスが含まれていることがわかります。
ただし、傾向は異なるモデル間で一貫性がなく、さらなる調査が必要です。

要約(オリジナル)

As text-to-image systems continue to grow in popularity with the general public, questions have arisen about bias and diversity in the generated images. Here, we investigate properties of images generated in response to prompts which are visually under-specified, but contain salient social attributes (e.g., ‘a portrait of a threatening person’ versus ‘a portrait of a friendly person’). Grounding our work in social cognition theory, we find that in many cases, images contain similar demographic biases to those reported in the stereotype literature. However, trends are inconsistent across different models and further investigation is warranted.

arxiv情報

著者 Kathleen C. Fraser,Svetlana Kiritchenko,Isar Nejadgholi
発行日 2023-02-14 16:11:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク