VisoGender: A dataset for benchmarking gender bias in image-text pronoun resolution

要約

視覚言語モデルにおけるジェンダーバイアスをベンチマークするための新しいデータセットである VisoGender を紹介します。
私たちは、Winograd スキーマと Winogender スキーマに触発された職業関連のジェンダー バイアスに焦点を当てます。各画像には、シーン内の被写体とオブジェクトの代名詞関係を含むキャプションが関連付けられています。
VisoGender は、職業上の役割における性別の表現によってバランスがとれており、次の 2 つの方法でバイアス評価をサポートします。i) 解決バイアス。男性と女性の性別解決の精度の違いを評価します。ii) 検索バイアス。男性と女性の専門職の比率を比較します。
性別に依存しない検索クエリで取得されます。
私たちはいくつかの最先端の視覚言語モデルをベンチマークしましたが、それらには複雑なシーンでジェンダーを正しく解決する推論能力が欠けていることがわかりました。
ジェンダーバイアスの方向と大きさはタスクと評価対象のモデルによって異なりますが、一般にキャプションモデルはCLIPのようなモデルよりも正確で、バイアスが少ないです。
データセットとコードは https://github.com/oxai/visogender で入手できます。

要約(オリジナル)

We introduce VisoGender, a novel dataset for benchmarking gender bias in vision-language models. We focus on occupation-related gender biases, inspired by Winograd and Winogender schemas, where each image is associated with a caption containing a pronoun relationship of subjects and objects in the scene. VisoGender is balanced by gender representation in professional roles, supporting bias evaluation in two ways: i) resolution bias, where we evaluate the difference between gender resolution accuracies for men and women and ii) retrieval bias, where we compare ratios of male and female professionals retrieved for a gender-neutral search query. We benchmark several state-of-the-art vision-language models and find that they lack the reasoning abilities to correctly resolve gender in complex scenes. While the direction and magnitude of gender bias depends on the task and the model being evaluated, captioning models generally are more accurate and less biased than CLIP-like models. Dataset and code are available at https://github.com/oxai/visogender

arxiv情報

著者 Siobhan Mackenzie Hall,Fernanda Gonçalves Abrantes,Hanwen Zhu,Grace Sodunke,Aleksandar Shtedritski,Hannah Rose Kirk
発行日 2023-06-21 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク