A Sociotechnical Lens for Evaluating Computer Vision Models: A Case Study on Detecting and Reasoning about Gender and Emotion

要約

コンピューター ビジョン (CV) テクノロジーの進化の状況において、画像内の性別と感情の自動検出と解釈は重要な研究分野です。
この論文では、CV モデルにおける社会的バイアスを調査し、精度、再現率、精度などの従来の評価指標の限界を強調しています。
これらの指標は、流動的で文化的に微妙な構成要素であるジェンダーと感情の複雑さを捉えるには不十分であることがよくあります。
私たちの研究は、技術的なパフォーマンス測定と社会的公平性の考慮事項の両方を組み込んだ、CV モデルを評価するための社会技術的枠組みを提案しています。
ワクチン接種と気候変動に関連する 5,570 枚の画像のデータセットを使用して、DeepFace や FER などの従来のモデルや GPT-4 Vision などの生成モデルを含むさまざまな CV モデルのパフォーマンスを実証的に比較しました。
私たちの分析には、ベンチマークとして機能する画像のサブセット内の性別と感情表現を手動で検証することが含まれていました。
私たちの調査結果では、GPT-4 Vision は性別分類の技術的精度において他のモデルよりも優れているものの、特にトランスジェンダーやノンバイナリーのペルソナに応じて差別的なバイアスを示していることが明らかになりました。
さらに、モデルの感情検出はポジティブな感情に大きく偏っており、特に男性のペルソナによって促された場合、女性のイメージを幸福と関連付けることに顕著な偏りが見られます。
これらの発見は、CV モデルの妥当性と差別的バイアスの両方に対処する、より包括的な評価基準を開発する必要性を強調しています。
私たちが提案するフレームワークは、研究者がCVツールを批判的に評価するためのガイドラインを提供し、コミュニケーション研究におけるCVツールの適用が倫理的かつ効果的であることを保証します。
この研究の重要な貢献は、社会工学的アプローチに重点を置き、社会的利益をサポートし、偏見を永続させるのではなく軽減する CV テクノロジーを提唱していることにあります。

要約(オリジナル)

In the evolving landscape of computer vision (CV) technologies, the automatic detection and interpretation of gender and emotion in images is a critical area of study. This paper investigates social biases in CV models, emphasizing the limitations of traditional evaluation metrics such as precision, recall, and accuracy. These metrics often fall short in capturing the complexities of gender and emotion, which are fluid and culturally nuanced constructs. Our study proposes a sociotechnical framework for evaluating CV models, incorporating both technical performance measures and considerations of social fairness. Using a dataset of 5,570 images related to vaccination and climate change, we empirically compared the performance of various CV models, including traditional models like DeepFace and FER, and generative models like GPT-4 Vision. Our analysis involved manually validating the gender and emotional expressions in a subset of images to serve as benchmarks. Our findings reveal that while GPT-4 Vision outperforms other models in technical accuracy for gender classification, it exhibits discriminatory biases, particularly in response to transgender and non-binary personas. Furthermore, the model’s emotion detection skew heavily towards positive emotions, with a notable bias towards associating female images with happiness, especially when prompted by male personas. These findings underscore the necessity of developing more comprehensive evaluation criteria that address both validity and discriminatory biases in CV models. Our proposed framework provides guidelines for researchers to critically assess CV tools, ensuring their application in communication research is both ethical and effective. The significant contribution of this study lies in its emphasis on a sociotechnical approach, advocating for CV technologies that support social good and mitigate biases rather than perpetuate them.

arxiv情報

著者 Sha Luo,Sang Jung Kim,Zening Duan,Kaiping Chen
発行日 2024-11-21 18:14:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.CY, cs.HC パーマリンク