DSAP: Analyzing Bias Through Demographic Comparison of Datasets

要約

ここ数年で、人工知能システムはますます普及してきました。
残念ながら、これらのシステムは、人口統計上のバイアスなど、人間の意思決定と多くのバイアスを共有する可能性があります。
多くの場合、これらのバイアスはトレーニングに使用されたデータにまで遡ることができ、そこでは大規模で未管理のデータセットが標準となっています。
これらのバイアスに関する知識にもかかわらず、それらを検出して定量化したり、異なるデータセットのバイアスを比較したりするための一般的なツールがまだ不足しています。
したがって、この研究では、2 つのデータセットの人口構成を比較するための 2 段階の方法論である DSAP (補助プロファイルからの人口統計的類似性) を提案します。
DSAP は 3 つの主要なアプリケーションに導入できます。1 つはデータセット全体にわたる人口統計上の盲点と偏りの問題の検出と特徴付け、1 つのデータセット内のデータセット人口統計の偏りの測定、そして導入シナリオにおけるデータセットの人口統計の変化の測定です。
DSAP の重要な機能は、明示的な人口統計ラベルなしでデータセットを堅牢に分析する機能であり、幅広い状況に対してシンプルさと解釈可能性を提供します。
提案された方法論の有用性を示すために、以前に人口統計上の偏りが見つかった顔の表情認識タスクを検討します。
3 つのアプリケーションは、さまざまな特性を持つ 20 個のデータセットで研究されています。
コードは https://github.com/irisdominguez/DSAP で入手できます。

要約(オリジナル)

In the last few years, Artificial Intelligence systems have become increasingly widespread. Unfortunately, these systems can share many biases with human decision-making, including demographic biases. Often, these biases can be traced back to the data used for training, where large uncurated datasets have become the norm. Despite our knowledge of these biases, we still lack general tools to detect and quantify them, as well as to compare the biases in different datasets. Thus, in this work, we propose DSAP (Demographic Similarity from Auxiliary Profiles), a two-step methodology for comparing the demographic composition of two datasets. DSAP can be deployed in three key applications: to detect and characterize demographic blind spots and bias issues across datasets, to measure dataset demographic bias in single datasets, and to measure dataset demographic shift in deployment scenarios. An essential feature of DSAP is its ability to robustly analyze datasets without explicit demographic labels, offering simplicity and interpretability for a wide range of situations. To show the usefulness of the proposed methodology, we consider the Facial Expression Recognition task, where demographic bias has previously been found. The three applications are studied over a set of twenty datasets with varying properties. The code is available at https://github.com/irisdominguez/DSAP.

arxiv情報

著者 Iris Dominguez-Catena,Daniel Paternain,Mikel Galar
発行日 2023-12-22 11:51:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク