Contexts Matter: An Empirical Study on Contextual Influence in Fairness Testing for Deep Learning Systems

要約

背景: 深層学習システムの公平性テストはますます重要になってきています。
ただし、多くの作業では、他の部分からの完全なコンテキストと条件が前提となります。つまり、精度を高めるために適切に調整されたハイパーパラメーターです。
データの偏りを修正し、ラベル付けの偏りを軽減しました。
しかし、これらは多くの場合、リソースや労働力を大量に消費する性質があるため、実際に達成するのは困難です。
目的: この文書では、さまざまな状況が公平性テストの結果にどのような影響を与えるかを理解することを目的としています。
方法: $10,800 のケースを対象とした広範な実証研究を実施し、コンテキストが既存の仮定に対してモデル レベルでの公平性テストの結果をどのように変更するかを調査します。
また、相関関係/フィットネスランドスケープ分析の観点から、なぜ結果が観察されたのかについても研究します。
結果: 私たちの結果は、さまざまなコンテキストの種類と設定が一般にテストに重大な影響をもたらすことを示しています。これは主に、さまざまなコンテキストの下でのフィットネス状況の変化によって引き起こされます。
結論: 私たちの調査結果は、実務者がテストジェネレーターを評価し、将来の研究の方向性を示唆するための重要な洞察を提供します。

要約(オリジナル)

Background: Fairness testing for deep learning systems has been becoming increasingly important. However, much work assumes perfect context and conditions from the other parts: well-tuned hyperparameters for accuracy; rectified bias in data, and mitigated bias in the labeling. Yet, these are often difficult to achieve in practice due to their resource-/labour-intensive nature. Aims: In this paper, we aim to understand how varying contexts affect fairness testing outcomes. Method:We conduct an extensive empirical study, which covers $10,800$ cases, to investigate how contexts can change the fairness testing result at the model level against the existing assumptions. We also study why the outcomes were observed from the lens of correlation/fitness landscape analysis. Results: Our results show that different context types and settings generally lead to a significant impact on the testing, which is mainly caused by the shifts of the fitness landscape under varying contexts. Conclusions: Our findings provide key insights for practitioners to evaluate the test generators and hint at future research directions.

arxiv情報

著者 Chengwen Du,Tao Chen
発行日 2024-08-12 12:36:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE パーマリンク