Inference-Time Rule Eraser: Fair Recognition via Distilling and Removing Biased Rules

要約

機械学習モデルは、性別、人種、その他の社会的属性などの偏った特徴に基づいて予測を行うことが多く、特に採用、銀行業務、刑事司法などの社会的用途において、重大な公平性リスクが生じます。
この問題に対処する従来のアプローチには、公平性を意識した最適化目標を備えたニューラル ネットワークの再トレーニングまたは微調整が含まれます。
ただし、これらの方法は、膨大な計算リソース、複雑な工業テスト、および関連する CO2 排出量により、非現実的になる可能性があります。
さらに、通常のユーザーは、モデル パラメーターにアクセスできないため、モデルの微調整に失敗することがよくあります。この論文では、偏った意思決定ルールを削除することで公平性の問題に対処するように設計された新しい方法である推論時間ルール イレイサー (イレイサー) を紹介します。
推論中にモデルの重みを変更せずにモデルをデプロイします。
まず、ベイジアン分析を通じて偏ったルールを排除するためにモデルの出力を変更するための理論的基盤を確立します。
次に、2 つの段階を含む Eraser の具体的な実装を示します。(1) デプロイされたモデルからバイアスされたルールを抽出して、追加のパッチ モデルを生成するステップと、(2) 推論中にデプロイされたモデルの出力からこれらのバイアスされたルールを削除するステップです。
広範な実験により、私たちのアプローチの有効性が検証され、AI システムにおける公平性の問題に対処する際の優れたパフォーマンスが実証されました。

要約(オリジナル)

Machine learning models often make predictions based on biased features such as gender, race, and other social attributes, posing significant fairness risks, especially in societal applications, such as hiring, banking, and criminal justice. Traditional approaches to addressing this issue involve retraining or fine-tuning neural networks with fairness-aware optimization objectives. However, these methods can be impractical due to significant computational resources, complex industrial tests, and the associated CO2 footprint. Additionally, regular users often fail to fine-tune models because they lack access to model parameters In this paper, we introduce the Inference-Time Rule Eraser (Eraser), a novel method designed to address fairness concerns by removing biased decision-making rules from deployed models during inference without altering model weights. We begin by establishing a theoretical foundation for modifying model outputs to eliminate biased rules through Bayesian analysis. Next, we present a specific implementation of Eraser that involves two stages: (1) distilling the biased rules from the deployed model into an additional patch model, and (2) removing these biased rules from the output of the deployed model during inference. Extensive experiments validate the effectiveness of our approach, showcasing its superior performance in addressing fairness concerns in AI systems.

arxiv情報

著者 Yi Zhang,Dongyuan Lu,Jitao Sang
発行日 2024-07-11 15:33:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG パーマリンク