Controlled Model Debiasing through Minimal and Interpretable Updates

要約

公正な機械学習モデルを学習するための従来のアプローチでは、一般的に既存の以前のモデルを考慮せずに、ゼロから再構築モデルをゼロから再構築する必要があります。
モデルを頻繁に再試行する必要があるコンテキストでは、これによりモデルの更新が一貫性のない更新や、冗長で費用のかかる検証テストにつながる可能性があります。
この制限に対処するために、2つのDesiderataに依存する新しい監督された学習タスクである制御されたモデルdebiasingの概念を紹介します。新しい公正モデルと既存のモデルの違いは(i)解釈可能であり、(ii)最小限である必要があります。
この新しい問題に理論的保証を提供した後、アルゴリズムの公平性に関する新しいアルゴリズムを導入します。これは、モデルに依存しており、テスト時に機密属性を必要としません。
さらに、私たちのアルゴリズムは、偏った予測と紛失した予測との間の最小限の解釈可能な変更を強制するように明示的に設計されています。これは、高得点アプリケーションでは非常に望ましいものの、公平性文献の明示的な目的としてめったに優先されることはありません。
私たちのアプローチは、概念ベースのアーキテクチャと敵対学習を組み合わせており、経験的な結果を通じて、最小限の解釈可能な予測の変更を実行しながら、最先端の紛争方法に匹敵するパフォーマンスを達成することを実証します。

要約(オリジナル)

Traditional approaches to learning fair machine learning models often require rebuilding models from scratch, generally without accounting for potentially existing previous models. In a context where models need to be retrained frequently, this can lead to inconsistent model updates, as well as redundant and costly validation testing. To address this limitation, we introduce the notion of controlled model debiasing, a novel supervised learning task relying on two desiderata: that the differences between new fair model and the existing one should be (i) interpretable and (ii) minimal. After providing theoretical guarantees to this new problem, we introduce a novel algorithm for algorithmic fairness, COMMOD, that is both model-agnostic and does not require the sensitive attribute at test time. In addition, our algorithm is explicitly designed to enforce minimal and interpretable changes between biased and debiased predictions -a property that, while highly desirable in high-stakes applications, is rarely prioritized as an explicit objective in fairness literature. Our approach combines a concept-based architecture and adversarial learning and we demonstrate through empirical results that it achieves comparable performance to state-of-the-art debiasing methods while performing minimal and interpretable prediction changes.

arxiv情報

著者 Federico Di Gennaro,Thibault Laugel,Vincent Grari,Marcin Detyniecki
発行日 2025-02-28 18:03:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク