fairml: A Statistician’s Take on Fair Machine Learning Modelling

要約

【タイトル】「fairml: 公平な機械学習モデリングに対する統計学者的アプローチ」

【要約】

– 機械学習の採用は、公平さと説明責任を確保することが不可欠なアプリケーションでのモデリングを多数提案してきた。
– 制約を用いた最適化問題として大部分が定式化され、機微な属性の影響を軽減または排除するモデルが提案されているが、これらのモデルは、黒箱の性質を持ち、その統計的特性や適用されるベストプラクティス、また最初に設計された以外の問題に拡張することができるかどうかについては非常に少なく、必要な実装には適切なソルバーが必要であり、ソフトウェアエンジニアリングの観点からは好ましくない。
– 本論文では、fairml Rパッケージについて説明する。fairmlは、古典的な統計モデル(一般化線形モデル)やペナルティ回帰の結果(リッジ回帰)に基づいて設計されており、解釈可能で特性がよく知られた公平なモデルを作成することができる。公平性を強制するための制約は、モデル推定とは直交しており、各アプリケーションの望ましいモデルファミリーと公正性の定義をミックスアンドマッチすることができる。さらに、fairmlは、モデル推定、モデル選択、および診断プロットを含むモデル検証の機能を提供する。

要約(オリジナル)

The adoption of machine learning in applications where it is crucial to ensure fairness and accountability has led to a large number of model proposals in the literature, largely formulated as optimisation problems with constraints reducing or eliminating the effect of sensitive attributes on the response. While this approach is very flexible from a theoretical perspective, the resulting models are somewhat black-box in nature: very little can be said about their statistical properties, what are the best practices in their applied use, and how they can be extended to problems other than those they were originally designed for. Furthermore, the estimation of each model requires a bespoke implementation involving an appropriate solver which is less than desirable from a software engineering perspective. In this paper, we describe the fairml R package which implements our previous work (Scutari, Panero, and Proissl 2022) and related models in the literature. fairml is designed around classical statistical models (generalised linear models) and penalised regression results (ridge regression) to produce fair models that are interpretable and whose properties are well-known. The constraint used to enforce fairness is orthogonal to model estimation, making it possible to mix-and-match the desired model family and fairness definition for each application. Furthermore, fairml provides facilities for model estimation, model selection and validation including diagnostic plots.

arxiv情報

著者 Marco Scutari
発行日 2023-05-03 09:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CY, cs.LG, stat.ML パーマリンク