要約
最近の技術の進歩により、一般的に使用される機械学習アルゴリズムの容量を超える膨大な量のデータを収集できるようになりました。
コアセットや合成データ蒸留などのアプローチは、ダウンストリーム トレーニング用の小規模ながら代表的なサンプル セットを生成するフレームワークとして登場しました。
機械学習が意思決定プロセスにますます適用されるようになるにつれ、モデル作成者は、人種、性別、その他の機密属性などの要因によって定義されるサブグループに関するデータのバイアスを考慮し、それに対処することが不可欠になっています。
現在のアプローチは、元のサンプルと比較して局所的な特性を最適化することにより、公正な合成代表サンプルを作成することに重点を置いています。
ただし、これらの方法が下流の学習プロセスのパフォーマンスや公平性にプラスの影響を与えるとは限りません。
この研究では、下流の学習タスクで使用されるサンプルレベルの重みとともに公平な合成代表サンプルを生成する新しいコアセット アプローチである Fair Wasserstein Coresets (FWC) を紹介します。
FWC は、線形制約を介して、アルゴリズムの公平性の顕著な基準である人口統計的パリティ (の実証版) を強制しながら、元のデータセットと重み付けされた合成サンプルの間のワッサーシュタイン距離を最小限に抑えることを目的としています。
FWC は、k 中央値または k 平均法クラスタリングのロイド アルゴリズムの制約付きバージョンと考えることができることを示します。
合成データセットと実際のデータセットの両方で行われた私たちの実験は、私たちのアプローチのスケーラビリティを実証し、公平な前処理技術を通じて後者の公平性を強化しようとした場合でも、既存の公平なクラスタリングアプローチと比較した FWC の競争力のあるパフォーマンスを強調しています。
要約(オリジナル)
Recent technological advancements have given rise to the ability of collecting vast amounts of data, that often exceed the capacity of commonly used machine learning algorithms. Approaches such as coresets and synthetic data distillation have emerged as frameworks to generate a smaller, yet representative, set of samples for downstream training. As machine learning is increasingly applied to decision-making processes, it becomes imperative for modelers to consider and address biases in the data concerning subgroups defined by factors like race, gender, or other sensitive attributes. Current approaches focus on creating fair synthetic representative samples by optimizing local properties relative to the original samples. These methods, however, are not guaranteed to positively affect the performance or fairness of downstream learning processes. In this work, we present Fair Wasserstein Coresets (FWC), a novel coreset approach which generates fair synthetic representative samples along with sample-level weights to be used in downstream learning tasks. FWC aims to minimize the Wasserstein distance between the original datasets and the weighted synthetic samples while enforcing (an empirical version of) demographic parity, a prominent criterion for algorithmic fairness, via a linear constraint. We show that FWC can be thought of as a constrained version of Lloyd’s algorithm for k-medians or k-means clustering. Our experiments, conducted on both synthetic and real datasets, demonstrate the scalability of our approach and highlight the competitive performance of FWC compared to existing fair clustering approaches, even when attempting to enhance the fairness of the latter through fair pre-processing techniques.
arxiv情報
著者 | Zikai Xiong,Niccolò Dalmasso,Vamsi K. Potluru,Tucker Balch,Manuela Veloso |
発行日 | 2023-11-09 15:21:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google