要約
教師なしクラスタリング設定でディープ クラスタリング モデルの公平性を促進し、人口統計上の偏りを軽減することは、困難な目標です。
これは、機密属性または保護された属性に対して十分に注釈が付けられたラベルを備えた大規模なバランスのとれたデータには制限があるためです。
この論文では、まず、クラスター純度の観点からディープクラスタリングモデルにおける人口統計的偏りを評価します。クラスター純度は、クラスター内の陽性サンプルの相関度に対する比率によって測定されます。
この測定値は、人口統計上の偏りの指標として採用されます。
次に、学習されたクラスタリング モデルの公平性の側面を維持するために、すべてのクラスターの純度の一貫性を促進する新しい損失関数が導入されます。
さらに、複数のクラスター間の相関を測定し、遠く離れた陽性サンプルを強化し、学習プロセス中のクラスターの純度を向上させる、新しいアテンション メカニズムであるクロスアテンションを提案します。
多数の属性設定を備えた大規模なデータセットでの実験結果は、いくつかの機密属性に対するクラスタリングの精度と公平性の強化の両方において、提案されたアプローチの有効性を実証しました。
要約(オリジナル)
Promoting fairness for deep clustering models in unsupervised clustering settings to reduce demographic bias is a challenging goal. This is because of the limitation of large-scale balanced data with well-annotated labels for sensitive or protected attributes. In this paper, we first evaluate demographic bias in deep clustering models from the perspective of cluster purity, which is measured by the ratio of positive samples within a cluster to their correlation degree. This measurement is adopted as an indication of demographic bias. Then, a novel loss function is introduced to encourage a purity consistency for all clusters to maintain the fairness aspect of the learned clustering model. Moreover, we present a novel attention mechanism, Cross-attention, to measure correlations between multiple clusters, strengthening faraway positive samples and improving the purity of clusters during the learning process. Experimental results on a large-scale dataset with numerous attribute settings have demonstrated the effectiveness of the proposed approach on both clustering accuracy and fairness enhancement on several sensitive attributes.
arxiv情報
著者 | Xuan-Bac Nguyen,Chi Nhan Duong,Marios Savvides,Kaushik Roy,Hugh Churchill,Khoa Luu |
発行日 | 2023-09-18 14:38:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google