要約
大規模なデータセットをより小さな合成データセットに圧縮することは、画像分類に有望であることが実証されています。
しかし、これまでの研究では、画像認識における重大な懸念事項、つまり、圧縮されたデータセットでトレーニングされたモデルが性別や人種などの保護属性 (PA) に対して偏っていないことを保証することを見落としてきました。
私たちの調査により、データセット蒸留 (DD) では、元のデータセット内の少数派に対する不公平性が軽減されないことが明らかになりました。
さらに、この偏りは通常、圧縮されたデータセットではサイズが小さいためさらに悪化します。
研究のギャップを埋めるために、私たちは、元のアーキテクチャを変更する必要がなく、さまざまなマッチングベースの DD アプローチにシームレスに適用できる、新しいフェア データセット蒸留 (FDD) フレームワーク、つまり FairDD を提案します。
FairDD の主な革新は、多数派グループが支配するバニラ DD の分布全体に無差別に調整するのではなく、合成データセットを元のデータセットの PA 単位のグループに同期的に照合することにあります。
この同期されたマッチングにより、合成データセットが多数派グループに崩壊することを回避し、バランスのとれた生成をすべての PA グループにブートストラップすることができます。
その結果、FairDD はバニラ DD を効果的に正規化し、ターゲット属性の精度を維持しながら少数派に偏った生成を優先することができました。
理論分析と広範な実験評価により、FairDD は分類精度を犠牲にすることなく、バニラ DD 手法と比較して公平性が大幅に向上することが実証されています。
ディストリビューションとグラディエント マッチングにわたる多様な DD にわたる一貫した優位性により、汎用性の高い FDD アプローチとして確立されています。
要約(オリジナル)
Condensing large datasets into smaller synthetic counterparts has demonstrated its promise for image classification. However, previous research has overlooked a crucial concern in image recognition: ensuring that models trained on condensed datasets are unbiased towards protected attributes (PA), such as gender and race. Our investigation reveals that dataset distillation (DD) fails to alleviate the unfairness towards minority groups within original datasets. Moreover, this bias typically worsens in the condensed datasets due to their smaller size. To bridge the research gap, we propose a novel fair dataset distillation (FDD) framework, namely FairDD, which can be seamlessly applied to diverse matching-based DD approaches, requiring no modifications to their original architectures. The key innovation of FairDD lies in synchronously matching synthetic datasets to PA-wise groups of original datasets, rather than indiscriminate alignment to the whole distributions in vanilla DDs, dominated by majority groups. This synchronized matching allows synthetic datasets to avoid collapsing into majority groups and bootstrap their balanced generation to all PA groups. Consequently, FairDD could effectively regularize vanilla DDs to favor biased generation toward minority groups while maintaining the accuracy of target attributes. Theoretical analyses and extensive experimental evaluations demonstrate that FairDD significantly improves fairness compared to vanilla DD methods, without sacrificing classification accuracy. Its consistent superiority across diverse DDs, spanning Distribution and Gradient Matching, establishes it as a versatile FDD approach.
arxiv情報
著者 | Qihang Zhou,Shenhao Fang,Shibo He,Wenchao Meng,Jiming Chen |
発行日 | 2024-11-29 11:22:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google