要約
生成モデルの最近の進歩により、AIが生成されたデータによるモデルの公平性の改善に関する研究が促進されました。
ただし、既存の方法は、合成データの多様性と品質の制限に直面していることが多く、公平性と全体的なモデルの精度が低下します。
さらに、多くのアプローチは、人口統計グループラベルの可用性に依存しています。
このペーパーでは、これらの制限を克服し、アルゴリズムの公平性を促進する最先端の生成モデルの可能性を活用することを目指して、AIM-FAIRを提案します。
人口統計の注釈なしで、実際のデータで最初に訓練された偏ったモデルから始まる微調整パラダイムを調査します。
このモデルは、最先端の拡散モデルによって生成された偏りのない合成データを使用して、その公平性を向上させるために微調整されます。
この微調整パラダイムでは、2つの重要な課題が特定されています。1)高度な生成モデルでも発生する可能性のある合成データの低品質、および2)実際のデータと合成データの間のドメインとバイアスのギャップ。
合成データの品質の制限に対処するために、コンテキスト合成データ生成(CSDG)を提案して、コンテキスト対応LLMによって生成されたプロンプトを使用してテキストから画像拡散モデル(T2I)を使用してデータを生成し、合成データのバイアスのデータの多様性と制御の両方を確保します。
ドメインとバイアスのシフトを解決するために、バイアスに対してより敏感でドメインシフトに敏感でないモデルパラメーターのみが更新される新しい選択的微調整スキームを導入します。
CelebaおよびUtkfaceデータセットでの実験は、私たちのAIM-FAIRが有用性を維持しながらモデルの公平性を改善し、モデルの公平性への完全かつ部分的に微調整されたアプローチの両方を上回ることを示しています。
要約(オリジナル)
Recent advances in generative models have sparked research on improving model fairness with AI-generated data. However, existing methods often face limitations in the diversity and quality of synthetic data, leading to compromised fairness and overall model accuracy. Moreover, many approaches rely on the availability of demographic group labels, which are often costly to annotate. This paper proposes AIM-Fair, aiming to overcome these limitations and harness the potential of cutting-edge generative models in promoting algorithmic fairness. We investigate a fine-tuning paradigm starting from a biased model initially trained on real-world data without demographic annotations. This model is then fine-tuned using unbiased synthetic data generated by a state-of-the-art diffusion model to improve its fairness. Two key challenges are identified in this fine-tuning paradigm, 1) the low quality of synthetic data, which can still happen even with advanced generative models, and 2) the domain and bias gap between real and synthetic data. To address the limitation of synthetic data quality, we propose Contextual Synthetic Data Generation (CSDG) to generate data using a text-to-image diffusion model (T2I) with prompts generated by a context-aware LLM, ensuring both data diversity and control of bias in synthetic data. To resolve domain and bias shifts, we introduce a novel selective fine-tuning scheme in which only model parameters more sensitive to bias and less sensitive to domain shift are updated. Experiments on CelebA and UTKFace datasets show that our AIM-Fair improves model fairness while maintaining utility, outperforming both fully and partially fine-tuned approaches to model fairness.
arxiv情報
著者 | Zengqun Zhao,Ziquan Liu,Yu Cao,Shaogang Gong,Ioannis Patras |
発行日 | 2025-03-07 18:26:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google