Pursuing Counterfactual Fairness via Sequential Autoencoder Across Domains

要約

ドメイン シフトの蔓延が機械学習における共通の課題であることを認識し、配布外 (OOD) データを処理する際の機械学習システムのパフォーマンスを向上させるために、さまざまなドメイン汎化 (DG) 手法が開発されてきました。
さらに、現実のシナリオでは、データの分布は一連の連続ドメイン全体で徐々に変化する可能性があります。
現在の方法論は主に、これらの新しい領域内でのモデルの有効性を向上させることに焦点を当てていますが、学習プロセス全体を通じて公平性の問題が見落とされることがよくあります。
これに応えて、Counterfactual Fairness-Aware Domain Generalization with Sequential Autoencoder (CDSAE) と呼ばれる革新的なフレームワークを導入します。
このアプローチは、分類特徴の埋め込まれた表現から環境情報と機密属性を効果的に分離します。
この同時分離により、多様でなじみのないドメインにわたるモデルの一般化が大幅に改善されるだけでなく、不公平な分類に関連する課題にも効果的に対処できます。
私たちの戦略は、これらの二重の問題に取り組むための因果推論の原則に基づいています。
意味情報、センシティブ属性、および環境手がかりの間の複雑な関係を調べるために、外因性不確実性要因を 4 つの潜在変数に体系的に分類します。1) センシティブ属性の影響を受ける意味情報、2) センシティブ属性の影響を受けない意味情報、3) 影響を受ける環境手がかり
4) 機密属性の影響を受けない環境の合図。
公平性の正則化を組み込むことにより、分類目的のみにセマンティック情報が使用されます。
合成データセットと実世界のデータセットに対する経験的検証により、私たちのアプローチの有効性が実証され、連続ドメインの進化する状況における公平性の維持を確保しながら、精度レベルの向上が実証されました。

要約(オリジナル)

Recognizing the prevalence of domain shift as a common challenge in machine learning, various domain generalization (DG) techniques have been developed to enhance the performance of machine learning systems when dealing with out-of-distribution (OOD) data. Furthermore, in real-world scenarios, data distributions can gradually change across a sequence of sequential domains. While current methodologies primarily focus on improving model effectiveness within these new domains, they often overlook fairness issues throughout the learning process. In response, we introduce an innovative framework called Counterfactual Fairness-Aware Domain Generalization with Sequential Autoencoder (CDSAE). This approach effectively separates environmental information and sensitive attributes from the embedded representation of classification features. This concurrent separation not only greatly improves model generalization across diverse and unfamiliar domains but also effectively addresses challenges related to unfair classification. Our strategy is rooted in the principles of causal inference to tackle these dual issues. To examine the intricate relationship between semantic information, sensitive attributes, and environmental cues, we systematically categorize exogenous uncertainty factors into four latent variables: 1) semantic information influenced by sensitive attributes, 2) semantic information unaffected by sensitive attributes, 3) environmental cues influenced by sensitive attributes, and 4) environmental cues unaffected by sensitive attributes. By incorporating fairness regularization, we exclusively employ semantic information for classification purposes. Empirical validation on synthetic and real-world datasets substantiates the effectiveness of our approach, demonstrating improved accuracy levels while ensuring the preservation of fairness in the evolving landscape of continuous domains.

arxiv情報

著者 Yujie Lin,Chen Zhao,Minglai Shao,Baoluo Meng,Xujiang Zhao,Haifeng Chen
発行日 2023-09-22 17:08:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG パーマリンク