要約
機械学習アルゴリズムは、特定の集団グループに対して偏った予測を示すことが観察されています。
同等の精度を達成しながらこのようなバイアスを軽減するための有望なアプローチは、関係する公平性定義の代理関数を導入し、制約付きの最適化問題を解決することです。
しかし、以前の研究における興味深い問題は、そのような公平性代理関数が不公平な結果をもたらす可能性があるということです。
この研究では、この問題を深く理解するために、広く使用されている公平性の定義である人口統計的平等を例に挙げて、公平性の定義と公平性代理関数の間に代理公平性のギャップがあることを理論的および経験的に示します。
「ギャップ」は、サロゲート関数が公平性定義の適切な代替であるかどうかを直接決定します。
また、「ギャップ」に関する理論的分析と実験結果は、無制限の代理関数が決定境界から遠く離れた点の影響を受けることを示唆しています。これは、この論文で調査した大きなマージン点の問題です。
これに対処するために、厳密で信頼性の高い公平性が保証された一般シグモイド サロゲートを提案します。
興味深いことに、この理論は、大きなマージン ポイントに対処する 2 つの重要な問題と、よりバランスの取れたデータセットを取得することが公平性に有益であるという 2 つの重要な問題についての洞察も提供します。
さらに、公平性を向上させるために「ギャップ」を反復的に削減する、Balanced Surrogate と呼ばれる斬新で一般的なアルゴリズムを精緻化しました。
最後に、私たちの方法が 3 つの現実世界のデータセットでより優れた公平性パフォーマンスを達成することを示す経験的証拠を提供します。
要約(オリジナル)
It has been observed that machine learning algorithms exhibit biased predictions against certain population groups. To mitigate such bias while achieving comparable accuracy, a promising approach is to introduce surrogate functions of the concerned fairness definition and solve a constrained optimization problem. However, an intriguing issue in previous work is that such fairness surrogate functions may yield unfair results. In this work, in order to deeply understand this issue, taking a widely used fairness definition, demographic parity as an example, we both theoretically and empirically show that there is a surrogate-fairness gap between the fairness definition and the fairness surrogate function. The ‘gap’ directly determines whether a surrogate function is an appropriate substitute for a fairness definition. Also, the theoretical analysis and experimental results about the ‘gap’ motivate us that the unbounded surrogate functions will be affected by the points far from the decision boundary, which is the large margin points issue investigated in this paper. To address it, we propose the general sigmoid surrogate with a rigorous and reliable fairness guarantee. Interestingly, the theory also provides insights into two important issues that deal with the large margin points as well as obtaining a more balanced dataset are beneficial to fairness. Furthermore, we elaborate a novel and general algorithm called Balanced Surrogate, which iteratively reduces the ‘gap’ to improve fairness. Finally, we provide empirical evidence showing that our methods achieve better fairness performance in three real-world datasets.
arxiv情報
著者 | Wei Yao,Zhanke Zhou,Zhicong Li,Bo Han,Yong Liu |
発行日 | 2023-10-17 12:40:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google