RobustFair: Adversarial Evaluation through Fairness Confusion Directed Gradient Search

要約

DNN の信頼性は、小規模な敵対的な摂動に対する脆弱性によってしばしば課題となります。これにより、予測精度 (堅牢性) が損なわれるだけでなく、同様の入力に対する予測の偏り (個別の公平性) が生じる可能性があります。
正確な公平性は、正確さと個々の公平性の間の調和のとれたバランスを強制するために最近提案されました。
これにより、公平性混同行列の概念が導入され、予測が真の公平、真の偏り、偽の公平、偽の偏りとして分類されます。
この論文では、公平性混同指向勾配探索を通じて作成された敵対的摂動を使用して、DNN の正確な公平性を実現する調和評価アプローチ RobustFair を提案します。
テイラー展開を使用して敵対的インスタンスのグランド トゥルースを近似することにより、RobustFair は特に、ロバスト性評価ではとらえどころがなく、個々の公平性評価では見逃される、偽の公平性に絡まったロバスト性の欠陥を特定できます。
RobustFair は、堅牢性または公平性の欠陥を同時に特定することで、堅牢性と個々の公平性の評価を高めることができます。
公平性ベンチマーク データセットに関する実証ケース スタディでは、最先端のホワイト ボックス ロバスト性および個別公平性テストのアプローチと比較して、RobustFair は敵対的摂動を 1.77 ~ 11.87 倍大幅に検出し、1.83 ~ 13.12 倍の偏り、および 1.53 ~ 8.22 倍の確率で敵対的摂動を検出することが示されています。
偽のインスタンスの倍。
その後、敵対的インスタンスを効果的に利用して、再トレーニングを通じて元のディープ ニューラル ネットワークの正確な公平性 (したがって精度と個々の公平性) を向上させることができます。
実証的なケーススタディはさらに、RobustFair によって特定された敵対的インスタンスが、精度をまったく損なうことなく、または精度を最大 20% 向上させることなく、複数の機密属性に関して 21% の正確な公平性と 19% の個別の公平性を促進するという点で、他のテスト手法で特定された敵対的インスタンスよりも優れていることを示しています。
4%。

要約(オリジナル)

The trustworthiness of DNNs is often challenged by their vulnerability to minor adversarial perturbations, which may not only undermine prediction accuracy (robustness) but also cause biased predictions for similar inputs (individual fairness). Accurate fairness has been recently proposed to enforce a harmonic balance between accuracy and individual fairness. It induces the notion of fairness confusion matrix to categorize predictions as true fair, true biased, false fair, and false biased. This paper proposes a harmonic evaluation approach, RobustFair, for the accurate fairness of DNNs, using adversarial perturbations crafted through fairness confusion directed gradient search. By using Taylor expansions to approximate the ground truths of adversarial instances, RobustFair can particularly identify the robustness defects entangled for spurious fairness, which are often elusive in robustness evaluation, and missing in individual fairness evaluation. RobustFair can boost robustness and individual fairness evaluations by identifying robustness or fairness defects simultaneously. Empirical case studies on fairness benchmark datasets show that, compared with the state-of-the-art white-box robustness and individual fairness testing approaches, RobustFair detects significantly 1.77-11.87 times adversarial perturbations, yielding 1.83-13.12 times biased and 1.53-8.22 times false instances. The adversarial instances can then be effectively exploited to improve the accurate fairness (and hence accuracy and individual fairness) of the original deep neural network through retraining. The empirical case studies further show that the adversarial instances identified by RobustFair outperform those identified by the other testing approaches, in promoting 21% accurate fairness and 19% individual fairness on multiple sensitive attributes, without losing accuracy at all or even promoting it by up to 4%.

arxiv情報

著者 Xuran Li,Peng Wu,Kaixiang Dong,Zhen Zhang
発行日 2023-05-18 12:07:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG パーマリンク