Towards Non-Adversarial Algorithmic Recourse

要約

敵対的な例と反事実の説明に関する研究の流れは、主に独立して成長してきました。
これにより、それらの類似点と相違点を解明しようとするいくつかの最近の研究が行われています。
最も顕著なのは、反事実の説明とは対照的に、敵対的な例には、根拠となる真実と比較して誤分類につながるという独特の特徴があると主張されてきたことです。
ただし、既存の反事実の説明や敵対的な例の生成方法で採用されている計算上の目標と方法論は、多くの場合、この要件との整合性を欠いています。
敵対的な例と反事実の説明の正式な定義を使用して、非敵対的なアルゴリズムによる手段を紹介し、一か八かの状況では、敵対的な特徴を示さない反事実の説明を取得することが不可欠である理由を概説します。
次に、目的関数のさまざまなコンポーネント(距離の測定に使用される機械学習モデルやコスト関数など)が、結果が敵対的な例とみなせるかどうかをどのように決定するかを調査します。
一般的なデータセットに対する私たちの実験では、これらの設計上の選択は、多くの場合、救済アルゴリズムが使用されるか攻撃アルゴリズムが使用されるかよりも、救済が敵対的でないどうかを決定する上でより重要であることが強調されています。
さらに、堅牢で正確な機械学習モデルを選択すると、実際に望まれる敵対的手段が少なくなるという結果が得られることを示します。

要約(オリジナル)

The streams of research on adversarial examples and counterfactual explanations have largely been growing independently. This has led to several recent works trying to elucidate their similarities and differences. Most prominently, it has been argued that adversarial examples, as opposed to counterfactual explanations, have a unique characteristic in that they lead to a misclassification compared to the ground truth. However, the computational goals and methodologies employed in existing counterfactual explanation and adversarial example generation methods often lack alignment with this requirement. Using formal definitions of adversarial examples and counterfactual explanations, we introduce non-adversarial algorithmic recourse and outline why in high-stakes situations, it is imperative to obtain counterfactual explanations that do not exhibit adversarial characteristics. We subsequently investigate how different components in the objective functions, e.g., the machine learning model or cost function used to measure distance, determine whether the outcome can be considered an adversarial example or not. Our experiments on common datasets highlight that these design choices are often more critical in deciding whether recourse is non-adversarial than whether recourse or attack algorithms are used. Furthermore, we show that choosing a robust and accurate machine learning model results in less adversarial recourse desired in practice.

arxiv情報

著者 Tobias Leemann,Martin Pawelczyk,Bardh Prenkaj,Gjergji Kasneci
発行日 2024-03-15 14:18:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク