Measuring Equality in Machine Learning Security Defenses

要約

機械学習セキュリティ コミュニティは、過去 10 年間で回避攻撃に対する無数の防御策を開発してきました。
そのコミュニティで十分に研究されていない問題は、次のとおりです。これらの防御は誰のために防御しますか?
この作業では、学習したシステムを防御するためのいくつかの一般的なアプローチと、それらのアプローチがさまざまな部分母集団によって使用されたときに予期しないパフォーマンスの不公平をもたらす可能性があるかどうかを検討します。
単純なパリティ メトリクスと、機械学習セキュリティ メソッドの公平性への影響の経験的結果を通じて、この質問に答え始めることができる分析のフレームワークを概説します。
直接的な害を引き起こす可能性のある多くの方法が提案されており、それらを偏った脆弱性と偏った拒絶と呼んでいます。
私たちのフレームワークとメトリクスは、堅牢にトレーニングされたモデル、前処理ベースの方法、拒否方法に適用して、セキュリティ予算を超えた行動を捉えることができます。
防御の平等を測定するのに適した合理的な計算コストを持つ現実的なデータセットを特定します。
音声コマンド認識のケーススタディを通じて、そのような防御が社会的サブグループに平等な保護を提供しないこと、および堅牢性トレーニングのためにそのような分析を実行する方法を示し、ランダム化された平滑化とニューラルの 2 つの拒否ベースの防御の公平性の比較を提示します。
拒絶。
公平な防御に関連する要因のさらなる分析を提供して、そのような防御の構築を支援する方法の将来の調査を刺激します。
私たちの知る限り、これは音声データの精度と堅牢性のトレードオフにおける公平性の不均衡を調べ、拒否ベースの防御の公平性評価に対処する最初の研究です。

要約(オリジナル)

The machine learning security community has developed myriad defenses for evasion attacks over the past decade. An understudied question in that community is: for whom do these defenses defend? In this work, we consider some common approaches to defending learned systems and whether those approaches may offer unexpected performance inequities when used by different sub-populations. We outline simple parity metrics and a framework for analysis that can begin to answer this question through empirical results of the fairness implications of machine learning security methods. Many methods have been proposed that can cause direct harm, which we describe as biased vulnerability and biased rejection. Our framework and metric can be applied to robustly trained models, preprocessing-based methods, and rejection methods to capture behavior over security budgets. We identify a realistic dataset with a reasonable computational cost suitable for measuring the equality of defenses. Through a case study in speech command recognition, we show how such defenses do not offer equal protection for social subgroups and how to perform such analyses for robustness training, and we present a comparison of fairness between two rejection-based defenses: randomized smoothing and neural rejection. We offer further analysis of factors that correlate to equitable defenses to stimulate the future investigation of how to assist in building such defenses. To the best of our knowledge, this is the first work that examines the fairness disparity in the accuracy-robustness trade-off in speech data and addresses fairness evaluation for rejection-based defenses.

arxiv情報

著者 Luke E. Richards,Edward Raff,Cynthia Matuszek
発行日 2023-02-17 16:19:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク