要約
敵対的攻撃は、セキュリティ中心のアプリケーションにおける大きな懸念事項であり、悪意のある攻撃者が継続的に機械学習 (ML) モデルを誤解させ、不正行為を正当なものとして誤って分類しようとする一方、システム保守者は攻撃を阻止しようとします。
このような攻撃に対して堅牢な ML モデルを敵対的にトレーニングすることで、ビジネス上の損失を防ぎ、システム保守者の作業負荷を軽減できます。
このようなアプリケーションでは、データは表形式であることが多く、攻撃者が操作できる空間は複雑な特徴エンジニアリング変換を受けて、攻撃者がアクセスできない空間にモデルのトレーニングに有用な信号を提供します。
したがって、トレーニング ループ内の 2 つの空間間で攻撃が伝播される、新しい形式の敵対的トレーニングを提案します。
次に、クレジット カード不正検出の領域において、現実世界のデータセットでこの方法を実証的にテストします。
私たちの方法は、中程度の攻撃下では約 30% のパフォーマンス低下を防ぐことができ、非常に攻撃的な攻撃下では必須であり、攻撃下では 7% 未満のパフォーマンスのトレードオフ損失があることを示します。
要約(オリジナル)
Adversarial attacks are a major concern in security-centered applications, where malicious actors continuously try to mislead Machine Learning (ML) models into wrongly classifying fraudulent activity as legitimate, whereas system maintainers try to stop them. Adversarially training ML models that are robust against such attacks can prevent business losses and reduce the work load of system maintainers. In such applications data is often tabular and the space available for attackers to manipulate undergoes complex feature engineering transformations, to provide useful signals for model training, to a space attackers cannot access. Thus, we propose a new form of adversarial training where attacks are propagated between the two spaces in the training loop. We then test this method empirically on a real world dataset in the domain of credit card fraud detection. We show that our method can prevent about 30% performance drops under moderate attacks and is essential under very aggressive attacks, with a trade-off loss in performance under no attacks smaller than 7%.
arxiv情報
著者 | Tiago Leon Melo,João Bravo,Marco O. P. Sampaio,Paolo Romano,Hugo Ferreira,João Tiago Ascensão,Pedro Bizarro |
発行日 | 2023-07-28 17:12:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google