URET: Universal Robustness Evaluation Toolkit (for Evasion)

要約

機械学習モデルは、画像分類モデルに見られるように、敵対的回避攻撃に対して脆弱であることが知られている。このような攻撃を徹底的に理解することは、重要なAIタスクの安全性と堅牢性を確保するために極めて重要である。しかし、ほとんどの回避攻撃は、制約の少ない画像領域に焦点を当てているため、大多数のAIシステムに対して展開することは困難である。画像は、実際に使用されているAIシステムに対する他の多くの入力タイプとは異なり、均質で、数値的で、連続的で、独立した特徴で構成されています。さらに、いくつかの入力タイプには、現実的な敵対的入力を生成するために観察されなければならない、追加の意味的・機能的制約が含まれている。本研究では、入力タイプやタスクドメインに関係なく、敵対的入力を生成できる新しいフレームワークを提案する。入力と予め定義された入力変換のセットが与えられた場合、我々のフレームワークは、意味的に正しく機能的な敵対的入力となる一連の変換を発見する。我々は、様々な入力表現を持つ多様な機械学習タスクにおいて、本アプローチの汎用性を実証する。また、敵対的な入力例を生成することの重要性を示す。

要約(オリジナル)

Machine learning models are known to be vulnerable to adversarial evasion attacks as illustrated by image classification models. Thoroughly understanding such attacks is critical in order to ensure the safety and robustness of critical AI tasks. However, most evasion attacks are difficult to deploy against a majority of AI systems because they have focused on image domain with only few constraints. An image is composed of homogeneous, numerical, continuous, and independent features, unlike many other input types to AI systems used in practice. Furthermore, some input types include additional semantic and functional constraints that must be observed to generate realistic adversarial inputs. In this work, we propose a new framework to enable the generation of adversarial inputs irrespective of the input type and task domain. Given an input and a set of pre-defined input transformations, our framework discovers a sequence of transformations that result in a semantically correct and functional adversarial input. We demonstrate the generality of our approach on several diverse machine learning tasks with various input representations. We also show the importance of generating adversarial examples as they enable the deployment of mitigation techniques.

arxiv情報

著者 Kevin Eykholt,Taesung Lee,Douglas Schales,Jiyong Jang,Ian Molloy,Masha Zorin
発行日 2023-08-03 16:05:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク