要約
ニューラルネットワークは、様々な機械学習分野において最先端の性能を発揮している。しかし、敵対的な例として知られる悪意のある摂動を入力データに導入することで、ニューラルネットワークの予測を欺くことが示されている。このことは、自律走行やテキスト識別などの実世界のアプリケーションに潜在的なリスクをもたらす。このようなリスクを軽減するためには、敵対的事例の背後にあるメカニズムを包括的に理解することが不可欠である。本研究では、ニューラルネットワークを騙すためには、人間を特定できない特性が重要な役割を果たすと広く信じられているのとは対照的に、敵対的摂動には人間が認識可能な情報が含まれており、それがニューラルネットワークの予測を誤らせる重要な共謀者であることを証明する。この人間が認識可能な特性という概念により、敵対的摂動の存在、異なるニューラルネットワーク間での伝達性、敵対的訓練に対する解釈可能性の向上など、敵対的摂動の主要な特徴を説明することができるようになりました。また、ニューラルネットワークを欺く敵対的摂動には、マスキングと生成という2つのユニークな性質があることも明らかにした。さらに、ニューラルネットワークが入力画像を分類する際に、補完クラスという特殊なクラスが存在することを明らかにした。敵対的摂動に人間が認識できる情報が存在することで、研究者はニューラルネットワークの動作原理を理解することができ、敵対的攻撃を検知・防御する技術の開発につながる可能性があります。
要約(オリジナル)
Neural networks have demonstrated state-of-the-art performance in various machine learning fields. However, the introduction of malicious perturbations in input data, known as adversarial examples, has been shown to deceive neural network predictions. This poses potential risks for real-world applications such as autonomous driving and text identification. In order to mitigate these risks, a comprehensive understanding of the mechanisms underlying adversarial examples is essential. In this study, we demonstrate that adversarial perturbations contain human-recognizable information, which is the key conspirator responsible for a neural network’s incorrect prediction, in contrast to the widely held belief that human-unidentifiable characteristics play a critical role in fooling a network. This concept of human-recognizable characteristics enables us to explain key features of adversarial perturbations, including their existence, transferability among different neural networks, and increased interpretability for adversarial training. We also uncover two unique properties of adversarial perturbations that deceive neural networks: masking and generation. Additionally, a special class, the complementary class, is identified when neural networks classify input images. The presence of human-recognizable information in adversarial perturbations allows researchers to gain insight into the working principles of neural networks and may lead to the development of techniques for detecting and defending against adversarial attacks.
arxiv情報
著者 | Dennis Y. Menn,Tzu-hsun Feng,Hung-yi Lee |
発行日 | 2023-02-03 10:38:51+00:00 |
arxivサイト | arxiv_id(pdf) |