要約
現実世界に配備される自律エージェントは、感覚入力に対する敵対的な攻撃に対して堅牢である必要があります。
エージェント ポリシーを堅牢化するには、可能な限り強力な攻撃を予測する必要があります。
我々は、強化学習エージェントに対する既存の観測空間攻撃には共通の弱点があることを実証します。つまり、効果的ではあるものの、時間的一貫性が欠如しているため、自動化された手段や人による検査を使用しても検出可能です。
検出可能性は、セキュリティのエスカレーションを引き起こす可能性があるため、攻撃者にとって望ましくありません。
私たちは、効果的で統計的に検出不可能であることが証明されている、連続的な意思決定者に対する新しい形式の敵対的攻撃である完全幻想攻撃を紹介します。
次に、より汎用性の高い R 攻撃を提案します。これにより、敵のいない環境の状態遷移関数と一致し、エンドツーエンドで学習できる観測遷移が得られます。
既存の攻撃と比較して、R 攻撃は自動化された方法で検出するのが非常に難しいことが経験的にわかっており、人間を対象とした小規模な研究では、人間にとっても同様に検出が難しいことが示唆されています。
私たちは、混合自律環境における敵対的攻撃の研究では、検出不可能性が中心的な懸念事項であるべきであると提案します。
要約(オリジナル)
Autonomous agents deployed in the real world need to be robust against adversarial attacks on sensory inputs. Robustifying agent policies requires anticipating the strongest attacks possible. We demonstrate that existing observation-space attacks on reinforcement learning agents have a common weakness: while effective, their lack of temporal consistency makes them detectable using automated means or human inspection. Detectability is undesirable to adversaries as it may trigger security escalations. We introduce perfect illusory attacks, a novel form of adversarial attack on sequential decision-makers that is both effective and provably statistically undetectable. We then propose the more versatile R-attacks, which result in observation transitions that are consistent with the state-transition function of the adversary-free environment and can be learned end-to-end. Compared to existing attacks, we empirically find R-attacks to be significantly harder to detect with automated methods, and a small study with human subjects suggests they are similarly harder to detect for humans. We propose that undetectability should be a central concern in the study of adversarial attacks on mixed-autonomy settings.
arxiv情報
著者 | Tim Franzmeyer,Stephen McAleer,João F. Henriques,Jakob N. Foerster,Philip H. S. Torr,Adel Bibi,Christian Schroeder de Witt |
発行日 | 2023-06-20 17:11:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google