IMAP: Intrinsically Motivated Adversarial Policy

要約

タイトル: IMAP: Intrinsically Motivated Adversarial Policy
要約:
– 強化学習エージェントは展開中に回避攻撃に対して脆弱であることが知られています。
– 単一エージェント環境では、攻撃者はポリシーまたは値ネットワークの入力または出力に非常に小さな歪みを注入できるため、マルチエージェント環境では、攻撃者は被害者の観察に間接的に影響を与える敵対的な対戦相手を制御できます。
– 敵対的なポリシーは、このような攻撃を作り出す有望な解決策を提供しています。しかし、現在のアプローチは、被害者ポリシーの完全または部分的な知識が必要であったり、タスクに関連する報酬のまれさによるサンプリング効率の低さに苦しんでいます。
– このような限界を克服するために、我々は、被害者ポリシーの知識なしで単一エージェント環境およびマルチエージェント環境において効率的なブラックボックス回避攻撃を実現するため、状態カバレッジ、ポリシーカバレッジ、リスク、ポリシーの発散の4つの内在的目的に基づくIntrinsically Motivated Adversarial Policy(IMAP)を提案します。
– IMAPは、探索を促進し、より強力な攻撃技術を発見するために、4つの内在的な目的を使用します。
– さらに、IMAPをさらに強化するための新しいバイアス削減(BR)メソッドも設計されました。
– 実験では、IMAPとBRの有効性が、いくつかの単一エージェントおよびマルチエージェントMuJoCo環境における多数のタイプの被害者エージェントに対するブラックボックス攻撃において示されました。特に、IMAPは、最先端のロバストWocaR-PPOエージェントのパフォーマンスを34%〜54%減少させ、2プレイヤーゼロサムゲームYouShallNotPassで83.91%の攻撃成功率を達成しました。

要約(オリジナル)

Reinforcement learning (RL) agents are known to be vulnerable to evasion attacks during deployment. In single-agent environments, attackers can inject imperceptible perturbations on the policy or value network’s inputs or outputs; in multi-agent environments, attackers can control an adversarial opponent to indirectly influence the victim’s observation. Adversarial policies offer a promising solution to craft such attacks. Still, current approaches either require perfect or partial knowledge of the victim policy or suffer from sample inefficiency due to the sparsity of task-related rewards. To overcome these limitations, we propose the Intrinsically Motivated Adversarial Policy (IMAP) for efficient black-box evasion attacks in single- and multi-agent environments without any knowledge of the victim policy. IMAP uses four intrinsic objectives based on state coverage, policy coverage, risk, and policy divergence to encourage exploration and discover stronger attacking skills. We also design a novel Bias-Reduction (BR) method to boost IMAP further. Our experiments demonstrate the effectiveness of these intrinsic objectives and BR in improving adversarial policy learning in the black-box setting against multiple types of victim agents in various single- and multi-agent MuJoCo environments. Notably, our IMAP reduces the performance of the state-of-the-art robust WocaR-PPO agents by 34\%-54\% and achieves a SOTA attacking success rate of 83.91\% in the two-player zero-sum game YouShallNotPass.

arxiv情報

著者 Xiang Zheng,Xingjun Ma,Shengjie Wang,Xinyu Wang,Chao Shen,Cong Wang
発行日 2023-05-04 07:24:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク