Adversarial Cheap Talk

要約

強化学習 (RL) における敵対的攻撃は、多くの場合、被害者のパラメーター、環境、またはデータへの高度な特権アクセスを前提としています。
代わりに、この論文は、敵対者が被害者の観察に決定論的なメッセージを追加するだけで、影響範囲が最小限に抑えられる、チープ トーク MDP と呼ばれる新しい敵対的設定を提案します。
敵対者は、グラウンド トゥルースを遮ったり、根底にある環境ダイナミクスや報酬信号に影響を与えたり、非定常性を導入したり、確率性を追加したり、被害者の行動を確認したり、被害者のパラメータにアクセスしたりすることはできません。
さらに、この設定で敵対者を訓練するための Adversarial Cheap Talk (ACT) と呼ばれる単純なメタ学習アルゴリズムを紹介します。
高度に制限された設定にもかかわらず、ACT でトレーニングされた敵対者が依然として被害者のトレーニングとテストのパフォーマンスに大きな影響を与えることを実証します。
トレーニング時のパフォーマンスに影響を与えると、新たな攻撃ベクトルが明らかになり、既存の RL アルゴリズムの成功モードと失敗モードについての洞察が得られます。
より具体的には、ACT 敵対者が学習者の関数近似を妨害することでパフォーマンスを損なう可能性があり、代わりに有用な特徴を出力することで被害者のパフォーマンスを助けることができることを示します。
最後に、ACT 攻撃者がトレーニング時にメッセージを操作して、テスト時に被害者を直接かつ任意に制御できることを示します。
プロジェクトのビデオとコードは、https://sites.google.com/view/adversarial-cheap-talk で入手できます。

要約(オリジナル)

Adversarial attacks in reinforcement learning (RL) often assume highly-privileged access to the victim’s parameters, environment, or data. Instead, this paper proposes a novel adversarial setting called a Cheap Talk MDP in which an Adversary can merely append deterministic messages to the Victim’s observation, resulting in a minimal range of influence. The Adversary cannot occlude ground truth, influence underlying environment dynamics or reward signals, introduce non-stationarity, add stochasticity, see the Victim’s actions, or access their parameters. Additionally, we present a simple meta-learning algorithm called Adversarial Cheap Talk (ACT) to train Adversaries in this setting. We demonstrate that an Adversary trained with ACT still significantly influences the Victim’s training and testing performance, despite the highly constrained setting. Affecting train-time performance reveals a new attack vector and provides insight into the success and failure modes of existing RL algorithms. More specifically, we show that an ACT Adversary is capable of harming performance by interfering with the learner’s function approximation, or instead helping the Victim’s performance by outputting useful features. Finally, we show that an ACT Adversary can manipulate messages during train-time to directly and arbitrarily control the Victim at test-time. Project video and code are available at https://sites.google.com/view/adversarial-cheap-talk

arxiv情報

著者 Chris Lu,Timon Willi,Alistair Letcher,Jakob Foerster
発行日 2023-07-11 17:31:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク