Efficient Reward Poisoning Attacks on Online Deep Reinforcement Learning

要約

【タイトル】オンライン深層強化学習における効率的な報酬操作攻撃

【要約】

・DRLにおける報酬操作攻撃について研究
・エージェントが使用している学習アルゴリズムや環境のダイナミクスについて攻撃者が知らなくても攻撃を行える
・一般的なblack-box報酬操作フレームワークであるadversarial MDP attacksを開発し、2つの新しい攻撃を構築
・攻撃はトレーニング時間の一部で報酬のみを変更して、エージェントに低性能のポリシーを学習させる
・攻撃の効率に対する理論的分析を提供し、広範な実験評価を行った
・結果は、DQN、PPO、SACなどのステートオブジアートなDRLアルゴリズムを使用する数多くの人気のあるクラシックなコントロールやMuJoCo環境でエージェントを効率的に攻撃できたことを示す

要約(オリジナル)

We study reward poisoning attacks on online deep reinforcement learning (DRL), where the attacker is oblivious to the learning algorithm used by the agent and the dynamics of the environment. We demonstrate the intrinsic vulnerability of state-of-the-art DRL algorithms by designing a general, black-box reward poisoning framework called adversarial MDP attacks. We instantiate our framework to construct two new attacks which only corrupt the rewards for a small fraction of the total training timesteps and make the agent learn a low-performing policy. We provide a theoretical analysis of the efficiency of our attack and perform an extensive empirical evaluation. Our results show that our attacks efficiently poison agents learning in several popular classical control and MuJoCo environments with a variety of state-of-the-art DRL algorithms, such as DQN, PPO, SAC, etc.

arxiv情報

著者 Yinglun Xu,Qi Zeng,Gagandeep Singh
発行日 2023-04-28 01:05:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CR, cs.LG パーマリンク