Adversarial Inception for Bounded Backdoor Poisoning in Deep Reinforcement Learning

要約

最近の研究では、トレーニング時のバックドア ポイズニング攻撃に対する深層強化学習 (DRL) アルゴリズムの脆弱性が実証されています。
これらの攻撃は、エージェントがトレーニング中に意図したタスクを解決できるようにしながら、展開中に固定トリガーを観察すると、エージェントに事前に決定された敵対的な動作を誘発します。
以前の攻撃は、これらの目的の両方を達成するために、エージェントの報酬に対する任意の大きな摂動に依存しており、検出される可能性が残されていました。
したがって、この研究では、エージェントの報酬の変更を最小限に抑えながら最先端のパフォーマンスを達成する、DRL に対する新しいクラスのバックドア攻撃を提案します。
これらの「インセプション」攻撃は、エージェントが選択したアクションとトレーニング中に環境で実行される実際のアクションとの間の分離を誘導することにより、ターゲットとなった敵対的な行動を高い利益に結びつけるようにエージェントをトレーニングします。
私たちはこれらの攻撃を正式に定義し、両方の敵対的な目的を達成できることを証明しています。
次に、限られた報酬制約の下で以前の攻撃を大幅に上回るオンライン開始攻撃を考案します。

要約(オリジナル)

Recent works have demonstrated the vulnerability of Deep Reinforcement Learning (DRL) algorithms against training-time, backdoor poisoning attacks. These attacks induce pre-determined, adversarial behavior in the agent upon observing a fixed trigger during deployment while allowing the agent to solve its intended task during training. Prior attacks rely on arbitrarily large perturbations to the agent’s rewards to achieve both of these objectives – leaving them open to detection. Thus, in this work, we propose a new class of backdoor attacks against DRL which achieve state of the art performance while minimally altering the agent’s rewards. These ‘inception’ attacks train the agent to associate the targeted adversarial behavior with high returns by inducing a disjunction between the agent’s chosen action and the true action executed in the environment during training. We formally define these attacks and prove they can achieve both adversarial objectives. We then devise an online inception attack which significantly out-performs prior attacks under bounded reward constraints.

arxiv情報

著者 Ethan Rathbun,Christopher Amato,Alina Oprea
発行日 2024-10-21 16:27:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク