Recover Triggered States: Protect Model Against Backdoor Attack in Reinforcement Learning

要約

タイトル: 強化学習においてバックドア攻撃からモデルを保護するための状態回復手法の提案
要約:
– バックドア攻撃は悪意のあるユーザーが環境を操作したりトレーニングデータを改ざんしたりすることによって、トレーニングされたエージェントにバックドアを挿入するものである。
– このような攻撃は強化学習システムの信頼性を脅かし、様々な重要な分野での潜在的に壊滅的な結果につながる可能性がある。
– しかしながら、比較的に限られた研究しか、強化学習におけるバックドア攻撃に対する効果的な防衛手段について検証していない。
– 本論文では、被害エージェントをバックドア攻撃から効果的に保護する新しい手法である「回復トリガー状態 (RTS)」を提案する。
– RTS は、動的モデルを近似する代理ネットワークを構築することを含み、開発者がトリガーを提示することでエージェントに隠されたバックドアを活性化させる攻撃者から環境をトリガーされた状態からクリーンな状態に回復することが可能となる。
– 代理ネットワークをトレーニングする際に、エージェントのアクション情報を組み込むことで、予測された状態でエージェントが取るアクションと実際の状態で取るアクションとの間の不一致を減らすことができる。
– RTSは、単一エージェントの設定におけるバックドア攻撃に対する防御手段として初めてのアプローチである。
– 結果として、RTSを使用することで、バックドア攻撃の下で累積報酬が1.41%しか減少しなかったことが示された。

要約(オリジナル)

A backdoor attack allows a malicious user to manipulate the environment or corrupt the training data, thus inserting a backdoor into the trained agent. Such attacks compromise the RL system’s reliability, leading to potentially catastrophic results in various key fields. In contrast, relatively limited research has investigated effective defenses against backdoor attacks in RL. This paper proposes the Recovery Triggered States (RTS) method, a novel approach that effectively protects the victim agents from backdoor attacks. RTS involves building a surrogate network to approximate the dynamics model. Developers can then recover the environment from the triggered state to a clean state, thereby preventing attackers from activating backdoors hidden in the agent by presenting the trigger. When training the surrogate to predict states, we incorporate agent action information to reduce the discrepancy between the actions taken by the agent on predicted states and the actions taken on real states. RTS is the first approach to defend against backdoor attacks in a single-agent setting. Our results show that using RTS, the cumulative reward only decreased by 1.41% under the backdoor attack.

arxiv情報

著者 Hao Chen,Chen Gong,Yizhe Wang,Xinwen Hou
発行日 2023-04-10 06:32:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク