Detecting Adversarial Directions in Deep Reinforcement Learning to Make Robust Decisions

要約

強化学習アルゴリズムの設計における複数の進歩により、非常に複雑な状態表現を使用した MDP での学習が現在可能になっています。
ただし、この複雑さの増加とさらに観測の次元の増加は、敵対的な攻撃 (つまり、観測空間内で最悪の方向に沿って移動すること) によって利用される可能性がある不安定性を犠牲にして生じました。
このポリシーの不安定性の問題を解決するために、ディープ ニューラル ポリシー損失の局所二次近似を介してこれらの非ロバストな方向の存在を検出する新しい方法を提案します。
私たちの方法は、安全な観察と敵対的な観察の間の基本的なカットオフの理論的基礎を提供します。
さらに、私たちの手法は計算効率が高く、最悪の場合の方向を生成するために使用される方法に依存しません。
私たちは、アーケード学習環境で、いくつかの異なる敵対的攻撃手法を使用した広範な実験を行っています。
最も重要なことは、私たちが提案した方法を回避するために非ロバストな方向が明示的に最適化されている設定でも、私たちのアプローチの有効性を実証したことです。

要約(オリジナル)

Learning in MDPs with highly complex state representations is currently possible due to multiple advancements in reinforcement learning algorithm design. However, this incline in complexity, and furthermore the increase in the dimensions of the observation came at the cost of volatility that can be taken advantage of via adversarial attacks (i.e. moving along worst-case directions in the observation space). To solve this policy instability problem we propose a novel method to detect the presence of these non-robust directions via local quadratic approximation of the deep neural policy loss. Our method provides a theoretical basis for the fundamental cut-off between safe observations and adversarial observations. Furthermore, our technique is computationally efficient, and does not depend on the methods used to produce the worst-case directions. We conduct extensive experiments in the Arcade Learning Environment with several different adversarial attack techniques. Most significantly, we demonstrate the effectiveness of our approach even in the setting where non-robust directions are explicitly optimized to circumvent our proposed method.

arxiv情報

著者 Ezgi Korkmaz,Jonah Brown-Cohen
発行日 2023-06-09 13:11:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG, stat.ML パーマリンク