State-Aware Perturbation Optimization for Robust Deep Reinforcement Learning

要約

最近、Deep Renection Learning(DRL)は、ロボット制御の有望なアプローチとして浮上しています。
ただし、実際のロボットにおけるDRLの展開は、環境摂動に対する感受性によって妨げられています。
既存のWhiteboxの敵対的攻撃は、局所勾配情報に依存し、すべての州で均一な摂動を適用してDRLの堅牢性を評価しますが、時間的ダイナミクスと状態固有の脆弱性を説明できません。
上記の課題に対抗するために、最初に敵対的な犠牲者ダイナミクスマルコフ決定プロセス(AVD-MDP)を確立することにより、DRLにおけるホワイトボックス攻撃の理論分析を実施し、攻撃を成功させるために必要かつ十分な条件を導き出します。
これに基づいて、摂動のステルス性と状態の訪問分散を最適化するために、Starという名前の選択的な補強敵攻撃方法を提案します。
Starは、最初にソフトマスクベースの状態ターゲットメカニズムを採用して、冗長摂動を最小限に抑え、ステルス性と攻撃の有効性を高めます。
次に、情報理論最適化の目的を組み込んで、摂動、環境状態、および被害者の行動の間の相互情報を最大化し、被害者エージェントを脆弱な状態に導き、最大限の収益削減を行う分散状態視力分布を確保します。
広範な実験は、Starが最先端のベンチマークよりも優れていることを示しています。

要約(オリジナル)

Recently, deep reinforcement learning (DRL) has emerged as a promising approach for robotic control. However, the deployment of DRL in real-world robots is hindered by its sensitivity to environmental perturbations. While existing whitebox adversarial attacks rely on local gradient information and apply uniform perturbations across all states to evaluate DRL robustness, they fail to account for temporal dynamics and state-specific vulnerabilities. To combat the above challenge, we first conduct a theoretical analysis of white-box attacks in DRL by establishing the adversarial victim-dynamics Markov decision process (AVD-MDP), to derive the necessary and sufficient conditions for a successful attack. Based on this, we propose a selective state-aware reinforcement adversarial attack method, named STAR, to optimize perturbation stealthiness and state visitation dispersion. STAR first employs a soft mask-based state-targeting mechanism to minimize redundant perturbations, enhancing stealthiness and attack effectiveness. Then, it incorporates an information-theoretic optimization objective to maximize mutual information between perturbations, environmental states, and victim actions, ensuring a dispersed state-visitation distribution that steers the victim agent into vulnerable states for maximum return reduction. Extensive experiments demonstrate that STAR outperforms state-of-the-art benchmarks.

arxiv情報

著者 Zongyuan Zhang,Tianyang Duan,Zheng Lin,Dong Huang,Zihan Fang,Zekai Sun,Ling Xiong,Hongbin Liang,Heming Cui,Yong Cui
発行日 2025-03-26 15:00:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NI, cs.SY, eess.SY パーマリンク