要約
強化学習 (RL) は、安全性が重要な分野で目覚ましい成功を収めていますが、敵対的な攻撃によって弱まる可能性があります。
最近の研究では、堅牢性を高めるために「平滑化ポリシー」が導入されています。
しかし、報酬総額の上限を証明する証明可能な保証を確立することは依然として困難です。
以前の方法は主に、リプシッツ連続性を使用して境界を計算するか、特定のしきい値を超える累積報酬の確率を計算することに依存していました。
ただし、これらの手法は RL エージェントの観測における連続的な摂動にのみ適しており、$l_2$ ノルムによって制限される摂動に限定されます。
これらの制限に対処するために、本論文では、さまざまな $l_p$-norm 境界摂動の下で平滑化されたポリシーの累積報酬を直接認証できる一般的なブラックボックス認証方法を提案します。
さらに、アクション空間の摂動を証明する方法論を拡張します。
私たちのアプローチでは、f ダイバージェンスを利用して元の分布と摂動分布の区別を測定し、その後、凸最適化問題を解くことによって制限される認証を決定します。
包括的な理論分析を提供し、複数の環境で十分な実験を実行します。
私たちの結果は、私たちの方法が平均累積報酬の認定された下限を改善するだけでなく、最先端の技術よりも優れた効率を実証していることを示しています。
要約(オリジナル)
Reinforcement Learning (RL) has achieved remarkable success in safety-critical areas, but it can be weakened by adversarial attacks. Recent studies have introduced ‘smoothed policies’ in order to enhance its robustness. Yet, it is still challenging to establish a provable guarantee to certify the bound of its total reward. Prior methods relied primarily on computing bounds using Lipschitz continuity or calculating the probability of cumulative reward above specific thresholds. However, these techniques are only suited for continuous perturbations on the RL agent’s observations and are restricted to perturbations bounded by the $l_2$-norm. To address these limitations, this paper proposes a general black-box certification method capable of directly certifying the cumulative reward of the smoothed policy under various $l_p$-norm bounded perturbations. Furthermore, we extend our methodology to certify perturbations on action spaces. Our approach leverages f-divergence to measure the distinction between the original distribution and the perturbed distribution, subsequently determining the certification bound by solving a convex optimisation problem. We provide a comprehensive theoretical analysis and run sufficient experiments in multiple environments. Our results show that our method not only improves the certified lower bound of mean cumulative reward but also demonstrates better efficiency than state-of-the-art techniques.
arxiv情報
著者 | Ronghui Mu,Leandro Soriano Marcolino,Tianle Zhang,Yanghao Zhang,Xiaowei Huang,Wenjie Ruan |
発行日 | 2023-12-12 12:19:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google