Robust Reinforcement Learning through Efficient Adversarial Herding

要約

強化学習 (RL) はポリシー設計のゴールドスタンダードとみなされていますが、さまざまなシナリオで常に堅牢なソリューションを提供するとは限りません。
これにより、環境が潜在的な外乱にさらされると、パフォーマンスが大幅に低下する可能性があります。
2 人のプレーヤーの最大最小ゲームを使用した敵対的トレーニングは、RL エージェントの堅牢性を高めるのに効果的であることが証明されています。
この研究では、内部最適化問題の難しさを ($\textit{i}$) 解決するために、敵対者のグループを含む敵対的群れを導入することで 2 人用ゲームを拡張します。
{ii}$) 可能性の低いシナリオを含む可能性のある敵対候補セットの選択によって引き起こされる悲観的過ぎる可能性。
まず、敵対的な群れが内部最適化問題を効率的に近似できることを証明します。
次に、内部最適化における最悪の場合のパフォーマンスを、最悪の $k$ の敵対者に対する平均パフォーマンスに置き換えることで、2 番目の問題に対処します。
提案手法を複数の MuJoCo 環境で評価します。
実験結果は、私たちのアプローチがより堅牢なポリシーを一貫して生成することを示しています。

要約(オリジナル)

Although reinforcement learning (RL) is considered the gold standard for policy design, it may not always provide a robust solution in various scenarios. This can result in severe performance degradation when the environment is exposed to potential disturbances. Adversarial training using a two-player max-min game has been proven effective in enhancing the robustness of RL agents. In this work, we extend the two-player game by introducing an adversarial herd, which involves a group of adversaries, in order to address ($\textit{i}$) the difficulty of the inner optimization problem, and ($\textit{ii}$) the potential over pessimism caused by the selection of a candidate adversary set that may include unlikely scenarios. We first prove that adversarial herds can efficiently approximate the inner optimization problem. Then we address the second issue by replacing the worst-case performance in the inner optimization with the average performance over the worst-$k$ adversaries. We evaluate the proposed method on multiple MuJoCo environments. Experimental results demonstrate that our approach consistently generates more robust policies.

arxiv情報

著者 Juncheng Dong,Hao-Lun Hsu,Qitong Gao,Vahid Tarokh,Miroslav Pajic
発行日 2023-06-12 20:21:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク