Robust Reinforcement Learning in Continuous Control Tasks with Uncertainty Set Regularization

要約

強化学習 (RL) は、環境摂動下での一般化とロバスト性に欠けていると認識されており、そのため実世界のロボット工学への応用が過度に制限されています。
以前の研究では、値関数に正則化を追加することは、不確実な遷移を持つ堅牢なポリシーを学習することと同等であると主張していました。
正則化と堅牢性の変換は、そのシンプルさと効率性の点で魅力的ですが、継続的な制御タスクがまだ不足しています。
この論文では、遷移のパラメータ空間に設定される不確実性を定式化することにより、$\textbf{U}$ncertainty $\textbf{S}$et $\textbf{R}$egularizer (USR) という名前の新しい正則化子を提案します。
関数。
特に、USR は既存の RL フレームワークに接続できるほどの柔軟性を備えています。
未知の不確実性セットに対処するために、価値関数に基づいてそれらを生成する新しい敵対的アプローチをさらに提案します。
実世界強化学習 (RWRL) ベンチマークで USR を評価し、摂動のあるテスト環境における堅牢なパフォーマンスの向上を実証します。

要約(オリジナル)

Reinforcement learning (RL) is recognized as lacking generalization and robustness under environmental perturbations, which excessively restricts its application for real-world robotics. Prior work claimed that adding regularization to the value function is equivalent to learning a robust policy with uncertain transitions. Although the regularization-robustness transformation is appealing for its simplicity and efficiency, it is still lacking in continuous control tasks. In this paper, we propose a new regularizer named $\textbf{U}$ncertainty $\textbf{S}$et $\textbf{R}$egularizer (USR), by formulating the uncertainty set on the parameter space of the transition function. In particular, USR is flexible enough to be plugged into any existing RL framework. To deal with unknown uncertainty sets, we further propose a novel adversarial approach to generate them based on the value function. We evaluate USR on the Real-world Reinforcement Learning (RWRL) benchmark, demonstrating improvements in the robust performance for perturbed testing environments.

arxiv情報

著者 Yuan Zhang,Jianhong Wang,Joschka Boedecker
発行日 2023-12-05 13:44:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY パーマリンク