Robust Model-Based Reinforcement Learning with an Adversarial Auxiliary Model

要約

強化学習は、ロボット工学、ボードゲーム、古典的なアーケード ゲームなど、さまざまな困難な問題において優れたパフォーマンスを示しています。
ただし、学習されたポリシーに堅牢性と安全性が欠如しているため、現実世界への適用が妨げられる可能性があります。
より具体的には、特定のマルコフ決定プロセス (MDP) でトレーニングされた RL エージェントは、ほぼ同一の MDP で適切なパフォーマンスを発揮するのに苦労することがよくあります。
この問題に対処するために、モデルベースの設定でロバスト MDP (RMDP) のフレームワークを採用し、新しい学習済み遷移モデルを導入します。
私たちの方法には、特に、カルバック・ライブラーの不確実性セット内の最悪の場合の MDP を推定するために、敵対的に更新された補助的な悲観的モデルが組み込まれています。
いくつかの既存の作品と比較して、私たちの作品は、パラメトリック シミュレーターの必要性など、トレーニング環境に追加の条件を課しません。
ポリシーの堅牢性を高める上で提案された悲観的モデルの有効性をテストするために、それをロバスト モデルベース ポリシー最適化 (RMBPO) と呼ばれる実用的な RL アルゴリズムに統合します。
私たちの実験結果は、補助モデルが歪んだ MDP で学習されたポリシーのパフォーマンスを強化することにより、高次元 MuJoCo 制御タスクにおけるポリシーの堅牢性が顕著に向上したことを示しています。
悲観主義がどのように達成されるかを調べるために、提案された補助世界モデルと名目モデルの間の学習された偏差をさらに調査します。
悲観的な世界モデルを学習し、ポリシーの堅牢性の向上におけるその役割を実証することで、私たちの研究は、(モデルベースの)RL をより堅牢にすることに貢献します。

要約(オリジナル)

Reinforcement learning has demonstrated impressive performance in various challenging problems such as robotics, board games, and classical arcade games. However, its real-world applications can be hindered by the absence of robustness and safety in the learned policies. More specifically, an RL agent that trains in a certain Markov decision process (MDP) often struggles to perform well in nearly identical MDPs. To address this issue, we employ the framework of Robust MDPs (RMDPs) in a model-based setting and introduce a novel learned transition model. Our method specifically incorporates an auxiliary pessimistic model, updated adversarially, to estimate the worst-case MDP within a Kullback-Leibler uncertainty set. In comparison to several existing works, our work does not impose any additional conditions on the training environment, such as the need for a parametric simulator. To test the effectiveness of the proposed pessimistic model in enhancing policy robustness, we integrate it into a practical RL algorithm, called Robust Model-Based Policy Optimization (RMBPO). Our experimental results indicate a notable improvement in policy robustness on high-dimensional MuJoCo control tasks, with the auxiliary model enhancing the performance of the learned policy in distorted MDPs. We further explore the learned deviation between the proposed auxiliary world model and the nominal model, to examine how pessimism is achieved. By learning a pessimistic world model and demonstrating its role in improving policy robustness, our research contributes towards making (model-based) RL more robust.

arxiv情報

著者 Siemen Herremans,Ali Anwar,Siegfried Mercelis
発行日 2024-07-01 13:35:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク