Average-Constrained Policy Optimization

要約

制約のある強化学習 (RL) は、さまざまなアプリケーションにとってますます重要な問題になっています。
多くの場合、平均基準は割引基準よりも適切です。
しかし、平均的な基準に制約された MDP の RL は依然として困難な問題です。
割引制約付き RL 問題用に設計されたアルゴリズムは、平均的な CMDP 設定では適切に動作しないことがよくあります。
この論文では、平均基準を使用した制約付き MDP に対する関数近似アルゴリズムを使用した新しいポリシー最適化を紹介します。
Average-Constrained Policy Optimization (ACPO) アルゴリズムは、信頼領域メソッドに基づく有名な PPO タイプのアルゴリズムからインスピレーションを得ています。
平均的な MDP の基本的な感度理論を開発し、アルゴリズムの設計で対応する境界を使用します。
当社はそのパフォーマンスについて理論的な保証を提供し、さまざまな困難な MuJoCo 環境での広範な実験作業を通じて、平均的な CMDP 設定に適合した他の最先端のアルゴリズムと比較した場合に、アルゴリズムの優れたパフォーマンスを示しています。

要約(オリジナル)

Reinforcement Learning (RL) with constraints is becoming an increasingly important problem for various applications. Often, the average criterion is more suitable than the discounted criterion. Yet, RL for average criterion-constrained MDPs remains a challenging problem. Algorithms designed for discounted constrained RL problems often do not perform well for the average CMDP setting. In this paper, we introduce a new policy optimization with function approximation algorithm for constrained MDPs with the average criterion. The Average-Constrained Policy Optimization (ACPO) algorithm is inspired by the famed PPO-type algorithms based on trust region methods. We develop basic sensitivity theory for average MDPs, and then use the corresponding bounds in the design of the algorithm. We provide theoretical guarantees on its performance, and through extensive experimental work in various challenging MuJoCo environments, show the superior performance of the algorithm when compared to other state-of-the-art algorithms adapted for the average CMDP setting.

arxiv情報

著者 Akhil Agnihotri,Rahul Jain,Haipeng Luo
発行日 2023-05-17 17:48:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク