要約
制約付き MDP (CMDP) の強化学習 (RL) は、さまざまなアプリケーションにとってますます重要な問題となっています。
多くの場合、平均基準は割引基準よりも適切です。
しかし、平均 CMDP (ACMDP) の RL は依然として困難な問題です。
割引制約付き RL 問題用に設計されたアルゴリズムは、平均的な CMDP 設定では適切に動作しないことがよくあります。
この論文では、平均基準を使用した制約付き MDP に対する関数近似アルゴリズムを使用した新しいポリシー最適化を紹介します。
Average-Constrained Policy Optimization (ACPO) アルゴリズムは、信頼領域ベースのポリシー最適化アルゴリズムからインスピレーションを得ています。
平均 CMDP の基本的な感度理論を開発し、アルゴリズムの設計で対応する境界を使用します。
当社はそのパフォーマンスについて理論的な保証を提供し、さまざまな困難な OpenAI Gym 環境での広範な実験作業を通じて、ACMDP に適合した他の最先端のアルゴリズムと比較した場合にその優れた経験的パフォーマンスを示しています。
要約(オリジナル)
Reinforcement Learning (RL) for constrained MDPs (CMDPs) is an increasingly important problem for various applications. Often, the average criterion is more suitable than the discounted criterion. Yet, RL for average-CMDPs (ACMDPs) remains a challenging problem. Algorithms designed for discounted constrained RL problems often do not perform well for the average CMDP setting. In this paper, we introduce a new policy optimization with function approximation algorithm for constrained MDPs with the average criterion. The Average-Constrained Policy Optimization (ACPO) algorithm is inspired by trust region-based policy optimization algorithms. We develop basic sensitivity theory for average CMDPs, and then use the corresponding bounds in the design of the algorithm. We provide theoretical guarantees on its performance, and through extensive experimental work in various challenging OpenAI Gym environments, show its superior empirical performance when compared to other state-of-the-art algorithms adapted for the ACMDPs.
arxiv情報
著者 | Akhil Agnihotri,Rahul Jain,Haipeng Luo |
発行日 | 2024-05-24 17:43:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google