A Theoretical Analysis of Optimistic Proximal Policy Optimization in Linear Markov Decision Processes

要約

近接政策最適化(PPO)アルゴリズムは、強化学習(RL)の分野で最も繁栄している手法の一つである。その成功にもかかわらず、PPOの理論的理解は不十分なままである。特に、関数近似を用いたRLにおいて最も単純なモデルである線形マルコフ決定過程(MDP)を、PPOやその楽観的変種が効果的に解けるかどうかは不明である。このギャップを埋めるために、完全情報フィードバックを持つエピソード敵対的線形MDPに対するPPOの楽観的変種を提案し、$tilde{mathcal{O}} (d^{3/4}H^2K^{3/4})$ regretを確立する。ここで、$d$は線形MDPの周囲次元、$H$は各エピソードの長さ、$K$はエピソードの数である。既存のポリシーベースのアルゴリズムと比較して、我々は確率的線形MDPと完全情報付き敵対的線形MDPの両方において、最先端の後悔の境界を達成することができた。さらに、我々のアルゴリズム設計は、新しいマルチバッチ更新機構を特徴としており、理論解析は、価値とポリシークラスの新しい被覆数論証を利用しており、これらは独立した興味を持つ可能性がある。

要約(オリジナル)

The proximal policy optimization (PPO) algorithm stands as one of the most prosperous methods in the field of reinforcement learning (RL). Despite its success, the theoretical understanding of PPO remains deficient. Specifically, it is unclear whether PPO or its optimistic variants can effectively solve linear Markov decision processes (MDPs), which are arguably the simplest models in RL with function approximation. To bridge this gap, we propose an optimistic variant of PPO for episodic adversarial linear MDPs with full-information feedback, and establish a $\tilde{\mathcal{O}}(d^{3/4}H^2K^{3/4})$ regret for it. Here $d$ is the ambient dimension of linear MDPs, $H$ is the length of each episode, and $K$ is the number of episodes. Compared with existing policy-based algorithms, we achieve the state-of-the-art regret bound in both stochastic linear MDPs and adversarial linear MDPs with full information. Additionally, our algorithm design features a novel multi-batched updating mechanism and the theoretical analysis utilizes a new covering number argument of value and policy classes, which might be of independent interest.

arxiv情報

著者 Han Zhong,Tong Zhang
発行日 2023-05-15 17:55:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, math.OC, stat.ML パーマリンク