要約
近接ポリシー最適化 (PPO) アルゴリズムは、強化学習 (RL) の分野で最も普及している手法の 1 つです。
PPO の成功にもかかわらず、PPO の理論的理解は依然として不十分です。
具体的には、PPO またはその楽観的バリアントが線形マルコフ決定プロセス (MDP) を効果的に解決できるかどうかは不明であり、MDP はおそらく関数近似を使用した RL で最も単純なモデルです。
このギャップを埋めるために、完全な情報フィードバックを備えた一時的な敵対的線形 MDP に対する PPO の楽観的な変形を提案し、$\tilde{\mathcal{O}}(d^{3/4}H^2K^{3)
/4})$ 残念です。
ここで、$d$ は線形 MDP のアンビエント ディメンション、$H$ は各エピソードの長さ、$K$ はエピソードの数です。
既存のポリシーベースのアルゴリズムと比較して、確率的線形 MDP と完全な情報を備えた敵対的線形 MDP の両方で最先端のリグレス バインドを実現します。
さらに、私たちのアルゴリズム設計は、新しいマルチバッチ更新メカニズムを特徴とし、理論分析では、独立して興味深い可能性がある値クラスとポリシークラスの新しいカバー数引数を利用します。
要約(オリジナル)
The proximal policy optimization (PPO) algorithm stands as one of the most prosperous methods in the field of reinforcement learning (RL). Despite its success, the theoretical understanding of PPO remains deficient. Specifically, it is unclear whether PPO or its optimistic variants can effectively solve linear Markov decision processes (MDPs), which are arguably the simplest models in RL with function approximation. To bridge this gap, we propose an optimistic variant of PPO for episodic adversarial linear MDPs with full-information feedback, and establish a $\tilde{\mathcal{O}}(d^{3/4}H^2K^{3/4})$ regret for it. Here $d$ is the ambient dimension of linear MDPs, $H$ is the length of each episode, and $K$ is the number of episodes. Compared with existing policy-based algorithms, we achieve the state-of-the-art regret bound in both stochastic linear MDPs and adversarial linear MDPs with full information. Additionally, our algorithm design features a novel multi-batched updating mechanism and the theoretical analysis utilizes a new covering number argument of value and policy classes, which might be of independent interest.
arxiv情報
著者 | Han Zhong,Tong Zhang |
発行日 | 2023-06-08 11:53:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google