要約
TRPO や PPO などの強化学習における最新のポリシー最適化手法の成功は、パラメーター化されたポリシーの使用によるものです。
ただし、このクラスのアルゴリズム、特に表形式の設定では理論的な保証が確立されていますが、一般的なパラメータ化スキームの使用は依然としてほとんど不当です。
この研究では、一般的なパラメータ化に自然に対応する、ミラー降下に基づくポリシー最適化のための新しいフレームワークを導入します。
私たちのスキームによって誘導されたポリシー クラスは、既知のクラス (例: ソフトマックス) を回復し、ミラー マップの選択に応じて新しいクラスを生成します。
私たちのフレームワークを使用すると、一般的なパラメーター化を含むポリシー勾配ベースの手法の線形収束を保証する最初の結果が得られます。
一般的なパラメータ化スキームに対応するフレームワークの能力を実証するために、浅いニューラル ネットワークを使用した場合のサンプルの複雑さを提供し、それが以前の最良の結果からの改善を示すことを示し、古典的な制御タスクに関する理論的主張の有効性を経験的に検証します。
要約(オリジナル)
Modern policy optimization methods in reinforcement learning, such as TRPO and PPO, owe their success to the use of parameterized policies. However, while theoretical guarantees have been established for this class of algorithms, especially in the tabular setting, the use of general parameterization schemes remains mostly unjustified. In this work, we introduce a novel framework for policy optimization based on mirror descent that naturally accommodates general parameterizations. The policy class induced by our scheme recovers known classes, e.g., softmax, and generates new ones depending on the choice of mirror map. Using our framework, we obtain the first result that guarantees linear convergence for a policy-gradient-based method involving general parameterization. To demonstrate the ability of our framework to accommodate general parameterization schemes, we provide its sample complexity when using shallow neural networks, show that it represents an improvement upon the previous best results, and empirically validate the effectiveness of our theoretical claims on classic control tasks.
arxiv情報
著者 | Carlo Alfano,Rui Yuan,Patrick Rebeschini |
発行日 | 2024-02-13 17:18:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google