A Novel Framework for Policy Mirror Descent with General Parametrization and Linear Convergence

要約

Trust Region Policy Optimization や Policy Mirror Descent などの適用強化学習における最新のポリシー最適化手法は、多くの場合、ポリシー勾配フレームワークに基づいています。
このクラスのアルゴリズム、特に表形式の設定では理論的な保証が確立されていますが、一般的なパラメータ化スキームの使用はほとんど正当化されていません。
この作業では、一般的なパラメーター化に自然に対応するミラー降下に基づくポリシー最適化の新しいフレームワークを紹介します。
私たちのスキームによって誘導されたポリシークラスは、既知のクラスを回復します。
ミラー マップの選択に応じて、新しいものを生成します。
一般的なミラー マップとパラメーター化クラスの場合、値関数の更新の準単調性、グローバルな線形収束率を確立し、パスに沿ったアルゴリズムの予想されるブレグマン発散の合計を制限します。
フレームワークが一般的なパラメーター化スキームに対応できることを示すために、浅いニューラル ネットワークを含むケース スタディを紹介します。

要約(オリジナル)

Modern policy optimization methods in applied reinforcement learning, such as Trust Region Policy Optimization and Policy Mirror Descent, are often based on the policy gradient framework. While theoretical guarantees have been established for this class of algorithms, particularly in the tabular setting, the use of a general parametrization scheme remains mostly unjustified. In this work, we introduce a novel framework for policy optimization based on mirror descent that naturally accommodates general parametrizations. The policy class induced by our scheme recovers known classes, e.g. softmax, and it generates new ones, depending on the choice of the mirror map. For a general mirror map and parametrization class, we establish the quasi-monotonicity of the updates in value function, global linear convergence rates, and we bound the total expected Bregman divergence of the algorithm along its path. To showcase the ability of our framework to accommodate general parametrization schemes, we present a case study involving shallow neural networks.

arxiv情報

著者 Carlo Alfano,Rui Yuan,Patrick Rebeschini
発行日 2023-02-20 18:54:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, math.ST, stat.ML, stat.TH パーマリンク