要約
この論文では、有限状態およびアクションのマルコフ決定プロセス (MDP) および強化学習 (RL) に対して、アドバンテージ ギャップ関数と呼ばれる新しい終了基準を提案します。
このアドバンテージ ギャップ関数をステップ サイズ ルールの設計に組み込み、最適なポリシーの定常状態分布に依存しない新しい線形収束率を導出することにより、ポリシー勾配法が強多項式時間で MDP を解決できることを実証します。
私たちの知る限り、このような強力な収束特性が政策勾配法で確立されたのはこれが初めてです。
さらに、政策勾配の確率的推定値のみが利用可能な確率的設定では、アドバンテージギャップ関数が個々の状態ごとに最適性ギャップの近似値を提供し、すべての状態で線形未満の収束率を示すことを示します。
アドバンテージギャップ関数は確率論的な場合に簡単に推定でき、ポリシー値の簡単に計算できる上限と組み合わせると、ポリシー勾配法によって生成されたソリューションを検証する便利な方法が提供されます。
したがって、当社の開発は RL の最適性の原則に基づいた計算可能な尺度を提供しますが、現在の実践は最適性の証明書のないアルゴリズム間の比較またはベースラインの比較に依存する傾向があります。
要約(オリジナル)
This paper proposes a novel termination criterion, termed the advantage gap function, for finite state and action Markov decision processes (MDP) and reinforcement learning (RL). By incorporating this advantage gap function into the design of step size rules and deriving a new linear rate of convergence that is independent of the stationary state distribution of the optimal policy, we demonstrate that policy gradient methods can solve MDPs in strongly-polynomial time. To the best of our knowledge, this is the first time that such strong convergence properties have been established for policy gradient methods. Moreover, in the stochastic setting, where only stochastic estimates of policy gradients are available, we show that the advantage gap function provides close approximations of the optimality gap for each individual state and exhibits a sublinear rate of convergence at every state. The advantage gap function can be easily estimated in the stochastic case, and when coupled with easily computable upper bounds on policy values, they provide a convenient way to validate the solutions generated by policy gradient methods. Therefore, our developments offer a principled and computable measure of optimality for RL, whereas current practice tends to rely on algorithm-to-algorithm or baselines comparisons with no certificate of optimality.
arxiv情報
著者 | Caleb Ju,Guanghui Lan |
発行日 | 2024-12-02 10:15:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google