Policy Gradient Algorithms Implicitly Optimize by Continuation

要約

強化学習におけるポリシーの直接最適化は、通常、確率的勾配上昇によってポリシーパラメータを最適化するポリシー勾配アルゴリズムで解決される。本論文は、これらのアルゴリズムの新しい理論的解釈と正当性を提供する。まず、直接的な政策最適化を、継続による最適化の枠組みで定式化する。後者は非凸関数を最適化するための枠組みであり、継続と呼ばれる一連の代理目的関数が局所的に最適化される。第二に、アフィンガウスポリシーを最適化し、エントロピー正則化を行うことは、継続による決定論的ポリシーの最適化を暗黙のうちに行っていると解釈できることを示す。これらの理論的結果に基づき、政策勾配アルゴリズムにおける探索は、手元の政策のリターンの継続を計算することからなり、政策の分散は、政策のリターンを最大化するのではなく、局所極値を回避するように適応された履歴依存関数でなければならないと主張する。

要約(オリジナル)

Direct policy optimization in reinforcement learning is usually solved with policy-gradient algorithms, which optimize policy parameters via stochastic gradient ascent. This paper provides a new theoretical interpretation and justification of these algorithms. First, we formulate direct policy optimization in the optimization by continuation framework. The latter is a framework for optimizing nonconvex functions where a sequence of surrogate objective functions, called continuations, are locally optimized. Second, we show that optimizing affine Gaussian policies and performing entropy regularization can be interpreted as implicitly optimizing deterministic policies by continuation. Based on these theoretical results, we argue that exploration in policy-gradient algorithms consists in computing a continuation of the return of the policy at hand, and that the variance of policies should be history-dependent functions adapted to avoid local extrema rather than to maximize the return of the policy.

arxiv情報

著者 Adrien Bolland,Gilles Louppe,Damien Ernst
発行日 2023-05-11 14:50:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク