Policy Mirror Descent Inherently Explores Action Space

要約

最適な $\mathcal{O}(1/\epsilon^2)$ サンプルの複雑さを達成するポリシーに準拠した一次法の計算効率の高い探索戦略の設計は、マルコフ決定プロセス (MDP) を解決するために開かれたままです。
この原稿は、状態空間の探索が MDP 構造によって暗示されるときはいつでも、洗練された探索戦略の必要性がほとんどないように思われることを示すことによって、単純さの観点からこの質問に対する答えを提供します。
確率的ポリシー ミラー降下と呼ばれる確率的ポリシー勾配法を再検討し、無限の地平線に適用し、有限の状態とアクション空間を使用して割引 MDP を適用します。
SPMD に付随して、2 つのポリシーに基づいた評価演算子を提示します。どちらも、明示的な調査や何らかの形の介入なしで、軌跡収集のポリシーに従っているだけです。
値ベースの推定と呼ばれる最初の評価演算子を使用する SPMD は、カルバック ライブラー (KL) 発散に合わせて調整されます。
生成されたポリシーの状態空間のマルコフ連鎖が非減少の最小訪問測定値と均一に混合されている場合、 $\tilde{\mathcal{O}}( 1 / \epsilon^2)$ サンプルの複雑さは線形依存で得られます
アクションスペースの広さについて。
切り捨てられたポリシー上のモンテカルロという名前の 2 番目の評価演算子を使用した SPMD は、$\tilde{\mathcal{O}}(\mathcal{H}_{\mathcal{D}} / \epsilon^2)$ サンプルの複雑さを達成します。
、生成されたポリシーのステート チェーンに関する同じ仮定を使用します。
$\mathcal{H}_{\mathcal{D}}$ を有効地平線と行動空間のサイズの発散依存関数として特徴付けます。これは、KL発散の後者の2つの量の指数依存性につながります
、および負の Tsallis エントロピーによって引き起こされる発散の多項式依存性。
これらの得られたサンプルの複雑さは、明示的な探索を行わないポリシー上の確率的ポリシー勾配法の中で新しいようです。

要約(オリジナル)

Designing computationally efficient exploration strategies for on-policy first-order methods that attain optimal $\mathcal{O}(1/\epsilon^2)$ sample complexity remains open for solving Markov decision processes (MDP). This manuscript provides an answer to this question from a perspective of simplicity, by showing that whenever exploration over the state space is implied by the MDP structure, there seems to be little need for sophisticated exploration strategies. We revisit a stochastic policy gradient method, named stochastic policy mirror descent, applied to the infinite horizon, discounted MDP with finite state and action spaces. Accompanying SPMD we present two on-policy evaluation operators, both simply following the policy for trajectory collection with no explicit exploration, or any form of intervention. SPMD with the first evaluation operator, named value-based estimation, tailors to the Kullback-Leibler (KL) divergence. Provided the Markov chains on the state space of generated policies are uniformly mixing with non-diminishing minimal visitation measure, an $\tilde{\mathcal{O}}( 1 / \epsilon^2)$ sample complexity is obtained with a linear dependence on the size of the action space. SPMD with the second evaluation operator, named truncated on-policy Monte Carlo, attains an $\tilde{\mathcal{O}}(\mathcal{H}_{\mathcal{D}} / \epsilon^2)$ sample complexity, with the same assumption on the state chains of generated policies. We characterize $\mathcal{H}_{\mathcal{D}}$ as a divergence-dependent function of the effective horizon and the size of the action space, which leads to an exponential dependence of the latter two quantities for the KL divergence, and a polynomial dependence for the divergence induced by negative Tsallis entropy. These obtained sample complexities seem to be new among on-policy stochastic policy gradient methods without explicit explorations.

arxiv情報

著者 Yan Li,Guanghui Lan
発行日 2023-03-08 05:19:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC パーマリンク