Fast Rates for Maximum Entropy Exploration

要約

強化学習 (RL) の設定を検討します。この設定では、エージェントはマルコフ決定プロセス (MDP) によって駆動される未知の環境で行動しなければならず、まばらな信号または無料の信号に報酬を与えることさえあります。
この状況では、探索が主な課題になります。
この作業では、2 つの異なるタイプの最大エントロピー探索問題を研究します。
最初のタイプは、Hazan らによって以前に検討された訪問エントロピーの最大化です。
(2019) 割引設定で。
このタイプの探索のために、$\widetilde{\mathcal{O}}(H^3 S^2 A / \varepsilon^2)$ サンプルの複雑さを持ち、$\
Hazanらのvarepsilon$依存性。
$S$ は状態の数、$A$ はアクションの数、$H$ はエピソードの長さ、$\varepsilon$ は望ましい精度です。
私たちが研究するエントロピーの 2 番目のタイプは、軌跡エントロピーです。
この目的関数は、エントロピー正則化 MDP と密接に関連しており、依存関係を無視して $\widetilde{\mathcal{O}}(1/\varepsilon)$ のサンプル複雑度を持つ UCBVI アルゴリズムの単純な修正を提案します。
$S、A、H$。
興味深いことに、これは正規化された MDP の探索問題が通常の MDP よりも (サンプルの複雑さの点で) 統計的に厳密に簡単であることを立証する RL 文献の最初の理論的結果です。

要約(オリジナル)

We consider the reinforcement learning (RL) setting, in which the agent has to act in unknown environment driven by a Markov Decision Process (MDP) with sparse or even reward free signals. In this situation, exploration becomes the main challenge. In this work, we study the maximum entropy exploration problem of two different types. The first type is visitation entropy maximization that was previously considered by Hazan et al. (2019) in the discounted setting. For this type of exploration, we propose an algorithm based on a game theoretic representation that has $\widetilde{\mathcal{O}}(H^3 S^2 A / \varepsilon^2)$ sample complexity thus improving the $\varepsilon$-dependence of Hazan et al. (2019), where $S$ is a number of states, $A$ is a number of actions, $H$ is an episode length, and $\varepsilon$ is a desired accuracy. The second type of entropy we study is the trajectory entropy. This objective function is closely related to the entropy-regularized MDPs, and we propose a simple modification of the UCBVI algorithm that has a sample complexity of order $\widetilde{\mathcal{O}}(1/\varepsilon)$ ignoring dependence in $S, A, H$. Interestingly enough, it is the first theoretical result in RL literature establishing that the exploration problem for the regularized MDPs can be statistically strictly easier (in terms of sample complexity) than for the ordinary MDPs.

arxiv情報

著者 Daniil Tiapkin,Denis Belomestny,Daniele Calandriello,Eric Moulines,Remi Munos,Alexey Naumov,Pierre Perrault,Yunhao Tang,Michal Valko,Pierre Menard
発行日 2023-03-14 16:51:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク