Minimax-Optimal Reward-Agnostic Exploration in Reinforcement Learning

要約

タイトル:強化学習におけるミニマックス最適な報酬に無関心な探索

要約:
– この論文では、報酬に関する情報が探索段階でない場合(報酬に無関心な探索)の強化学習について調べ、これまでの状況を改善するアルゴリズムを設計した。
– 有限時間の非定常のマルコフ決定過程において、興味のある報酬関数の数が多項式個以下である場合を考える。
– アルゴリズムは報酬情報の指導を受けずに、$\varepsilon$が十分小さい場合、次の数のエピソードを収集することによって、これらすべての報酬関数に対して$\varepsilon$-最適なポリシーを発見できる。
– $\frac{SAH^3}{\varepsilon^2}$(ログ因子を含む)の順序。
– この文脈で最初の報酬に無関心な探索スキームを提供し、証明可能なミニマックス最適性を達成する。
– さらに、サンプルサイズが$\frac{S^2AH^3}{\varepsilon^2}$(ログ因子を含む)のエピソードを超えると、アルゴリズムは、報酬関数がいくつでも(悪意のある場合でも)「報酬フリー探索」と呼ばれるタスクの$\varepsilon$精度を提供できる。
– アルゴリズム設計の新規性は、オフライン強化学習から得られたインサイトに基づくものである:探索スキームは、オフライン強化学習のパフォーマンスを決定する重要な報酬に最大化を試み、ポリシー学習パラダイムは、サンプル最適なオフライン強化学習のパラダイムからのアイデアを利用する。

要約(オリジナル)

This paper studies reward-agnostic exploration in reinforcement learning (RL) — a scenario where the learner is unware of the reward functions during the exploration stage — and designs an algorithm that improves over the state of the art. More precisely, consider a finite-horizon non-stationary Markov decision process with $S$ states, $A$ actions, and horizon length $H$, and suppose that there are no more than a polynomial number of given reward functions of interest. By collecting an order of \begin{align*} \frac{SAH^3}{\varepsilon^2} \text{ sample episodes (up to log factor)} \end{align*} without guidance of the reward information, our algorithm is able to find $\varepsilon$-optimal policies for all these reward functions, provided that $\varepsilon$ is sufficiently small. This forms the first reward-agnostic exploration scheme in this context that achieves provable minimax optimality. Furthermore, once the sample size exceeds $\frac{S^2AH^3}{\varepsilon^2}$ episodes (up to log factor), our algorithm is able to yield $\varepsilon$ accuracy for arbitrarily many reward functions (even when they are adversarially designed), a task commonly dubbed as “reward-free exploration.” The novelty of our algorithm design draws on insights from offline RL: the exploration scheme attempts to maximize a critical reward-agnostic quantity that dictates the performance of offline RL, while the policy learning paradigm leverages ideas from sample-optimal offline RL paradigms.

arxiv情報

著者 Gen Li,Yuling Yan,Yuxin Chen,Jianqing Fan
発行日 2023-04-14 17:46:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.IT, cs.LG, cs.SY, eess.SY, math.IT, math.ST, stat.ML, stat.TH パーマリンク