Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs

要約

エージェントが2つのフェーズで機能する線形関数近似を使用した報酬のない強化学習(RL)を研究します。(1)探索フェーズでは、エージェントは環境と対話しますが、報酬にアクセスできません。
(2) 計画フェーズでは、エージェントに報酬関数が与えられ、探索フェーズで収集されたサンプルに基づいて最適に近いポリシーを見つけることが期待されます。
既存の報酬のないアルゴリズムのサンプルの複雑さは、計画範囲に多項式依存性があるため、長い計画範囲の RL 問題では扱いにくくなっています。
この論文では、遷移確率を既知の特徴マッピングの線形結合としてパラメータ化できる、線形混合マルコフ決定プロセス (MDP) を学習するための新しい無報酬アルゴリズムを提案します。
私たちのアルゴリズムの核となるのは、探索主導の疑似報酬と、偶然性および認識論的不確実性のための高次モーメント推定量を備えた、不確実性で重み付けされた値を対象とした回帰です。
合計報酬が $1$ で制限されている場合、アルゴリズムは $\varepsilon$-最適なポリシーを見つけるために $\tilde O( d^2\varepsilon^{-2})$ エピソードを探索するだけでよいことを示します。ここで、$
d$ は特徴マッピングの次元です。
私たちのアルゴリズムのサンプルの複雑さは、計画範囲にのみ多対数依存性があるため、「期間フリー」です。
さらに、$\Omega(d^2\varepsilon^{-2})$ サンプル複雑度の下限を提供します。これは、アルゴリズムのサンプル複雑度を対数因子まで一致させ、アルゴリズムが最適であることを示唆しています。

要約(オリジナル)

We study reward-free reinforcement learning (RL) with linear function approximation, where the agent works in two phases: (1) in the exploration phase, the agent interacts with the environment but cannot access the reward; and (2) in the planning phase, the agent is given a reward function and is expected to find a near-optimal policy based on samples collected in the exploration phase. The sample complexities of existing reward-free algorithms have a polynomial dependence on the planning horizon, which makes them intractable for long planning horizon RL problems. In this paper, we propose a new reward-free algorithm for learning linear mixture Markov decision processes (MDPs), where the transition probability can be parameterized as a linear combination of known feature mappings. At the core of our algorithm is uncertainty-weighted value-targeted regression with exploration-driven pseudo-reward and a high-order moment estimator for the aleatoric and epistemic uncertainties. When the total reward is bounded by $1$, we show that our algorithm only needs to explore $\tilde O( d^2\varepsilon^{-2})$ episodes to find an $\varepsilon$-optimal policy, where $d$ is the dimension of the feature mapping. The sample complexity of our algorithm only has a polylogarithmic dependence on the planning horizon and therefore is “horizon-free”. In addition, we provide an $\Omega(d^2\varepsilon^{-2})$ sample complexity lower bound, which matches the sample complexity of our algorithm up to logarithmic factors, suggesting that our algorithm is optimal.

arxiv情報

著者 Junkai Zhang,Weitong Zhang,Quanquan Gu
発行日 2023-03-17 17:53:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク