要約
私たちは、線形関数近似による報酬なしの強化学習 (RL) を研究します。この学習では、エージェントは 2 つのフェーズで動作します。(1) 探索フェーズでは、エージェントは環境と対話しますが、報酬にはアクセスできません。
(2) 計画フェーズでは、エージェントに報酬関数が与えられ、探索フェーズで収集されたサンプルに基づいて最適に近いポリシーを見つけることが期待されます。
既存の報酬なしアルゴリズムのサンプルの複雑さは、計画期間に多項式に依存しているため、長い計画期間の RL 問題には対処できません。
この論文では、線形混合マルコフ決定プロセス (MDP) を学習するための新しい報酬なしアルゴリズムを提案します。このアルゴリズムでは、遷移確率は既知の特徴マッピングの線形結合としてパラメーター化できます。
私たちのアルゴリズムの中核は、探索駆動型の擬似報酬と、偶然性と認識論的な不確実性に対する高次モーメント推定器を備えた、不確実性を重み付けした値を対象とした回帰です。
合計報酬が $1$ で制限されている場合、アルゴリズムは $\tilde O( d^2\varepsilon^{-2})$ エピソードを探索して $\varepsilon$ 最適なポリシーを見つけるだけでよいことがわかります。
d$ は特徴マッピングの次元です。
私たちのアルゴリズムのサンプルの複雑さは、計画期間に多対数的に依存するだけであるため、「期間フリー」です。
さらに、$\Omega(d^2\varepsilon^{-2})$ サンプル複雑さの下限を提供します。これは、アルゴリズムのサンプル複雑さと対数係数まで一致し、アルゴリズムが最適であることを示唆しています。
要約(オリジナル)
We study reward-free reinforcement learning (RL) with linear function approximation, where the agent works in two phases: (1) in the exploration phase, the agent interacts with the environment but cannot access the reward; and (2) in the planning phase, the agent is given a reward function and is expected to find a near-optimal policy based on samples collected in the exploration phase. The sample complexities of existing reward-free algorithms have a polynomial dependence on the planning horizon, which makes them intractable for long planning horizon RL problems. In this paper, we propose a new reward-free algorithm for learning linear mixture Markov decision processes (MDPs), where the transition probability can be parameterized as a linear combination of known feature mappings. At the core of our algorithm is uncertainty-weighted value-targeted regression with exploration-driven pseudo-reward and a high-order moment estimator for the aleatoric and epistemic uncertainties. When the total reward is bounded by $1$, we show that our algorithm only needs to explore $\tilde O( d^2\varepsilon^{-2})$ episodes to find an $\varepsilon$-optimal policy, where $d$ is the dimension of the feature mapping. The sample complexity of our algorithm only has a polylogarithmic dependence on the planning horizon and therefore is ‘horizon-free’. In addition, we provide an $\Omega(d^2\varepsilon^{-2})$ sample complexity lower bound, which matches the sample complexity of our algorithm up to logarithmic factors, suggesting that our algorithm is optimal.
arxiv情報
著者 | Junkai Zhang,Weitong Zhang,Quanquan Gu |
発行日 | 2024-02-14 17:44:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google