要約
タイトル:機能近似における一般的なカバレッジ条件のオンライン強化学習における証明可能な利益
要約:
– オンライン強化学習(RL)において、標準的なマルコフ決定過程(MDP)の構造的な仮定を使用する代わりに、一定のカバレッジ条件を使用するだけでサンプル効率の保証ができることがわかった(Xieら、2023)。
– 本研究では、さらに可能性があるより一般的なカバレッジ条件を追究し、その効果と有用性を研究することに注力している。
– 私たちは、集中度の$L^{p}$変異体、密度比実現性、部分/全体カバレッジ条件のトレードオフなど、より多くの概念を特定し、それらがサンプル効率の向上に役立つと考えています。
– さらに、探究的なオフラインデータが使用される場合、私たちのカバレッジ条件の下では、オンラインRLのための統計的にも計算的にも効率的な保証が得られることがわかりました。
– さらに、MDP構造が与えられた場合、例えば線形MDPの場合でも、良好なカバレッジ条件は、∆O(T^-1/2)を超えたより速い後悔ボンドを得るために有益であることを明らかにしました。
– これらの結果は、効率的なオンラインRLで一般的なカバレッジ条件を使用する正当性を提供しています。
要約(オリジナル)
In online reinforcement learning (RL), instead of employing standard structural assumptions on Markov decision processes (MDPs), using a certain coverage condition (original from offline RL) is enough to ensure sample-efficient guarantees (Xie et al. 2023). In this work, we focus on this new direction by digging more possible and general coverage conditions, and study the potential and the utility of them in efficient online RL. We identify more concepts, including the $L^p$ variant of concentrability, the density ratio realizability, and trade-off on the partial/rest coverage condition, that can be also beneficial to sample-efficient online RL, achieving improved regret bound. Furthermore, if exploratory offline data are used, under our coverage conditions, both statistically and computationally efficient guarantees can be achieved for online RL. Besides, even though the MDP structure is given, e.g., linear MDP, we elucidate that, good coverage conditions are still beneficial to obtain faster regret bound beyond $\widetilde{O}(\sqrt{T})$ and even a logarithmic order regret. These results provide a good justification for the usage of general coverage conditions in efficient online RL.
arxiv情報
著者 | Fanghui Liu,Luca Viano,Volkan Cevher |
発行日 | 2023-04-25 14:57:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI