Optimistically Optimistic Exploration for Provably Efficient Infinite-Horizon Reinforcement and Imitation Learning

要約

Infinite-Horizo​​nの割引線形マルコフ決定プロセス(MDP)における補強学習の問題を研究し、この設定で最適に近い後悔保証を達成する最初の計算効率の高いアルゴリズムを提案します。
私たちの主なアイデアは、楽観的な探索のための2つの古典的なテクニックを組み合わせることです。報酬機能に適用される加算的探査ボーナスと、最大のリターンで吸収状態に加えられた人工遷移です。
正規化された近似ダイナミックプログラミングスキームと組み合わせて、結果のアルゴリズムは注文$ \ tilde {\ mathcal {o}}}(\ sqrt {d^3(1- \ gamma)^{ – 7 /
2} t})$、$ t $はサンプル遷移の総数、$ \ gamma \ in(0,1)$ is is
割引係数、および$ d $は機能の次元です。
結果は、敵対的な報酬シーケンスに対して引き続き保持され、最先端の結果を達成する線形MDPでの模倣学習の問題への方法の適用を可能にします。

要約(オリジナル)

We study the problem of reinforcement learning in infinite-horizon discounted linear Markov decision processes (MDPs), and propose the first computationally efficient algorithm achieving near-optimal regret guarantees in this setting. Our main idea is to combine two classic techniques for optimistic exploration: additive exploration bonuses applied to the reward function, and artificial transitions made to an absorbing state with maximal return. We show that, combined with a regularized approximate dynamic-programming scheme, the resulting algorithm achieves a regret of order $\tilde{\mathcal{O}} (\sqrt{d^3 (1 – \gamma)^{- 7 / 2} T})$, where $T$ is the total number of sample transitions, $\gamma \in (0,1)$ is the discount factor, and $d$ is the feature dimensionality. The results continue to hold against adversarial reward sequences, enabling application of our method to the problem of imitation learning in linear MDPs, where we achieve state-of-the-art results.

arxiv情報

著者 Antoine Moulin,Gergely Neu,Luca Viano
発行日 2025-02-19 17:32:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク