要約
ILARLと名付けられた無限地平線形MDPにおける模倣学習のための新しいアルゴリズムを発表する。このアルゴリズムは、学習者が環境からサンプリングする必要のある軌道数の境界を大幅に改善する。特に、従来の研究で必要であった探索の仮定を削除し、所望の精度$epsilon$依存性を$mathcal{O}br{epsilon^{-5}}$から$mathcal{O}br{epsilon^{-4}}$に改善する。我々の結果は、模倣学習と敵対的損失を持つMDPにおけるオンライン学習との間の関連に依存している。後者の設定に関しては、無限地平線形MDPに対する最初の結果を提示しており、これは独立に興味深いものである。さらに、有限地平線の場合についても強化結果を与えることができ、$mathcal{O}br{epsilon^{-2}}$を達成した。線形関数近似を用いた数値実験により、ILARLが他の一般的なアルゴリズムを凌駕することを示す。
要約(オリジナル)
We present a new algorithm for imitation learning in infinite horizon linear MDPs dubbed ILARL which greatly improves the bound on the number of trajectories that the learner needs to sample from the environment. In particular, we remove exploration assumptions required in previous works and we improve the dependence on the desired accuracy $\epsilon$ from $\mathcal{O}\br{\epsilon^{-5}}$ to $\mathcal{O}\br{\epsilon^{-4}}$. Our result relies on a connection between imitation learning and online learning in MDPs with adversarial losses. For the latter setting, we present the first result for infinite horizon linear MDP which may be of independent interest. Moreover, we are able to provide a strengthen result for the finite horizon case where we achieve $\mathcal{O}\br{\epsilon^{-2}}$. Numerical experiments with linear function approximation shows that ILARL outperforms other commonly used algorithms.
arxiv情報
著者 | Luca Viano,Stratis Skoulakis,Volkan Cevher |
発行日 | 2024-05-03 15:28:44+00:00 |
arxivサイト | arxiv_id(pdf) |