Representation Learning with Multi-Step Inverse Kinematics: An Efficient and Optimal Approach to Rich-Observation RL

要約

タイトル:多段階逆運動学による表現学習:豊富な観測に対する効率的かつ最適な強化学習アプローチ

要約:
– 「Block MDP問題」として規定される、豊富な高次元の観測を持つ強化学習の、サンプル効率の良いアルゴリズムの設計を研究する。
– 既存のアルゴリズムは、計算上かなりの制約、実践的に完全に満たすことができない強い統計的仮定、またはサンプルの複雑さが劣っているため、問題がある。
– これらの問題に対処するため、最小の統計的仮定とともに、所望の精度レベルに対してレート最適なサンプルの複雑さを実現する、初めての計算効率の高いアルゴリズムを提供する。
– 我々のアルゴリズム、MusIKは、系統的な探索と多段階逆運動学に基づく表現学習を組み合わせたものである。多段階逆運動学は、現在の観測と(潜在的に遠い)将来の観測から、学習者自身の行動を予測する学習目的である。
– MusIKはシンプルかつ柔軟であり、汎用的な関数近似を効率的に活用できる。我々の分析は、楽観的探索アルゴリズムに特化したいくつかの新しい技術を活用し、より広く利用されることが予想されている。

要約(オリジナル)

We study the design of sample-efficient algorithms for reinforcement learning in the presence of rich, high-dimensional observations, formalized via the Block MDP problem. Existing algorithms suffer from either 1) computational intractability, 2) strong statistical assumptions that are not necessarily satisfied in practice, or 3) suboptimal sample complexity. We address these issues by providing the first computationally efficient algorithm that attains rate-optimal sample complexity with respect to the desired accuracy level, with minimal statistical assumptions. Our algorithm, MusIK, combines systematic exploration with representation learning based on multi-step inverse kinematics, a learning objective in which the aim is to predict the learner’s own action from the current observation and observations in the (potentially distant) future. MusIK is simple and flexible, and can efficiently take advantage of general-purpose function approximation. Our analysis leverages several new techniques tailored to non-optimistic exploration algorithms, which we anticipate will find broader use.

arxiv情報

著者 Zakaria Mhammedi,Dylan J. Foster,Alexander Rakhlin
発行日 2023-04-12 14:51:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク