Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity

要約

現実世界の強化学習の応用には、エージェントが複雑な高次元の観測値に基づいて動作する環境が含まれることがよくありますが、基礎となる (「潜在」) ダイナミクスは比較的単純です。
ただし、小さな潜在空間などの制限された設定以外では、潜在ダイナミクス下での強化学習の基本的な統計要件とアルゴリズム原理はほとんど理解されていません。
この論文は、統計的およびアルゴリズムの観点から $\textit{general}$ 潜在力学の下での強化学習の問題を扱います。
統計的な側面では、主な否定的な結果は、関数近似を使用した強化学習のよく研究された設定のほとんどが、豊富な観測値で構成されると扱いにくくなるということを示しています。
私たちはこれを肯定的な結果で補完し、統計的な扱いやすさを可能にする一般条件として潜在的なプッシュフォワードカバレビリティを特定しました。
アルゴリズム的には、証明可能で効率的な観測可能から潜在への削減、つまり潜在 MDP の任意のアルゴリズムを豊富な観測で動作できるアルゴリズムに変換する削減を 2 つの設定で開発します。1 つはエージェントが後知恵にアクセスできる場合です。
潜在ダイナミクスの観察 [LADZ23]、およびエージェントが自己予測潜在モデルを推定できるもの [SAGHCB20]。
私たちの結果は、潜在ダイナミクスの下での強化学習のための統一された統計理論とアルゴリズム理論に向けた最初のステップとして機能します。

要約(オリジナル)

Real-world applications of reinforcement learning often involve environments where agents operate on complex, high-dimensional observations, but the underlying (”latent”) dynamics are comparatively simple. However, outside of restrictive settings such as small latent spaces, the fundamental statistical requirements and algorithmic principles for reinforcement learning under latent dynamics are poorly understood. This paper addresses the question of reinforcement learning under $\textit{general}$ latent dynamics from a statistical and algorithmic perspective. On the statistical side, our main negative result shows that most well-studied settings for reinforcement learning with function approximation become intractable when composed with rich observations; we complement this with a positive result, identifying latent pushforward coverability as a general condition that enables statistical tractability. Algorithmically, we develop provably efficient observable-to-latent reductions — that is, reductions that transform an arbitrary algorithm for the latent MDP into an algorithm that can operate on rich observations — in two settings: one where the agent has access to hindsight observations of the latent dynamics [LADZ23], and one where the agent can estimate self-predictive latent models [SAGHCB20]. Together, our results serve as a first step toward a unified statistical and algorithmic theory for reinforcement learning under latent dynamics.

arxiv情報

著者 Philip Amortila,Dylan J. Foster,Nan Jiang,Akshay Krishnamurthy,Zakaria Mhammedi
発行日 2024-10-23 14:22:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC, stat.ML パーマリンク