RL in Latent MDPs is Tractable: Online Guarantees via Off-Policy Evaluation

要約

現実世界の多くの意思決定問題では、対話を通じて固定されたままになる、部分的に観察された、隠された、または潜在的な情報が存在します。
このような意思決定問題は、潜在マルコフ意思決定プロセス (LMDP) としてモデル化できます。この場合、潜在変数は対話の開始時に選択され、エージェントには開示されません。
過去 10 年間で、さまざまな構造仮定の下で LMDP を解決することに大きな進歩が見られました。
ただし、一般的な LMDP の場合、既存の下限と証明的に一致する既知の学習アルゴリズムはありません (Kwon et al., 2021)。
追加の構造的な仮定を行わずに、LMDP 用の最初のサンプル効率の高いアルゴリズムを紹介します。
私たちの結果は、部分的に観察された環境での探査の文脈では見落とされてきた、LMDP におけるポリシー外の評価保証とカバレッジ係数の役割に関する新しい視点を構築します。
具体的には、新しいオフポリシー評価補題を確立し、LMDP に新しいカバレッジ係数を導入します。
次に、これらを使用して、楽観的探索アルゴリズムのほぼ最適な保証を導き出す方法を示します。
これらの結果は、LMDP を超えた幅広い対話型学習問題、特に部分的に観察された環境にとって価値があると考えられます。

要約(オリジナル)

In many real-world decision problems there is partially observed, hidden or latent information that remains fixed throughout an interaction. Such decision problems can be modeled as Latent Markov Decision Processes (LMDPs), where a latent variable is selected at the beginning of an interaction and is not disclosed to the agent. In the last decade, there has been significant progress in solving LMDPs under different structural assumptions. However, for general LMDPs, there is no known learning algorithm that provably matches the existing lower bound (Kwon et al., 2021). We introduce the first sample-efficient algorithm for LMDPs without any additional structural assumptions. Our result builds off a new perspective on the role of off-policy evaluation guarantees and coverage coefficients in LMDPs, a perspective, that has been overlooked in the context of exploration in partially observed environments. Specifically, we establish a novel off-policy evaluation lemma and introduce a new coverage coefficient for LMDPs. Then, we show how these can be used to derive near-optimal guarantees of an optimistic exploration algorithm. These results, we believe, can be valuable for a wide range of interactive learning problems beyond LMDPs, and especially, for partially observed environments.

arxiv情報

著者 Jeongyeol Kwon,Shie Mannor,Constantine Caramanis,Yonathan Efroni
発行日 2024-06-26 15:42:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY パーマリンク