要約
タイトル: 隠れマルコフ決定過程における混乱因子に対する悲観主義:証明可能に効果的なオフライン強化学習
要約:
– パーシャル観測マルコフ決定過程におけるオフライン強化学習について研究する
– 特に、潜在的な状態に依存する行動方針で収集されたデータセットから最適方策を学習することを目的とする
– このようなデータセットは混乱因子があるため、既存のオフライン強化学習アルゴリズムでは禁止されている
– これに対し、「P3O」というアルゴリズムを提案する。このアルゴリズムは、一般的な関数近似の文脈での、混乱バイアスと最適行動方針と行動方針の分布シフトに対処する
– \texttt{P3O}の核となるのは、プロキシ因子としてカウザル推論によって構築されたペシミスティック信頼領域のカップルシーケンスである
– 混乱されたデータセットに部分的被覆仮定を置くことで、\texttt{P3O}が$n$個のトラジェクトリーを含むデータセットに対して$n^{-1/2}$サブオプティマリティを達成することを証明している
– \texttt{P3O}は、混乱されたデータセットに対する最初の証明可能な効率的なオフラインRLアルゴリズムである。
要約(オリジナル)
We study offline reinforcement learning (RL) in partially observable Markov decision processes. In particular, we aim to learn an optimal policy from a dataset collected by a behavior policy which possibly depends on the latent state. Such a dataset is confounded in the sense that the latent state simultaneously affects the action and the observation, which is prohibitive for existing offline RL algorithms. To this end, we propose the \underline{P}roxy variable \underline{P}essimistic \underline{P}olicy \underline{O}ptimization (\texttt{P3O}) algorithm, which addresses the confounding bias and the distributional shift between the optimal and behavior policies in the context of general function approximation. At the core of \texttt{P3O} is a coupled sequence of pessimistic confidence regions constructed via proximal causal inference, which is formulated as minimax estimation. Under a partial coverage assumption on the confounded dataset, we prove that \texttt{P3O} achieves a $n^{-1/2}$-suboptimality, where $n$ is the number of trajectories in the dataset. To our best knowledge, \texttt{P3O} is the first provably efficient offline RL algorithm for POMDPs with a confounded dataset.
arxiv情報
著者 | Miao Lu,Yifei Min,Zhaoran Wang,Zhuoran Yang |
発行日 | 2023-04-17 01:04:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI