要約
タイトル:オフライン強化学習におけるアクション影響の規則性と外因的状態変数の活用
要約:オフライン強化学習は、データのバッチから方策を学習することであり、一般的なMDPに対しては困難であることが知られています。こうした結果から、オフライン強化学習が実現可能な特定のMDPのクラスを見る必要があるとされています。本研究では、制限されたクラスのMDPを探索し、オフライン強化学習の保証を得ます。キーとなる性質である、「アクション影響の規則性(AIR)」は、アクションが主に状態の一部分(内因性成分)に影響を与え、残りの状態(外因性成分)には限定的な影響を与えるというものです。AIRは強い仮定ですが、金融市場を含むいくつかの現実世界のドメインで成立することがあります。AIRを活用するアルゴリズムについて説明し、Fitted-Q Iterationに基づくアルゴリズムの理論分析を提供します。最後に、regregularityが成立するシミュレーションや現実世界でデータコレクションポリシーに基づいた既存のオフライン強化学習アルゴリズムを上回ることを示します。
要点:
– オフライン強化学習は、一般的なMDPに対しては困難である。
– AIRと呼ばれるアクション影響の規則性を活用することで、保証を得ることができる。
– AIRは、アクションが主に状態の一部分(内因性成分)に影響を与え、残りの状態(外因性成分)には限定的な影響を与えることを指す。
– AIRは強い仮定であるが、金融市場を含むいくつかの現実世界のドメインで成立することがある。
– Fitted-Q Iterationに基づくアルゴリズムの理論分析を提供する。
– 現実世界でデータコレクションポリシーに基づいた既存のオフライン強化学習アルゴリズムを上回ることを示す。
要約(オリジナル)
Offline reinforcement learning — learning a policy from a batch of data — is known to be hard for general MDPs. These results motivate the need to look at specific classes of MDPs where offline reinforcement learning might be feasible. In this work, we explore a restricted class of MDPs to obtain guarantees for offline reinforcement learning. The key property, which we call Action Impact Regularity (AIR), is that actions primarily impact a part of the state (an endogenous component) and have limited impact on the remaining part of the state (an exogenous component). AIR is a strong assumption, but it nonetheless holds in a number of real-world domains including financial markets. We discuss algorithms that exploit the AIR property, and provide a theoretical analysis for an algorithm based on Fitted-Q Iteration. Finally, we demonstrate that the algorithm outperforms existing offline reinforcement learning algorithms across different data collection policies in simulated and real world environments where the regularity holds.
arxiv情報
著者 | Vincent Liu,James R. Wright,Martha White |
発行日 | 2023-05-03 17:51:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI