要約
私たちは、対話型意思決定の一般的な枠組みの下で、サンプルの効率的強化学習 (RL) を研究します。これには、マルコフ決定プロセス (MDP)、部分観察可能なマルコフ決定プロセス (POMDP)、および特殊なケースとしての予測状態表現 (PSR) が含まれます。
サンプルの効率的な学習を可能にする最小の仮定を見つけるために、オンラインの対話型意思決定における探索と活用の間の基本的なトレードオフを特徴付ける、新しい複雑さの尺度である一般化エルダー係数 (GEC) を提案します。
具体的には、GEC は、更新されたポリシーのパフォーマンスの予測誤差と、履歴データに基づいて評価されたサンプル内トレーニング誤差を比較することで、探索の困難さを把握します。
低い GEC を伴う RL 問題は、低ベルマン eluder 次元問題、双線形クラス、低証人ランク問題、PO 双線形クラス、および一般化正規 PSR を包含する、非常に豊富なクラスを形成することを示します。一般化正規 PSR は、新しい扱いやすい PSR クラスです。
私たちが特定したものには、ほぼすべての既知の扱いやすい POMDP および PSR が含まれます。
さらに、アルゴリズム設計の観点から、完全に観察可能な設定と部分的に観察可能な設定の両方で、モデルフリーとモデルベースの両方の方法で実装できる汎用事後サンプリング アルゴリズムを提案します。
提案されたアルゴリズムは、標準事後サンプリング アルゴリズムを 2 つの側面で変更します。(i) より高い値の仮説に偏る楽観的な事前分布を使用します。(ii) 対数尤度関数は、履歴データに基づいて評価された経験的損失となるように設定されます。
損失関数の選択により、モデルフリー学習とモデルベース学習の両方がサポートされます。
GEC に関して線形未満のリグレス上限を確立することにより、提案されたアルゴリズムがサンプル効率的であることを証明します。
要約すると、完全に観察可能な RL と部分的に観察可能な RL の両方について、新しく統一された理解を提供します。
要約(オリジナル)
We study sample efficient reinforcement learning (RL) under the general framework of interactive decision making, which includes Markov decision process (MDP), partially observable Markov decision process (POMDP), and predictive state representation (PSR) as special cases. Toward finding the minimum assumption that empowers sample efficient learning, we propose a novel complexity measure, generalized eluder coefficient (GEC), which characterizes the fundamental tradeoff between exploration and exploitation in online interactive decision making. In specific, GEC captures the hardness of exploration by comparing the error of predicting the performance of the updated policy with the in-sample training error evaluated on the historical data. We show that RL problems with low GEC form a remarkably rich class, which subsumes low Bellman eluder dimension problems, bilinear class, low witness rank problems, PO-bilinear class, and generalized regular PSR, where generalized regular PSR, a new tractable PSR class identified by us, includes nearly all known tractable POMDPs and PSRs. Furthermore, in terms of algorithm design, we propose a generic posterior sampling algorithm, which can be implemented in both model-free and model-based fashion, under both fully observable and partially observable settings. The proposed algorithm modifies the standard posterior sampling algorithm in two aspects: (i) we use an optimistic prior distribution that biases towards hypotheses with higher values and (ii) a loglikelihood function is set to be the empirical loss evaluated on the historical data, where the choice of loss function supports both model-free and model-based learning. We prove that the proposed algorithm is sample efficient by establishing a sublinear regret upper bound in terms of GEC. In summary, we provide a new and unified understanding of both fully observable and partially observable RL.
arxiv情報
著者 | Han Zhong,Wei Xiong,Sirui Zheng,Liwei Wang,Zhaoran Wang,Zhuoran Yang,Tong Zhang |
発行日 | 2023-06-30 13:05:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google