要約
強化学習 (RL) における理論的保証は、関数近似の誤った仕様誤差に関して乗算的な爆発要因を受けることが知られています。
しかし、そのような \emph{近似係数} の性質、特に特定の学習問題における最適な形式については、ほとんど理解されていません。
この論文では、多くの未解決の問題が残っている線形オフポリシー価値関数推定におけるこの問題を研究します。
重み付き $L_2$-norm (重みはオフライン状態分布)、$L_\infty$ ノルム、状態エイリアシングの有無、
状態空間の完全なカバレッジと部分的なカバレッジ。
これらすべての設定に対して最適な漸近近似係数 (定数まで) を確立します。
特に、我々の境界は、$L_2(\mu)$ ノルムについては 2 つのインスタンス依存要因を特定し、$L_\infty$ ノルムについては 1 つだけを特定します。これらの要因は、仕様ミスの下でのオフポリシー評価の硬さを決定することが示されています。
要約(オリジナル)
Theoretical guarantees in reinforcement learning (RL) are known to suffer multiplicative blow-up factors with respect to the misspecification error of function approximation. Yet, the nature of such \emph{approximation factors} — especially their optimal form in a given learning problem — is poorly understood. In this paper we study this question in linear off-policy value function estimation, where many open questions remain. We study the approximation factor in a broad spectrum of settings, such as with the weighted $L_2$-norm (where the weighting is the offline state distribution), the $L_\infty$ norm, the presence vs. absence of state aliasing, and full vs. partial coverage of the state space. We establish the optimal asymptotic approximation factors (up to constants) for all of these settings. In particular, our bounds identify two instance-dependent factors for the $L_2(\mu)$ norm and only one for the $L_\infty$ norm, which are shown to dictate the hardness of off-policy evaluation under misspecification.
arxiv情報
著者 | Philip Amortila,Nan Jiang,Csaba Szepesvári |
発行日 | 2023-07-25 08:44:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google