Value-aware Importance Weighting for Off-policy Reinforcement Learning

要約

重要度サンプリングは、強化学習におけるオフポリシー予測の基礎となる中心的な考え方です。
これは、分布からサンプルを再重み付けして、別の分布の下で不偏推定値を取得するための戦略を提供します。
ただし、重要度のサンプリング重みは極端な変動を示す傾向があり、実際には安定性の問題が発生することがよくあります。
この研究では、オフポリシー学習でサンプルを修正するために、より広範なクラスの重要度の重みを考慮します。
$\textit{値を意識した重要度の重み}$ を使用することを提案します。これはサンプル空間を考慮して、ターゲット分布の下で分散が低くても偏りのない推定値を提供します。
このような重みを計算する方法を導き出し、結果として得られる重要度の重みの主要なプロパティを詳しく説明します。
次に、いくつかの強化学習予測アルゴリズムをこれらの重みを使用してオフポリシー設定に拡張し、経験的に評価します。

要約(オリジナル)

Importance sampling is a central idea underlying off-policy prediction in reinforcement learning. It provides a strategy for re-weighting samples from a distribution to obtain unbiased estimates under another distribution. However, importance sampling weights tend to exhibit extreme variance, often leading to stability issues in practice. In this work, we consider a broader class of importance weights to correct samples in off-policy learning. We propose the use of $\textit{value-aware importance weights}$ which take into account the sample space to provide lower variance, but still unbiased, estimates under a target distribution. We derive how such weights can be computed, and detail key properties of the resulting importance weights. We then extend several reinforcement learning prediction algorithms to the off-policy setting with these weights, and evaluate them empirically.

arxiv情報

著者 Kristopher De Asis,Eric Graves,Richard S. Sutton
発行日 2023-06-27 17:05:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, I.2 パーマリンク