Adaptive Exploration for Data-Efficient General Value Function Evaluations

要約

General Value Functions (GVF) (Sutton et al、2011) は、強化学習における予測知識を表現する確立された方法です。
各 GVF は、固有の疑似報酬に基づいて、特定のポリシーの期待収益を計算します。
複数の GVF は、単一のデータ ストリームからのオフポリシー学習を使用して並行して推定できます。データのソースは、多くの場合、固定動作ポリシーまたは事前収集されたデータセットです。
これには未解決の疑問が残ります。データ効率の高い GVF 学習のために動作ポリシーをどのように選択できるのでしょうか?
このギャップに対処するために、複数の GVF を並行して評価するためのデータを効率的に収集する動作ポリシーを学習することを目的とした GVFExplorer を提案します。
この行動ポリシーは、すべての GVF にわたる収益の合計分散に比例してアクションを選択し、環境インタラクションの数を減らします。
正確な分散推定を可能にするために、最近提案された時間差スタイルの分散推定器を使用します。
動作ポリシーを更新するたびに、すべての GVF の合計予測における平均二乗誤差が減少することを証明します。
私たちは、表形式表現と非線形関数近似の両方でこの方法のパフォーマンスを経験的に実証します。

要約(オリジナル)

General Value Functions (GVFs) (Sutton et al, 2011) are an established way to represent predictive knowledge in reinforcement learning. Each GVF computes the expected return for a given policy, based on a unique pseudo-reward. Multiple GVFs can be estimated in parallel using off-policy learning from a single stream of data, often sourced from a fixed behavior policy or pre-collected dataset. This leaves an open question: how can behavior policy be chosen for data-efficient GVF learning? To address this gap, we propose GVFExplorer, which aims at learning a behavior policy that efficiently gathers data for evaluating multiple GVFs in parallel. This behavior policy selects actions in proportion to the total variance in the return across all GVFs, reducing the number of environmental interactions. To enable accurate variance estimation, we use a recently proposed temporal-difference-style variance estimator. We prove that each behavior policy update reduces the mean squared error in the summed predictions over all GVFs. We empirically demonstrate our method’s performance in both tabular representations and nonlinear function approximation.

arxiv情報

著者 Arushi Jain,Josiah P. Hanna,Doina Precup
発行日 2024-05-13 15:24:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク