Follow your Nose: Using General Value Functions for Directed Exploration in Reinforcement Learning

要約

サンプル効率を改善することは、強化学習における重要な課題です。特に、状態空間が大きく、報酬がまばらな環境では重要です。
文献では、これは補助タスク (サブゴール) を使用するか、巧妙な探索戦略によって解決されます。
大規模な環境でより良い軌道をサンプリングするために探索方法が使用されていますが、報酬がまばらな場合は補助タスクが組み込まれています。
ただし、大規模と報酬の希薄性の両方に同時に取り組むことを試みた研究はほとんどありません。
このホワイト ペーパーでは、General Value Functions (GVF) と有向探索戦略を使用して、探索を補助タスク学習と組み合わせるというアイデアについて説明します。
アクションをサンプリングし、指示された探索を提供するために使用できる値関数を学習する方法を提示します。
さまざまなグリッド サイズを使用したナビゲーション タスクの実験では、いくつかの競合するベースラインよりもパフォーマンスが優れていることが実証されています。

要約(オリジナル)

Improving sample efficiency is a key challenge in reinforcement learning, especially in environments with large state spaces and sparse rewards. In literature, this is resolved either through the use of auxiliary tasks (subgoals) or through clever exploration strategies. Exploration methods have been used to sample better trajectories in large environments while auxiliary tasks have been incorporated where the reward is sparse. However, few studies have attempted to tackle both large scale and reward sparsity at the same time. This paper explores the idea of combining exploration with auxiliary task learning using General Value Functions (GVFs) and a directed exploration strategy. We present a way to learn value functions which can be used to sample actions and provide directed exploration. Experiments on navigation tasks with varying grid sizes demonstrate the performance advantages over several competitive baselines.

arxiv情報

著者 Durgesh Kalwar,Omkar Shelke,Somjit Nath,Hardik Meisheri,Harshad Khadilkar
発行日 2023-02-27 16:58:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク