Training on more Reachable Tasks for Generalisation in Reinforcement Learning

要約

マルチタスク強化学習では、エージェントは固定されたタスクのセットで学習し、新しいタスクに汎化しなければならない。最近の研究により、探索を増やすことで汎化が向上することが示されているが、その理由は未だ不明である。本論文では、マルチタスク強化学習における到達可能性の概念を導入し、最初の探索フェーズによって、エージェントが学習する到達可能なタスクの数が増加することを示す。到達不可能なタスクであっても汎化が改善されるのは、探索の増加ではなく、これが原因である。これにヒントを得て、我々は各エピソードの最初に探索フェーズを実装する新しい手法Explore-Goを提案する。Explore-Goは経験の収集方法を変更するだけであり、既存のオンポリシー強化学習アルゴリズムやオフポリシー強化学習アルゴリズムのほとんどと併用可能である。我々は、いくつかの一般的なアルゴリズムと組み合わせたときの我々の手法の有効性を実証し、いくつかの環境にわたる汎化性能の向上を示す。

要約(オリジナル)

In multi-task reinforcement learning, agents train on a fixed set of tasks and have to generalise to new ones. Recent work has shown that increased exploration improves this generalisation, but it remains unclear why exactly that is. In this paper, we introduce the concept of reachability in multi-task reinforcement learning and show that an initial exploration phase increases the number of reachable tasks the agent is trained on. This, and not the increased exploration, is responsible for the improved generalisation, even to unreachable tasks. Inspired by this, we propose a novel method Explore-Go that implements such an exploration phase at the beginning of each episode. Explore-Go only modifies the way experience is collected and can be used with most existing on-policy or off-policy reinforcement learning algorithms. We demonstrate the effectiveness of our method when combined with some popular algorithms and show an increase in generalisation performance across several environments.

arxiv情報

著者 Max Weltevrede,Caroline Horsch,Matthijs T. J. Spaan,Wendelin Böhmer
発行日 2024-10-04 16:15:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク