First-Explore, then Exploit: Meta-Learning Intelligent Exploration

要約

標準的な強化学習 (RL) エージェントは、人間のようにインテリジェントに探索することはありません (つまり、複雑なドメイン事前分布や以前の探索を考慮することによって)。
徹底的な検索などの最も基本的な知的探索戦略でさえ、新しいスキルの学習、階段を登る、ドアを開ける、実験の実施などのより複雑な戦略は言うまでもなく、新規性の検索や内発的動機付けなどのアプローチでは非効率的または不十分に近似されるだけです。
このインテリジェントな探索の欠如により、サンプルの効率が制限され、困難な探索ドメインの解決が妨げられます。
私たちは、多くの RL アプローチがインテリジェントな探索を学習することを妨げている核心的な障壁は、その手法が探索と活用を同時に試みることであり、目標がしばしば矛盾するため探索と活用の両方に害を及ぼすことであると主張します。
我々は、2 つのポリシーを備えた新しいメタ RL フレームワーク (First-Explore) を提案します。1 つのポリシーは探索のみを学習し、もう 1 つのポリシーは活用のみを学習します。
トレーニングが完了すると、必要なだけ探索ポリシーを使用して探索し、探索中に得られたすべての情報に基づいて活用できます。
このアプローチにより、探索と活用の両方を同時に実行しようとする際の矛盾が回避されます。
私たちは、First-Explore が徹底的な検索などのインテリジェントな探索戦略を学習できること、および探索に報酬を犠牲にする必要があるドメインで、主要な標準的な RL およびメタ RL アプローチよりも優れたパフォーマンスを発揮することを実証します。
First-Explore は、目に見えない困難な探査領域を解決するために不可欠な人間レベルの探査を学習できるメタ RL アルゴリズムの作成に向けた重要なステップです。

要約(オリジナル)

Standard reinforcement learning (RL) agents never intelligently explore like a human (i.e. by taking into account complex domain priors and previous explorations). Even the most basic intelligent exploration strategies such as exhaustive search are only inefficiently or poorly approximated by approaches such as novelty search or intrinsic motivation, let alone more complicated strategies like learning new skills, climbing stairs, opening doors, or conducting experiments. This lack of intelligent exploration limits sample efficiency and prevents solving hard exploration domains. We argue a core barrier prohibiting many RL approaches from learning intelligent exploration is that the methods attempt to explore and exploit simultaneously, which harms both exploration and exploitation as the goals often conflict. We propose a novel meta-RL framework (First-Explore) with two policies: one policy learns to only explore and one policy learns to only exploit. Once trained, we can then explore with the explore policy, for as long as desired, and then exploit based on all the information gained during exploration. This approach avoids the conflict of trying to do both exploration and exploitation at once. We demonstrate that First-Explore can learn intelligent exploration strategies such as exhaustive search and more, and that it outperforms dominant standard RL and meta-RL approaches on domains where exploration requires sacrificing reward. First-Explore is a significant step towards creating meta-RL algorithms capable of learning human-level exploration which is essential to solve challenging unseen hard-exploration domains.

arxiv情報

著者 Ben Norman,Jeff Clune
発行日 2023-07-05 13:20:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク