Sample Efficient Reinforcement Learning by Automatically Learning to Compose Subtasks

要約

サンプル効率の向上は、特に報酬がまばらな環境において、強化学習 (RL) の中心となります。
最近のいくつかのアプローチでは、手動で設計または学習された報酬構造として報酬関数を指定することが提案されており、RL アルゴリズムに統合すると、学習効率が大幅に向上すると主張されています。
手動で設計された報酬構造は不正確さの影響を受ける可能性があり、既存の自動学習方法では複雑なタスクに対して計算が困難なことがよくあります。
RL アルゴリズムに不正確または部分的な報酬構造を統合すると、最適なポリシーを学習できなくなります。
この研究では、サブタスクを表すラベルのセットが与えられた場合に、サンプル効率の報酬関数を自動的に構築できる RL アルゴリズムを提案します。
タスクに関する最小限の知識を前提として、各状態で最適なサブタスクを選択する高レベルのポリシーと、各サブタスクを完了する方法を効率的に学習する低レベルのポリシーをトレーニングします。
私たちは、報酬が少ないさまざまな環境でアルゴリズムを評価します。
実験結果は、タスクの難易度が上がるにつれて、私たちのアプローチが最先端のベースラインよりも大幅に優れていることを示しています。

要約(オリジナル)

Improving sample efficiency is central to Reinforcement Learning (RL), especially in environments where the rewards are sparse. Some recent approaches have proposed to specify reward functions as manually designed or learned reward structures whose integrations in the RL algorithms are claimed to significantly improve the learning efficiency. Manually designed reward structures can suffer from inaccuracy and existing automatically learning methods are often computationally intractable for complex tasks. The integration of inaccurate or partial reward structures in RL algorithms fail to learn optimal policies. In this work, we propose an RL algorithm that can automatically structure the reward function for sample efficiency, given a set of labels that signify subtasks. Given such minimal knowledge about the task, we train a high-level policy that selects optimal sub-tasks in each state together with a low-level policy that efficiently learns to complete each sub-task. We evaluate our algorithm in a variety of sparse-reward environments. The experiment results show that our approach significantly outperforms the state-of-art baselines as the difficulty of the task increases.

arxiv情報

著者 Shuai Han,Mehdi Dastani,Shihan Wang
発行日 2024-01-25 15:06:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク