要約
長期的な計画と継続的な制御機能の両方を必要とする問題は、既存の強化学習エージェントに重大な課題をもたらします。
この論文では、継続制御のための時間的に拡張されたスキルを、計画のための環境状態の記号的離散抽象化における順モデルとリンクする、新しい階層型強化学習エージェントを紹介します。
私たちはエージェントを Symbolic Effect-Aware Diverse Skills を意味する SEADS と呼んでいます。
既知の状態抽象化を前提として、内発的動機づけを通じて多様なスキルセットの教師なし学習につながる、客観的で対応するアルゴリズムを定式化します。
スキルは、状態抽象化でスキル実行の効果を捉えるシンボリックフォワードモデルと共同して学習されます。
トレーニング後は、長期計画のフォワード モデルを使用してスキルを象徴的なアクションとして活用し、その後、学習した連続アクション制御スキルを使用して計画を実行できます。
提案されたアルゴリズムは、継続的な制御と長期的な計画能力の両方を必要とする複雑なタスクを高い成功率で解決するために使用できるスキルとフォワードモデルを学習します。
これは、他のフラットおよび階層型強化学習ベースライン エージェントと比較して優れており、実際のロボットでの実証に成功しています。
要約(オリジナル)
Problems which require both long-horizon planning and continuous control capabilities pose significant challenges to existing reinforcement learning agents. In this paper we introduce a novel hierarchical reinforcement learning agent which links temporally extended skills for continuous control with a forward model in a symbolic discrete abstraction of the environment’s state for planning. We term our agent SEADS for Symbolic Effect-Aware Diverse Skills. We formulate an objective and corresponding algorithm which leads to unsupervised learning of a diverse set of skills through intrinsic motivation given a known state abstraction. The skills are jointly learned with the symbolic forward model which captures the effect of skill execution in the state abstraction. After training, we can leverage the skills as symbolic actions using the forward model for long-horizon planning and subsequently execute the plan using the learned continuous-action control skills. The proposed algorithm learns skills and forward models that can be used to solve complex tasks which require both continuous control and long-horizon planning capabilities with high success rate. It compares favorably with other flat and hierarchical reinforcement learning baseline agents and is successfully demonstrated with a real robot.
arxiv情報
著者 | Jan Achterhold,Markus Krimmel,Joerg Stueckler |
発行日 | 2023-07-24 13:46:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google