要約
オープンエンド型学習では、目標表現に記号的手法を使用することで、効率的で転移可能な学習のための知識を構造化する方法が提供されるため、多大なメリットが得られます。
ただし、記号推論に依存する既存の階層強化学習 (HRL) アプローチは、手動での目標表現を必要とするため、制限されることがよくあります。
象徴的な目標表現を自律的に発見する際の課題は、環境ダイナミクスなどの重要な情報を保存しなければならないことです。
この論文では、タスク内で同様の役割を持つ環境状態のセットを抽象化する (つまり、グループ化する) 創発的表現を介して目標を発見するための開発メカニズムを提案します。
目標表現と階層型ポリシーの両方を同時に学習する Feudal HRL アルゴリズムを導入します。
このアルゴリズムは、ニューラル ネットワークのシンボリック到達可能性分析を使用して、状態セット間の遷移関係を近似し、目標表現を洗練します。
複雑なナビゲーション タスクに対するアプローチを評価し、学習された表現が解釈可能で転送可能であり、データ効率の高い学習が得られることを示します。
要約(オリジナル)
Open-ended learning benefits immensely from the use of symbolic methods for goal representation as they offer ways to structure knowledge for efficient and transferable learning. However, the existing Hierarchical Reinforcement Learning (HRL) approaches relying on symbolic reasoning are often limited as they require a manual goal representation. The challenge in autonomously discovering a symbolic goal representation is that it must preserve critical information, such as the environment dynamics. In this paper, we propose a developmental mechanism for goal discovery via an emergent representation that abstracts (i.e., groups together) sets of environment states that have similar roles in the task. We introduce a Feudal HRL algorithm that concurrently learns both the goal representation and a hierarchical policy. The algorithm uses symbolic reachability analysis for neural networks to approximate the transition relation among sets of states and to refine the goal representation. We evaluate our approach on complex navigation tasks, showing the learned representation is interpretable, transferrable and results in data efficient learning.
arxiv情報
著者 | Mehdi Zadem,Sergio Mover,Sao Mai Nguyen |
発行日 | 2023-09-14 12:39:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google