要約
メタ強化学習 (meta-RL) は、以前のタスクからの知識を活用して、新しいタスクを迅速に解決することを目的としています。
ただし、以前の研究では、多くの場合、タスク間の可能な構造化された異質性を無視して、単一モードの同種のタスク分布を想定しています。
このような構造を活用すると、関連するタスク間で知識を共有しやすくなり、サンプルの効率が向上します。
この論文では、クラスタリングを介してタスク間の構造化された不均一性を調査し、メタRLを改善します。
分割統治を通じてタスク構造を発見するための専用の探索的ポリシーを開発します。
識別されたクラスターの知識は、タスク固有の情報の検索スペースを狭めるのに役立ち、よりサンプルの効率的なポリシー適応につながります。
さまざまな MuJoCo タスクの実験では、提案された方法が報酬と状態ダイナミクスの両方でクラスター構造を効果的に解明できることが示され、一連の最先端のベースラインに対して強力な利点があることが証明されました。
要約(オリジナル)
Meta-reinforcement learning (meta-RL) aims to quickly solve new tasks by leveraging knowledge from prior tasks. However, previous studies often assume a single mode homogeneous task distribution, ignoring possible structured heterogeneity among tasks. Leveraging such structures can better facilitate knowledge sharing among related tasks and thus improve sample efficiency. In this paper, we explore the structured heterogeneity among tasks via clustering to improve meta-RL. We develop a dedicated exploratory policy to discover task structures via divide-and-conquer. The knowledge of the identified clusters helps to narrow the search space of task-specific information, leading to more sample efficient policy adaptation. Experiments on various MuJoCo tasks showed the proposed method can unravel cluster structures effectively in both rewards and state dynamics, proving strong advantages against a set of state-of-the-art baselines.
arxiv情報
著者 | Zhendong Chu,Hongning Wang |
発行日 | 2023-02-15 21:42:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google