Decoupling Meta-Reinforcement Learning with Gaussian Task Contexts and Skills

要約

オフラインのメタ強化学習 (meta-RL) 手法は、これまでの経験に基づいて目に見えないターゲット タスクに適応する手法であり、ロボット制御タスクには不可欠です。
現在の方法は通常、タスク コンテキストとスキルを以前の経験として利用します。タスク コンテキストは各タスク内の情報に関連付けられ、スキルはサブタスクを解決するための時間的に拡張された一連のアクションを表します。
しかし、これらの方法は、まだ目に見えないターゲットタスクに適応する際のパフォーマンスが制限されています。これは主に、学習された事前経験に一般化が欠けているためです。つまり、連続的な潜在空間の探索と学習によってメタトレーニングタスクから効果的な事前経験を抽出することができません。
我々は、分離メタ強化学習 (DCMRL) と呼ばれるフレームワークを提案します。このフレームワークは、(1) 同じタスク内で類似のタスク コンテキストを引き込み、異なるタスクの異なるタスク コンテキストを押しのけることで、タスク コンテキストの学習を対照的に制限します。(2)
タスクコンテキストとスキルそれぞれのガウス分布をクラスタリングし、それらの空間の探索と学習のプロセスを分離するためのガウス量子化変分オートエンコーダ (GQ-VAE)。
タスク コンテキストとスキルの代表的かつ離散的な分布として機能するこれらのクラスター センターは、それぞれタスク コンテキスト コードブックとスキル コードブックに格納されます。
DCMRL は、一般化可能な事前の経験を取得し、メタテスト段階で目に見えないターゲットタスクへの効果的な適応を達成できます。
ナビゲーションおよびロボット操作の連続制御タスクにおける実験では、より一般化可能な以前の経験により、DCMRL が以前のメタ RL 手法よりも効果的であることが示されています。

要約(オリジナル)

Offline meta-reinforcement learning (meta-RL) methods, which adapt to unseen target tasks with prior experience, are essential in robot control tasks. Current methods typically utilize task contexts and skills as prior experience, where task contexts are related to the information within each task and skills represent a set of temporally extended actions for solving subtasks. However, these methods still suffer from limited performance when adapting to unseen target tasks, mainly because the learned prior experience lacks generalization, i.e., they are unable to extract effective prior experience from meta-training tasks by exploration and learning of continuous latent spaces. We propose a framework called decoupled meta-reinforcement learning (DCMRL), which (1) contrastively restricts the learning of task contexts through pulling in similar task contexts within the same task and pushing away different task contexts of different tasks, and (2) utilizes a Gaussian quantization variational autoencoder (GQ-VAE) for clustering the Gaussian distributions of the task contexts and skills respectively, and decoupling the exploration and learning processes of their spaces. These cluster centers which serve as representative and discrete distributions of task context and skill are stored in task context codebook and skill codebook, respectively. DCMRL can acquire generalizable prior experience and achieve effective adaptation to unseen target tasks during the meta-testing phase. Experiments in the navigation and robot manipulation continuous control tasks show that DCMRL is more effective than previous meta-RL methods with more generalizable prior experience.

arxiv情報

著者 Hongcai He,Anjie Zhu,Shuang Liang,Feiyu Chen,Jie Shao
発行日 2023-12-11 16:50:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク