Continuous Episodic Control

要約

タイトル:Continuous Episodic Control
要約:
– 非パラメトリックなエピソードメモリは、強化学習タスクで高報酬の経験に迅速にアクセスするために使用できる。
– パラメトリックな深層強化学習手法では報酬シグナルをゆっくりと逆伝播する必要があり、これらの手法は一度解決策を発見すればタスクを繰り返し解決できます。
– これまで、エピソード制御ソリューションは離散的なテーブルに格納され、このアプローチは離散的な行動空間の問題にのみ適用されてきました。
– この論文では、連続的な行動空間を持つ問題のための新しい非パラメトリックなエピソードメモリアルゴリズムであるContinuous EpisodicControl(CEC)を紹介する。
– 疎な報酬を持つ複数の連続的な制御環境に関する結果により、提案された方法は最先端のモデルフリーRLおよびメモリの補助を受けたRLアルゴリズムよりも速く学習し、長期的なパフォーマンスを維持することができる。
– Continuous Episodic Control(CEC)は、連続制御タスクでの学習において、高速なアプローチとなり得る。

要約(オリジナル)

Non-parametric episodic memory can be used to quickly latch onto high-rewarded experience in reinforcement learning tasks. In contrast to parametric deep reinforcement learning approaches in which reward signals need to be back-propagated slowly, these methods only need to discover the solution once, and may then repeatedly solve the task. However, episodic control solutions are stored in discrete tables, and this approach has so far only been applied to discrete action space problems. Therefore, this paper introduces Continuous Episodic Control (CEC), a novel non-parametric episodic memory algorithm for sequential decision making in problems with a continuous action space. Results on several sparse-reward continuous control environments show that our proposed method learns faster than state-of-the-art model-free RL and memory-augmented RL algorithms, while maintaining good long-run performance as well. In short, CEC can be a fast approach for learning in continuous control tasks.

arxiv情報

著者 Zhao Yang,Thomas M. Moerland,Mike Preuss,Aske Plaat
発行日 2023-04-23 09:21:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク