要約
最先端の深層強化学習アルゴリズムは、漸近的なパフォーマンスを達成するために必要なエピソード数が多いため、サンプル効率が低くなります。
哺乳類の海馬にヒントを得たエピソード強化学習 (ERL) アルゴリズムは、通常、拡張メモリ システムを使用して過去のイベントから学習をブートストラップし、このサンプル効率の問題を克服します。
しかし、そのような記憶の増強は単なるバッファーとして使用されることが多く、そこから分離された過去の経験がオフライン形式で学習するために抽出されます (例: リプレイ)。
ここでは、エピソード サンプリングの順序に由来する取得されたメモリ内容にバイアスを含めることで、エピソード制御アルゴリズムのサンプル効率とメモリ効率の両方が向上することを示します。
フォージング タスクで Sequential Episodic Control(SEC)モデルをテストし、統合されたエピソードをイベント シーケンスとして保存して使用すると、分離されたバッファーを使用する標準 ERL ベンチマークであるモデルフリーのエピソード制御とは対照的に、より少ないメモリ要件で学習が高速化されることを示します。
イベントのみ。
また、SEC アルゴリズムの逐次バージョンと非逐次バージョンにおけるメモリ制約と忘却の影響も研究します。
さらに、海馬のような高速記憶システムが、哺乳類の脳における習慣形成を維持する遅い皮質および皮質下の学習をどのようにブートストラップできるかについて議論します。
要約(オリジナル)
State of the art deep reinforcement learning algorithms are sample inefficient due to the large number of episodes they require to achieve asymptotic performance. Episodic Reinforcement Learning (ERL) algorithms, inspired by the mammalian hippocampus, typically use extended memory systems to bootstrap learning from past events to overcome this sample-inefficiency problem. However, such memory augmentations are often used as mere buffers, from which isolated past experiences are drawn to learn from in an offline fashion (e.g., replay). Here, we demonstrate that including a bias in the acquired memory content derived from the order of episodic sampling improves both the sample and memory efficiency of an episodic control algorithm. We test our Sequential Episodic Control (SEC) model in a foraging task to show that storing and using integrated episodes as event sequences leads to faster learning with fewer memory requirements as opposed to a standard ERL benchmark, Model-Free Episodic Control, that buffers isolated events only. We also study the effect of memory constraints and forgetting on the sequential and non-sequential version of the SEC algorithm. Furthermore, we discuss how a hippocampal-like fast memory system could bootstrap slow cortical and subcortical learning subserving habit formation in the mammalian brain.
arxiv情報
著者 | Ismael T. Freire,Adrián F. Amil,Paul F. M. J. Verschure |
発行日 | 2024-06-06 15:50:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google