Memory Gym: Towards Endless Tasks to Benchmark Memory Capabilities of Agents

要約

Memory Gymは、意思決定エージェントの記憶能力をベンチマークするためにデザインされた、Mortar Mayhem、Mystery Path、Searing Spotlightsといった、部分的に観察可能な2D環境群を紹介する。これらの環境は元々有限のタスクで構成されているが、「私は荷物をまとめた」のような累積記憶ゲームのエスカレートする課題を反映し、革新的でエンドレスなフォーマットへと拡張されている。このようなタスクデザインの進歩は、単にサンプルの効率を評価することから、ダイナミックで長時間のシナリオにおける記憶の有効性のレベルを探ることへと焦点をシフトする。利用可能なメモリベースの深層強化学習ベースラインのギャップに対処するために、我々はTransformer-XL(TrXL)とProximal Policy Optimizationを統合した実装を紹介する。このアプローチでは、TrXLをエピソード記憶の一形態として利用し、スライディングウィンドウ技術を採用する。Gated Recurrent Unit (GRU)とTrXLの比較研究により、異なる設定において様々な性能があることが明らかになった。TrXLは有限環境において、Mystery Pathでは優れたサンプル効率を示し、Mortar Mayhemでは上回る。しかし、Searing SpotlightsではGRUの方が効率的である。最も注目すべきは、すべてのエンドレスタスクにおいて、GRUが顕著な復活を遂げ、常にTrXLを大幅に上回っていることである。ウェブサイトとソースコード: https://github.com/MarcoMeter/endless-memory-gym/

要約(オリジナル)

Memory Gym presents a suite of 2D partially observable environments, namely Mortar Mayhem, Mystery Path, and Searing Spotlights, designed to benchmark memory capabilities in decision-making agents. These environments, originally with finite tasks, are expanded into innovative, endless formats, mirroring the escalating challenges of cumulative memory games such as “I packed my bag”. This progression in task design shifts the focus from merely assessing sample efficiency to also probing the levels of memory effectiveness in dynamic, prolonged scenarios. To address the gap in available memory-based Deep Reinforcement Learning baselines, we introduce an implementation that integrates Transformer-XL (TrXL) with Proximal Policy Optimization. This approach utilizes TrXL as a form of episodic memory, employing a sliding window technique. Our comparative study between the Gated Recurrent Unit (GRU) and TrXL reveals varied performances across different settings. TrXL, on the finite environments, demonstrates superior sample efficiency in Mystery Path and outperforms in Mortar Mayhem. However, GRU is more efficient on Searing Spotlights. Most notably, in all endless tasks, GRU makes a remarkable resurgence, consistently outperforming TrXL by significant margins. Website and Source Code: https://github.com/MarcoMeter/endless-memory-gym/

arxiv情報

著者 Marco Pleines,Matthias Pallasch,Frank Zimmer,Mike Preuss
発行日 2024-01-03 07:53:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク