Memory Gym: Towards Endless Tasks to Benchmark Memory Capabilities of Agents

要約

Memory Gym は、意思決定エージェントの記憶能力をベンチマークするように設計された、Mortar Mayhem、Mystery Path、Searing Spotlights という 2D 部分観察可能な環境スイートを提供します。
これらの環境は、もともと有限のタスクを備えていましたが、革新的で無限の形式に拡張され、「バッグに荷物を詰めました」などの累積記憶ゲームのエスカレートする課題を反映しています。
タスク設計におけるこの進歩により、単にサンプル効率を評価することから、動的で長期にわたるシナリオにおけるメモリ効率のレベルを調査することに焦点が移ってきました。
利用可能なメモリベースの深層強化学習ベースラインのギャップに対処するために、Transformer-XL (TrXL) と Proximal Policy Optimization を統合する実装を導入します。
このアプローチでは、スライディング ウィンドウ技術を使用して、エピソード記憶の形式として TrXL を利用します。
Gated Recurrent Unit (GRU) と TrXL の比較研究により、さまざまな設定でパフォーマンスが異なることが明らかになりました。
TrXL は、有限環境において、Mystery Path で優れたサンプル効率を示し、Mortar Mayhem で優れたパフォーマンスを発揮します。
ただし、Searing Spotlights では GRU の方が効率的です。
最も注目すべきは、すべての終わりのないタスクにおいて、GRU が目覚ましい復活を遂げ、一貫して TrXL を大幅に上回っていることです。
ウェブサイトとソースコード: \url{https://github.com/MarcoMeter/endless-memory-gym/}

要約(オリジナル)

Memory Gym presents a suite of 2D partially observable environments, namely Mortar Mayhem, Mystery Path, and Searing Spotlights, designed to benchmark memory capabilities in decision-making agents. These environments, originally with finite tasks, are expanded into innovative, endless formats, mirroring the escalating challenges of cumulative memory games such as “I packed my bag”. This progression in task design shifts the focus from merely assessing sample efficiency to also probing the levels of memory effectiveness in dynamic, prolonged scenarios. To address the gap in available memory-based Deep Reinforcement Learning baselines, we introduce an implementation that integrates Transformer-XL (TrXL) with Proximal Policy Optimization. This approach utilizes TrXL as a form of episodic memory, employing a sliding window technique. Our comparative study between the Gated Recurrent Unit (GRU) and TrXL reveals varied performances across different settings. TrXL, on the finite environments, demonstrates superior sample efficiency in Mystery Path and outperforms in Mortar Mayhem. However, GRU is more efficient on Searing Spotlights. Most notably, in all endless tasks, GRU makes a remarkable resurgence, consistently outperforming TrXL by significant margins. Website and Source Code: \url{https://github.com/MarcoMeter/endless-memory-gym/}

arxiv情報

著者 Marco Pleines,Matthias Pallasch,Frank Zimmer,Mike Preuss
発行日 2024-01-02 10:13:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク