Recurrent Action Transformer with Memory

要約

最近、オフライン強化学習におけるトランスフォーマーの使用が急速に発展している分野となっています。
これは、環境内のエージェントの軌跡をシーケンスとして扱うことができるため、ポリシー学習の問題がシーケンス モデリングに還元されます。
エージェントの決定が過去のイベントに依存する環境では、イベント自体と決定ポイントの両方をモデルのコンテキストで把握することが重要です。
ただし、注意メカニズムの二次的な複雑さにより、コンテキスト拡張の​​可能性が制限されます。
この問題に対する 1 つの解決策は、メモリ機構を備えた変圧器を強化することです。
この論文では、リカレント メモリを組み込んだモデルである Recurrent Action Transformer with Memory (RATE) を提案します。
モデルを評価するために、メモリ集約型の環境 (VizDoom-Two-Color、T-Maze) と、古典的な Atari ゲームおよび MuJoCo コントロール環境の両方で広範な実験を実施しました。
この結果は、メモリを使用すると、従来の環境での結果を維持または向上させながら、メモリを大量に使用する環境でのパフォーマンスを大幅に向上させることができることを示しています。
私たちの発見が、オフライン強化学習に適用できる変換器の記憶メカニズムの研究を刺激することを願っています。

要約(オリジナル)

Recently, the use of transformers in offline reinforcement learning has become a rapidly developing area. This is due to their ability to treat the agent’s trajectory in the environment as a sequence, thereby reducing the policy learning problem to sequence modeling. In environments where the agent’s decisions depend on past events, it is essential to capture both the event itself and the decision point in the context of the model. However, the quadratic complexity of the attention mechanism limits the potential for context expansion. One solution to this problem is to enhance transformers with memory mechanisms. In this paper, we propose the Recurrent Action Transformer with Memory (RATE) – a model that incorporates recurrent memory. To evaluate our model, we conducted extensive experiments on both memory-intensive environments (VizDoom-Two-Color, T-Maze) and classic Atari games and MuJoCo control environments. The results show that the use of memory can significantly improve performance in memory-intensive environments while maintaining or improving results in classic environments. We hope that our findings will stimulate research on memory mechanisms for transformers applicable to offline reinforcement learning.

arxiv情報

著者 Alexey Staroverov,Egor Cherepanov,Dmitry Yudin,Alexey K. Kovalev,Aleksandr I. Panov
発行日 2024-03-27 14:02:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク