要約
最近、オフライン強化学習におけるトランスフォーマーの使用が急速に発展している分野となっています。
これは、環境内のエージェントの軌跡をシーケンスとして扱うことができるため、ポリシー学習の問題がシーケンス モデリングに還元されます。
エージェントの決定が過去のイベント (POMDP) に依存する環境では、モデルのコンテキストでイベント自体と決定ポイントの両方をキャプチャすることが不可欠です。
ただし、注意メカニズムの二次的な複雑さにより、コンテキスト拡張の可能性が制限されます。
この問題に対する 1 つの解決策は、メモリ機構を備えた変圧器を強化することです。
この論文では、情報保持を制御するために設計されたリカレント メモリ メカニズムを組み込んだ新しいモデル アーキテクチャである Recurrent Action Transformer with Memory (RATE) を提案します。
モデルを評価するために、メモリ集約型環境 (ViZDoom-Two-Colors、T-Maze、Memory Maze、Minigrid.Memory)、クラシックな Atari ゲーム、および MuJoCo コントロール環境で広範な実験を実施しました。
その結果、メモリを使用すると、従来の環境での結果を維持または改善しながら、メモリを大量に使用する環境でのパフォーマンスが大幅に向上することがわかりました。
私たちの発見が、オフライン強化学習に適用できる変換器の記憶メカニズムの研究を刺激することを願っています。
要約(オリジナル)
Recently, the use of transformers in offline reinforcement learning has become a rapidly developing area. This is due to their ability to treat the agent’s trajectory in the environment as a sequence, thereby reducing the policy learning problem to sequence modeling. In environments where the agent’s decisions depend on past events (POMDPs), capturing both the event itself and the decision point in the context of the model is essential. However, the quadratic complexity of the attention mechanism limits the potential for context expansion. One solution to this problem is to enhance transformers with memory mechanisms. This paper proposes a Recurrent Action Transformer with Memory (RATE), a novel model architecture incorporating a recurrent memory mechanism designed to regulate information retention. To evaluate our model, we conducted extensive experiments on memory-intensive environments (ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid.Memory), classic Atari games and MuJoCo control environments. The results show that using memory can significantly improve performance in memory-intensive environments while maintaining or improving results in classic environments. We hope our findings will stimulate research on memory mechanisms for transformers applicable to offline reinforcement learning.
arxiv情報
著者 | Egor Cherepanov,Alexey Staroverov,Dmitry Yudin,Alexey K. Kovalev,Aleksandr I. Panov |
発行日 | 2024-07-23 16:17:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google