AGaLiTe: Approximate Gated Linear Transformers for Online Reinforcement Learning

要約

この論文では、部分的に観察可能なオンライン強化学習用に設計されたトランスフォーマー アーキテクチャを調査します。
トランスフォーマー アーキテクチャのセルフ アテンション メカニズムは、長距離の依存関係を捕捉することができ、これがシーケンシャル データの処理における有効性の背後にある主な理由です。
それにも関わらず、成功にもかかわらず、トランスフォーマーにはオンライン強化学習への適用性を依然として制限する 2 つの重大な欠点があります。(1) 過去の情報をすべて記憶するために、自己注意メカニズムはコンテキストとして提供される履歴全体にアクセスする必要があります。
(2) 変圧器の推論コストは高価です。
この論文では、コンテキストに依存しない推論コストを提供し、長距離の依存関係を効果的に活用し、オンライン強化学習タスクで適切に実行する、トランスフォーマー セルフ アテンション メカニズムの反復的な代替手段を紹介します。
当社は、診断環境におけるアーキテクチャのさまざまなコンポーネントの影響を定量化し、2D および 3D ピクセルベースの部分的に観察可能な環境 (T-Maze、Mystery Path、Craftax、Memory Maze など) でのパフォーマンスの向上を評価します。
最先端のアーキテクチャである GTrXL と比較して、私たちのアプローチの推論は少なくとも 40% 安価であり、メモリ使用量は 50% 以上削減されます。
私たちのアプローチは GTrXL と同等かそれ以上のパフォーマンスを発揮し、より困難なタスクにおいて GTrXL のパフォーマンスを 37% 以上向上させます。

要約(オリジナル)

In this paper we investigate transformer architectures designed for partially observable online reinforcement learning. The self-attention mechanism in the transformer architecture is capable of capturing long-range dependencies and it is the main reason behind its effectiveness in processing sequential data. Nevertheless, despite their success, transformers have two significant drawbacks that still limit their applicability in online reinforcement learning: (1) in order to remember all past information, the self-attention mechanism requires access to the whole history to be provided as context. (2) The inference cost in transformers is expensive. In this paper, we introduce recurrent alternatives to the transformer self-attention mechanism that offer context-independent inference cost, leverage long-range dependencies effectively, and performs well in online reinforcement learning task. We quantify the impact of the different components of our architecture in a diagnostic environment and assess performance gains in 2D and 3D pixel-based partially-observable environments (e.g. T-Maze, Mystery Path, Craftax, and Memory Maze). Compared with a state-of-the-art architecture, GTrXL, inference in our approach is at least 40% cheaper while reducing memory use more than 50%. Our approach either performs similarly or better than GTrXL, improving more than 37% upon GTrXL performance in harder tasks.

arxiv情報

著者 Subhojeet Pramanik,Esraa Elelimy,Marlos C. Machado,Adam White
発行日 2024-10-15 17:14:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク