要約
現実世界のシナリオにおける強化学習 (RL) などの逐次意思決定アルゴリズムは、必然的に部分的な可観測性を持つ環境に直面します。
この論文では、部分的に観察可能なマルコフ決定プロセス (POMDP) における一般的なアーキテクチャ、つまりトランスフォーマーの有効性を精査し、その理論的限界を明らかにします。
私たちは、Transformers がモデル化するのに苦労している通常言語が POMDP に還元可能であることを確立します。
これは、RNN などの他のモデルに見られる固有の再帰性が欠如しているため、POMDP 固有の帰納的バイアスを学習するトランスフォーマーにとって大きな課題となります。
この論文は、トランスフォーマーが RL のシーケンス モデルであるという一般的な信念に疑問を投げかけ、点ごとの再帰構造を導入することを提案します。
Deep Linear Recurrent Unit (LRU) は、Partially Observable RL に適した代替手段として浮上しており、トランスフォーマーの次善のパフォーマンスと LRU のかなりの強さを実証した結果が示されています。
要約(オリジナル)
Sequential decision-making algorithms such as reinforcement learning (RL) in real-world scenarios inevitably face environments with partial observability. This paper scrutinizes the effectiveness of a popular architecture, namely Transformers, in Partially Observable Markov Decision Processes (POMDPs) and reveals its theoretical limitations. We establish that regular languages, which Transformers struggle to model, are reducible to POMDPs. This poses a significant challenge for Transformers in learning POMDP-specific inductive biases, due to their lack of inherent recurrence found in other models like RNNs. This paper casts doubt on the prevalent belief in Transformers as sequence models for RL and proposes to introduce a point-wise recurrent structure. The Deep Linear Recurrent Unit (LRU) emerges as a well-suited alternative for Partially Observable RL, with empirical results highlighting the sub-optimal performance of the Transformer and considerable strength of LRU.
arxiv情報
著者 | Chenhao Lu,Ruizhe Shi,Yuyao Liu,Kaizhe Hu,Simon S. Du,Huazhe Xu |
発行日 | 2024-05-27 17:02:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google