Reinforcement Learning with Fast and Forgetful Memory

要約

現実世界のほぼすべてのタスクは本質的に部分的に観測可能であるため、強化学習 (RL) ではメモリを使用する必要があります。
ほとんどのモデルフリーのアプローチは、RL が異なるトレーニング特性と効率特性を示す傾向があるにもかかわらず、教師あり学習 (SL) から借用した記憶モデルを使用して軌道を潜在マルコフ状態に要約します。
この不一致に対処するために、RL 専用に設計されたアルゴリズムに依存しないメモリ モデルである Fast and Forgetful Memory を導入します。
私たちのアプローチは、計算心理学にヒントを得た強力な構造事前分布によってモデル探索空間を制約します。
これはリカレント RL アルゴリズムにおけるリカレント ニューラル ネットワーク (RNN) のドロップイン代替品であり、ハイパーパラメーターを変更することなく、さまざまなリカレント ベンチマークやアルゴリズムにわたって RNN よりも大きな報酬を実現します。
さらに、Fast and Forgetful Memory は、対数時間と線形空間の複雑さにより、RNN よりも 2 桁速いトレーニング速度を示します。
私たちの実装は https://github.com/proroklab/ffm で入手できます。

要約(オリジナル)

Nearly all real world tasks are inherently partially observable, necessitating the use of memory in Reinforcement Learning (RL). Most model-free approaches summarize the trajectory into a latent Markov state using memory models borrowed from Supervised Learning (SL), even though RL tends to exhibit different training and efficiency characteristics. Addressing this discrepancy, we introduce Fast and Forgetful Memory, an algorithm-agnostic memory model designed specifically for RL. Our approach constrains the model search space via strong structural priors inspired by computational psychology. It is a drop-in replacement for recurrent neural networks (RNNs) in recurrent RL algorithms, achieving greater reward than RNNs across various recurrent benchmarks and algorithms without changing any hyperparameters. Moreover, Fast and Forgetful Memory exhibits training speeds two orders of magnitude faster than RNNs, attributed to its logarithmic time and linear space complexity. Our implementation is available at https://github.com/proroklab/ffm.

arxiv情報

著者 Steven Morad,Ryan Kortvelesy,Stephan Liwicki,Amanda Prorok
発行日 2023-10-06 09:56:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク