Map-based Experience Replay: A Memory-Efficient Solution to Catastrophic Forgetting in Reinforcement Learning

要約

深層強化学習エージェントは、新しいデータでトレーニングするときに、入力空間の一部で以前に見つけた解を忘れてしまう、壊滅的な忘却に悩まされることがよくあります。
リプレイ メモリは問題に対する一般的な解決策であり、古いトレーニング サンプルと新しいトレーニング サンプルを無相関化してシャッフルします。
これらは、冗長性を考慮せず、状態遷移を受信したときに単純に保存します。
私たちは、世界の地図ベースのメンタル モデルに似た Grow-When-Required (GWR) 自己組織化ネットワークに基づいた、認知にインスピレーションを得た新しい再生記憶アプローチを紹介します。
私たちのアプローチは、保存された遷移を状態ノードと遷移エッジの簡潔な環境モデルのようなネットワークに編成し、同様のサンプルをマージしてメモリ サイズを削減し、サンプル間のペアワイズ距離を増やすことで、各サンプルの関連性を高めます。
全体として、私たちの論文は、マップベースのエクスペリエンスをリプレイすると、パフォーマンスの低下はわずかでありながら、大幅なメモリ削減が可能であることを示しています。

要約(オリジナル)

Deep Reinforcement Learning agents often suffer from catastrophic forgetting, forgetting previously found solutions in parts of the input space when training on new data. Replay Memories are a common solution to the problem, decorrelating and shuffling old and new training samples. They naively store state transitions as they come in, without regard for redundancy. We introduce a novel cognitive-inspired replay memory approach based on the Grow-When-Required (GWR) self-organizing network, which resembles a map-based mental model of the world. Our approach organizes stored transitions into a concise environment-model-like network of state-nodes and transition-edges, merging similar samples to reduce the memory size and increase pair-wise distance among samples, which increases the relevancy of each sample. Overall, our paper shows that map-based experience replay allows for significant memory reduction with only small performance decreases.

arxiv情報

著者 Muhammad Burhan Hafez,Tilman Immisch,Tom Weber,Stefan Wermter
発行日 2023-08-28 14:38:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク