要約
【タイトル】強化学習における過学習問題に対するメモリ効率的な解決法
【要約】
-深層強化学習エージェントは、新しいデータでトレーニングする際に、入力空間の一部で以前に見つけた解決策を忘れてしまうという過学習問題に直面する
-問題に対する共通の解決策であるリプレイメモリは、以前と新しいトレーニングサンプルを相関関係を低減、シャッフルすることで解決する
-それでも、リプレイメモリは、重複を考慮せず、状態の推移を単純にメモリに格納する方法である
-著者らは、ワールドマップに似た自己組織化ネットワークである成長型呼び出し制御ネットワーク(GWR)に基づく、革新的なリプレイメモリ手法を紹介する
-この手法は、保存された状態の遷移を環境モデル的な状態ノードと遷移エッジの簡潔なネットワークに組織化することで、似たようなサンプルをマージしてメモリサイズを削減し、ペアごとの距離を増加させることで、各サンプルの関連性を高める
-最終的に、著者らの研究は、マップベースのエクスペリエンスリプレイが、わずかな性能低下に対して大幅なメモリ削減を提供することを示唆している。
要約(オリジナル)
Deep Reinforcement Learning agents often suffer from catastrophic forgetting, forgetting previously found solutions in parts of the input space when training on new data. Replay Memories are a common solution to the problem, decorrelating and shuffling old and new training samples. They naively store state transitions as they come in, without regard for redundancy. We introduce a novel cognitive-inspired replay memory approach based on the Grow-When-Required (GWR) self-organizing network, which resembles a map-based mental model of the world. Our approach organizes stored transitions into a concise environment-model-like network of state-nodes and transition-edges, merging similar samples to reduce the memory size and increase pair-wise distance among samples, which increases the relevancy of each sample. Overall, our paper shows that map-based experience replay allows for significant memory reduction with only small performance decreases.
arxiv情報
著者 | Muhammad Burhan Hafez,Tilman Immisch,Tom Weber,Stefan Wermter |
発行日 | 2023-05-03 11:39:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI