要約
深層強化学習手法は、さまざまなタスクで優れたパフォーマンスを示しますが、報酬がまばらな大規模環境での困難な探索タスクでは依然として困難を伴います。
これに対処するために、環境が知られるにつれて減少する順モデル予測誤差を使用して固有の報酬を生成し、エージェントに新しい状態を探索する動機を与えることができます。
予測に基づく固有の報酬は、エージェントが困難な探索タスクを解決するのに役立ちますが、壊滅的な忘却に悩まされ、訪問した州では実際に増加する可能性があります。
まず、グリッドワールド環境における壊滅的な忘却の条件と原因を調べます。
次に、人間と動物の学習方法にヒントを得た新しいメソッド FARCuriosity を提案します。
この方法はフラグメンテーションとリコールに依存します。エージェントは驚きに基づいて環境をフラグメント化し、モジュールが環境全体でトレーニングされないようにフラグメントごとに異なるローカル好奇心モジュール (予測ベースの固有報酬関数) を使用します。
断片化イベントが発生するたびに、エージェントは現在のモジュールを長期メモリ (LTM) に保存し、新しいモジュールを初期化するか、現在の状態との一致に基づいて以前に保存されたモジュールを呼び出します。
FARCuriosity は、断片化とリコールにより、Atari ベンチマーク タスク スイートの多様で異種環境のゲームで忘れを減らし、全体的なパフォーマンスを向上させます。
したがって、この研究は、予測に基づく好奇心手法における壊滅的な忘却の問題を強調し、解決策を提案します。
要約(オリジナル)
Deep reinforcement learning methods exhibit impressive performance on a range of tasks but still struggle on hard exploration tasks in large environments with sparse rewards. To address this, intrinsic rewards can be generated using forward model prediction errors that decrease as the environment becomes known, and incentivize an agent to explore novel states. While prediction-based intrinsic rewards can help agents solve hard exploration tasks, they can suffer from catastrophic forgetting and actually increase at visited states. We first examine the conditions and causes of catastrophic forgetting in grid world environments. We then propose a new method FARCuriosity, inspired by how humans and animals learn. The method depends on fragmentation and recall: an agent fragments an environment based on surprisal, and uses different local curiosity modules (prediction-based intrinsic reward functions) for each fragment so that modules are not trained on the entire environment. At each fragmentation event, the agent stores the current module in long-term memory (LTM) and either initializes a new module or recalls a previously stored module based on its match with the current state. With fragmentation and recall, FARCuriosity achieves less forgetting and better overall performance in games with varied and heterogeneous environments in the Atari benchmark suite of tasks. Thus, this work highlights the problem of catastrophic forgetting in prediction-based curiosity methods and proposes a solution.
arxiv情報
著者 | Jaedong Hwang,Zhang-Wei Hong,Eric Chen,Akhilan Boopathy,Pulkit Agrawal,Ila Fiete |
発行日 | 2023-10-26 16:28:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google