要約
報酬がまばらな環境に対処することは、自律的なオープンエンド学習の設定で動作するように開発されたシステムにとって常に重要である。内発的動機づけは、深層強化学習アルゴリズムがそのようなシナリオで学習するのを助ける効果的な方法である可能性がある。実際、新奇性や好奇心などの内発的な報酬シグナルは、外発的な報酬が遅れたり、存在しない場合に探索を改善するために一般的に採用される。これまでの研究を基に、我々は、探索と自律的なサブゴール生成の”内発的に駆動される”フェーズと、疎な報酬、ゴール指向のポリシー学習のフェーズを交互に繰り返す2レベルのアーキテクチャを提案することで、疎な報酬の存在下でポリシーを学習する問題に取り組む。このアイデアは、それぞれが特定のサブパスに特化した複数の小さなネットワークを構築し、それらを将来の探索の出発点として使用することである。このシステムの2つのバージョンをジムスーパーマリオブラザーズ環境で訓練し、テストした。その結果、我々のアプローチの有効性と、最終的なゴールに向かう効率的な経路を生成するために自律的に環境をセグメント化することの重要性が示された。
要約(オリジナル)
Dealing with environments with sparse rewards has always been crucial for systems developed to operate in autonomous open-ended learning settings. Intrinsic Motivations could be an effective way to help Deep Reinforcement Learning algorithms learn in such scenarios. In fact, intrinsic reward signals, such as novelty or curiosity, are generally adopted to improve exploration when extrinsic rewards are delayed or absent. Building on previous works, we tackle the problem of learning policies in the presence of sparse rewards by proposing a two-level architecture that alternates an ”intrinsically driven” phase of exploration and autonomous sub-goal generation, to a phase of sparse reward, goal-directed policy learning. The idea is to build several small networks, each one specialized on a particular sub-path, and use them as starting points for future exploration without the need to further explore from scratch previously learnt paths. Two versions of the system have been trained and tested in the Gym SuperMarioBros environment without considering any additional extrinsic reward. The results show the validity of our approach and the importance of autonomously segment the environment to generate an efficient path towards the final goal.
arxiv情報
著者 | Gianluca Maselli,Vieri Giuliano Santucci |
発行日 | 2025-04-04 13:06:23+00:00 |
arxivサイト | arxiv_id(pdf) |