要約
階層的強化学習(HRL)は、従来の強化学習アルゴリズムとは対照的に、報酬スキームが疎なロボットの学習タスクに内在する階層性を利用できると仮定されている。本研究では、複雑なナビゲーション課題において、階層型強化学習を評価し、標準的な強化学習と対比する。HRLのユニークな特徴として、サブゴールの作成能力や終端関数を評価する。PPOとHRLの違い、サブゴールの作成方法の違い、手動と自動のサブゴール作成方法、終了頻度がパフォーマンスに与える影響などを検証する実験を構築しました。これらの実験により、HRLの長所とその長所の実現方法が明らかになりました。
要約(オリジナル)
Hierarchical reinforcement learning (HRL) is hypothesized to be able to take advantage of the inherent hierarchy in robot learning tasks with sparse reward schemes, in contrast to more traditional reinforcement learning algorithms. In this research, hierarchical reinforcement learning is evaluated and contrasted with standard reinforcement learning in complex navigation tasks. We evaluate unique characteristics of HRL, including their ability to create sub-goals and the termination function. We constructed experiments to test the differences between PPO and HRL, different ways of creating sub-goals, manual vs automatic sub-goal creation, and the effects of the frequency of termination on performance. These experiments highlight the advantages of HRL and how it achieves these advantages.
arxiv情報
著者 | Brendon Johnson,Alfredo Weitzenfeld |
発行日 | 2025-05-05 17:21:55+00:00 |
arxivサイト | arxiv_id(pdf) |