要約
階層強化学習 (HRL) は、インテリジェント エージェントの報酬がまばらな複雑なタスクに有望なソリューションを提供します。これは、タスクをサブ目標に分割し、順番に完了する階層フレームワークを使用します。
しかし、現在の方法では、安定した学習プロセスを確保するための適切なサブ目標を見つけるのに苦労しています。
追加のガイダンスがなければ、探索またはヒューリスティック手法のみに依存して、大きな目標空間内のサブ目標を決定することは現実的ではありません。
この問題に対処するために、人間のフィードバックと動的距離制約 (MENTOR) を組み込んだ一般的な階層型強化学習フレームワークを提案します。
MENTOR は「メンター」として機能し、人間のフィードバックを高レベルのポリシー学習に組み込んで、より良いサブ目標を見つけます。
低レベルのポリシーに関しては、MENTOR はトレーニングを安定させるために、探索と活用を分離するための二重ポリシーをそれぞれ設計します。
さらに、人間は単純にタスクをサブ目標に分解して正しい学習方向に導くことができますが、サブ目標が難しすぎたり、簡単すぎたりすると、下流の学習効率が妨げられる可能性があります。
オプションのサブゴールのスペースを動的に調整する動的距離制約 (DDC) メカニズムを提案します。
したがって、MENTOR は、簡単なものから難しいものまで、低レベルのポリシー学習プロセスに一致するサブ目標を生成できます。
広範な実験により、MENTOR は少量の人的フィードバックを使用して、報酬がまばらな複雑なタスクで大幅な改善を達成することが実証されました。
要約(オリジナル)
Hierarchical reinforcement learning (HRL) provides a promising solution for complex tasks with sparse rewards of intelligent agents, which uses a hierarchical framework that divides tasks into subgoals and completes them sequentially. However, current methods struggle to find suitable subgoals for ensuring a stable learning process. Without additional guidance, it is impractical to rely solely on exploration or heuristics methods to determine subgoals in a large goal space. To address the issue, We propose a general hierarchical reinforcement learning framework incorporating human feedback and dynamic distance constraints (MENTOR). MENTOR acts as a ‘mentor’, incorporating human feedback into high-level policy learning, to find better subgoals. As for low-level policy, MENTOR designs a dual policy for exploration-exploitation decoupling respectively to stabilize the training. Furthermore, although humans can simply break down tasks into subgoals to guide the right learning direction, subgoals that are too difficult or too easy can still hinder downstream learning efficiency. We propose the Dynamic Distance Constraint (DDC) mechanism dynamically adjusting the space of optional subgoals. Thus MENTOR can generate subgoals matching the low-level policy learning process from easy to hard. Extensive experiments demonstrate that MENTOR uses a small amount of human feedback to achieve significant improvement in complex tasks with sparse rewards.
arxiv情報
著者 | Xinglin Zhou,Yifu Yuan,Shaofu Yang,Jianye Hao |
発行日 | 2024-11-27 13:27:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google