要約
不均一な目標選択は、均一でランダムな選択よりもスキルの強化学習 (RL) を向上させる可能性があります。
この論文では、内発的動機づけられた目標条件付きRLにおける目標選択ポリシーを学習するための方法である「ダイバーシティプログレス」(DP)を紹介します。
学習者は、一連の目標に対する識別能力の観察された改善に基づいてカリキュラムを作成します。
私たちが提案した方法は、識別能力を動機とするエージェントのクラスに適用でき、本質的な報酬は、追求されている真の目標に従うエージェントの確信度の関数として計算されます。
この報酬は、エージェントに外部報酬なしで一連の多様なスキルを学習させる動機を与えることができます。
我々は、DP に動機付けられたエージェントが、これまでのアプローチよりも早く一連の識別可能なスキルを学習でき、一部の従来のアプローチで知られていた問題である目標分布の崩壊に悩まされることなく学習できることを経験的に示しています。
最後に、この概念実証を進める計画について説明します。
要約(オリジナル)
Non-uniform goal selection has the potential to improve the reinforcement learning (RL) of skills over uniform-random selection. In this paper, we introduce a method for learning a goal-selection policy in intrinsically-motivated goal-conditioned RL: ‘Diversity Progress’ (DP). The learner forms a curriculum based on observed improvement in discriminability over its set of goals. Our proposed method is applicable to the class of discriminability-motivated agents, where the intrinsic reward is computed as a function of the agent’s certainty of following the true goal being pursued. This reward can motivate the agent to learn a set of diverse skills without extrinsic rewards. We demonstrate empirically that a DP-motivated agent can learn a set of distinguishable skills faster than previous approaches, and do so without suffering from a collapse of the goal distribution — a known issue with some prior approaches. We end with plans to take this proof-of-concept forward.
arxiv情報
著者 | Erik M. Lintunen,Nadia M. Ady,Christian Guckelsberger |
発行日 | 2024-11-06 14:52:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google