Adaptive Teaching in Heterogeneous Agents: Balancing Surprise in Sparse Reward Scenarios

要約

デモンストレーションからの学習 (LfD) は、ポリシーを並行してトレーニングするのではなく、「生徒」エージェントが最も経験豊富な「教師」エージェントのデモンストレーションから学習できるようにすることで、類似のエージェントを使用してシステムをトレーニングする効率的な方法となります。
ただし、発散アクチュエータの出力や関節角度の制約など、エージェントの能力に矛盾がある場合、生徒の能力の範囲を超えたデモンストレーションを単純に複製すると、効率的な学習が制限される可能性があります。
私たちは、教師と生徒のエージェント間の異質性の課題に対処するために特別に調整された教師と生徒の学習フレームワークを紹介します。
私たちのフレームワークは「サプライズ」の概念に基づいており、報酬が少ない環境での探求へのインセンティブへの応用からインスピレーションを得ています。
驚きは、教師が自分と生徒の違いを検出し、それに適応できるようにするために再利用されます。
環境に応じて驚きを最大化すると同時に、デモンストレーションに応じて生徒の驚きを最小限に抑えることに重点を置くことで、教師エージェントはデモンストレーションを生徒の特定の能力と制約に合わせて効果的に調整できます。
私たちは、報酬が少ない環境での制御タスクにおける生徒の学習の改善を実証することによって、私たちの方法を検証します。

要約(オリジナル)

Learning from Demonstration (LfD) can be an efficient way to train systems with analogous agents by enabling “Student” agents to learn from the demonstrations of the most experienced “Teacher” agent, instead of training their policy in parallel. However, when there are discrepancies in agent capabilities, such as divergent actuator power or joint angle constraints, naively replicating demonstrations that are out of bounds for the Student’s capability can limit efficient learning. We present a Teacher-Student learning framework specifically tailored to address the challenge of heterogeneity between the Teacher and Student agents. Our framework is based on the concept of “surprise”, inspired by its application in exploration incentivization in sparse-reward environments. Surprise is repurposed to enable the Teacher to detect and adapt to differences between itself and the Student. By focusing on maximizing its surprise in response to the environment while concurrently minimizing the Student’s surprise in response to the demonstrations, the Teacher agent can effectively tailor its demonstrations to the Student’s specific capabilities and constraints. We validate our method by demonstrating improvements in the Student’s learning in control tasks within sparse-reward environments.

arxiv情報

著者 Emma Clark,Kanghyun Ryu,Negar Mehr
発行日 2024-05-23 05:52:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク