Transferable Curricula through Difficulty Conditioned Generators

要約

強化学習 (RL) の進歩により、スタークラフト、囲碁、チェスなどの複雑なタスクにおいて超人的なパフォーマンスが実証されました。しかし、人工の「専門家」から人間への知識の伝達は依然として大きな課題です。
このような移転の有望な手段は、カリキュラムの使用です。
カリキュラム生成における最近の方法は、RL エージェントを効率的にトレーニングすることに重点を置いていますが、そのような方法は生徒の進歩を追跡するための代理測定に依存しており、現実世界 (またはより野心的な人間) でのロボットのトレーニングには適していません。
この論文では、パラメータ化された環境で RL エージェントをトレーニングする際に有望な結果を示す、パラメータ化された環境応答モデル (PERM) と呼ばれる方法を紹介します。
項目反応理論に触発された PERM は、環境の困難さと RL エージェントの能力を直接モデル化することを目指しています。
RL エージェントと人間が「近接発達ゾーン」の下でより効率的に訓練されることを考慮すると、私たちの方法は、環境の難易度を生徒の現在の能力に合わせてカリキュラムを生成します。
さらに、PERM はオフラインでトレーニングでき、生徒の能力の非定常的な尺度を使用しないため、生徒間の移行に適しています。
環境パラメーター空間を表現する PERM の能力を実証し、PERM を使用した RL エージェントによるトレーニングは決定論的な環境で強力なパフォーマンスを生み出します。
最後に、トレーニングの質を犠牲にすることなく、私たちのメソッドが生徒間で応用可能であることを示します。

要約(オリジナル)

Advancements in reinforcement learning (RL) have demonstrated superhuman performance in complex tasks such as Starcraft, Go, Chess etc. However, knowledge transfer from Artificial ‘Experts’ to humans remain a significant challenge. A promising avenue for such transfer would be the use of curricula. Recent methods in curricula generation focuses on training RL agents efficiently, yet such methods rely on surrogate measures to track student progress, and are not suited for training robots in the real world (or more ambitiously humans). In this paper, we introduce a method named Parameterized Environment Response Model (PERM) that shows promising results in training RL agents in parameterized environments. Inspired by Item Response Theory, PERM seeks to model difficulty of environments and ability of RL agents directly. Given that RL agents and humans are trained more efficiently under the ‘zone of proximal development’, our method generates a curriculum by matching the difficulty of an environment to the current ability of the student. In addition, PERM can be trained offline and does not employ non-stationary measures of student ability, making it suitable for transfer between students. We demonstrate PERM’s ability to represent the environment parameter space, and training with RL agents with PERM produces a strong performance in deterministic environments. Lastly, we show that our method is transferable between students, without any sacrifice in training quality.

arxiv情報

著者 Sidney Tio,Pradeep Varakantham
発行日 2023-06-22 16:45:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク