Minimizing Human Assistance: Augmenting a Single Demonstration for Deep Reinforcement Learning

要約

強化学習で人間のデモを使用すると、エージェントのパフォーマンスが大幅に向上することが証明されています。
ただし、人間が手動でモデルを「教える」という要件は、強化学習の目標とはやや正反対です。
このホワイト ペーパーでは、使いやすい仮想現実シミュレーションを通じて収集された 1 つの人間の例を使用して RL トレーニングを支援することにより、パフォーマンスの利点を維持しながら、学習プロセスへの人間の関与を最小限に抑えることを試みます。
私たちの方法は、単一のデモンストレーションを拡張して、人間に似た多数のデモンストレーションを生成し、Deep Deterministic Policy Gradients および Hindsight Experience Replay (DDPG + HER) と組み合わせると、単純なタスクのトレーニング時間を大幅に改善し、エージェントが複雑なタスク (ブロック スタッキング) を解決できるようにします。
) DDPG + HER だけでは解決できません。
モデルは、1 分未満の人間の入力を必要とする単一の人間の例を使用して、この重要なトレーニングの利点を実現します。
さらに、人間の例から学習するにもかかわらず、エージェントは人間レベルのパフォーマンスに制約されず、多くの場合、人間のデモンストレーションとは大幅に異なるポリシーを学習します。

要約(オリジナル)

The use of human demonstrations in reinforcement learning has proven to significantly improve agent performance. However, any requirement for a human to manually ‘teach’ the model is somewhat antithetical to the goals of reinforcement learning. This paper attempts to minimize human involvement in the learning process while retaining the performance advantages by using a single human example collected through a simple-to-use virtual reality simulation to assist with RL training. Our method augments a single demonstration to generate numerous human-like demonstrations that, when combined with Deep Deterministic Policy Gradients and Hindsight Experience Replay (DDPG + HER) significantly improve training time on simple tasks and allows the agent to solve a complex task (block stacking) that DDPG + HER alone cannot solve. The model achieves this significant training advantage using a single human example, requiring less than a minute of human input. Moreover, despite learning from a human example, the agent is not constrained to human-level performance, often learning a policy that is significantly different from the human demonstration.

arxiv情報

著者 Abraham George,Alison Bartsch,Amir Barati Farimani
発行日 2023-03-19 03:14:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク