要約
強化学習 (RL) では、報酬がまばらであることが大きな課題となる可能性があります。
幸いなことに、専門家の行動を利用してこの問題を解決できます。
ただし、明示的な専門家のアクションを取得するにはコストがかかる場合があり、多くの場合、専門家の観察の方が簡単に利用できます。
この論文では、ピクセル観察からのまばらな報酬を伴うロボット操作タスクの学習に専門家の観察を使用する新しいアプローチを紹介します。
具体的には、私たちの手法では、専門家の観察を目標条件付き RL エージェントの中間視覚目標として使用し、一連の目標を連続的に達成することでタスクを完了できるようにします。
私たちは、シミュレーションで 5 つの困難なブロック構築タスクで私たちの方法の有効性を実証し、2 つの最先端のエージェントと組み合わせると、私たちのアプローチがトレーニング中に必要な専門家のアクションを 4 ~ 20 分の 1 にしながらパフォーマンスを大幅に向上できることを示します。
さらに、私たちの方法は階層ベースラインよりも優れています。
要約(オリジナル)
In reinforcement learning (RL), sparse rewards can present a significant challenge. Fortunately, expert actions can be utilized to overcome this issue. However, acquiring explicit expert actions can be costly, and expert observations are often more readily available. This paper presents a new approach that uses expert observations for learning in robot manipulation tasks with sparse rewards from pixel observations. Specifically, our technique involves using expert observations as intermediate visual goals for a goal-conditioned RL agent, enabling it to complete a task by successively reaching a series of goals. We demonstrate the efficacy of our method in five challenging block construction tasks in simulation and show that when combined with two state-of-the-art agents, our approach can significantly improve their performance while requiring 4-20 times fewer expert actions during training. Moreover, our method is also superior to a hierarchical baseline.
arxiv情報
著者 | Minh-Huy Hoang,Long Dinh,Hai Nguyen |
発行日 | 2023-07-15 11:51:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google