Learning to Solve Tasks with Exploring Prior Behaviours

要約

デモンストレーションは、報酬が少ないタスクの解決を容易にするために、深層強化学習 (DRL) で広く使用されています。
ただし、現実世界のシナリオのタスクには、デモンストレーションとは異なる初期条件が含まれる場合が多く、追加の事前動作が必要になります。
たとえば、 \emph{開いている引き出しから物体を取り出す} というタスクのデモンストレーションが与えられているが、トレーニングでは引き出しが閉じられているとします。
引き出しを開けるという事前の行動を習得していなければ、ロボットがタスクを解決できる可能性は低いです。
これに対処するために、この論文では、本質的な報酬駆動型の例ベースのコントロール \textbf{(IRDEC)} を提案します。
私たちの方法は、エージェントに、必要な事前の行動を探索して取得し、その後、事前の行動の追加のデモを必要とせずに、デモンストレーション内のタスク固有の行動に接続して、報酬が少ないタスクを解決する能力を与えることができます。
私たちのメソッドのパフォーマンスは、報酬がまばらな 3 つのナビゲーション タスクと 1 つのロボット操作タスクで他のベースラインを上回っています。
コードは https://github.com/Ricky-Zhu/IRDEC で入手できます。

要約(オリジナル)

Demonstrations are widely used in Deep Reinforcement Learning (DRL) for facilitating solving tasks with sparse rewards. However, the tasks in real-world scenarios can often have varied initial conditions from the demonstration, which would require additional prior behaviours. For example, consider we are given the demonstration for the task of \emph{picking up an object from an open drawer}, but the drawer is closed in the training. Without acquiring the prior behaviours of opening the drawer, the robot is unlikely to solve the task. To address this, in this paper we propose an Intrinsic Rewards Driven Example-based Control \textbf{(IRDEC)}. Our method can endow agents with the ability to explore and acquire the required prior behaviours and then connect to the task-specific behaviours in the demonstration to solve sparse-reward tasks without requiring additional demonstration of the prior behaviours. The performance of our method outperforms other baselines on three navigation tasks and one robotic manipulation task with sparse rewards. Codes are available at https://github.com/Ricky-Zhu/IRDEC.

arxiv情報

著者 Ruiqi Zhu,Siyuan Li,Tianhong Dai,Chongjie Zhang,Oya Celiktutan
発行日 2023-07-06 09:48:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク