Reinforcement learning with Demonstrations from Mismatched Task under Sparse Reward

要約

強化学習は、現実世界のロボット工学の問題で、報酬が少ないという問題に悩まされることがよくあります。
この問題を解決するには、実演から学ぶ (LfD) が効果的です。これは、収集した専門家のデータを活用してオンライン学習を支援します。
以前の研究では、多くの場合、学習エージェントと専門家が同じタスクを達成することを目指していると想定されています。これには、新しいタスクごとに新しいデータを収集する必要があります。
本論文では、対象タスクが専門家のタスクと一致しないが類似している場合を考える。
このような設定は困難な場合があり、既存の LfD メソッドでは、報酬がまばらなミスマッチの新しいタスクで学習を効果的に導くことができないことがわかりました。
推定エキスパート値関数を使用してまばらな報酬を形成する、実証からの保守的な報酬形成 (CRSfD) を提案します。
学習プロセスを加速するために、CRSfD はエージェントがデモンストレーションを控えめに探索するようにガイドします。
ロボット操作タスクの実験結果は、単一のタスクで収集されたデモンストレーションを他の異なるが同様のタスクに転送するときに、私たちのアプローチがベースラインの LfD メソッドよりも優れていることを示しています。

要約(オリジナル)

Reinforcement learning often suffer from the sparse reward issue in real-world robotics problems. Learning from demonstration (LfD) is an effective way to eliminate this problem, which leverages collected expert data to aid online learning. Prior works often assume that the learning agent and the expert aim to accomplish the same task, which requires collecting new data for every new task. In this paper, we consider the case where the target task is mismatched from but similar with that of the expert. Such setting can be challenging and we found existing LfD methods can not effectively guide learning in mismatched new tasks with sparse rewards. We propose conservative reward shaping from demonstration (CRSfD), which shapes the sparse rewards using estimated expert value function. To accelerate learning processes, CRSfD guides the agent to conservatively explore around demonstrations. Experimental results of robot manipulation tasks show that our approach outperforms baseline LfD methods when transferring demonstrations collected in a single task to other different but similar tasks.

arxiv情報

著者 Yanjiang Guo,Jingyue Gao,Zheng Wu,Chengming Shi,Jianyu Chen
発行日 2023-03-08 15:35:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク