Learning from Guided Play: Improving Exploration for Adversarial Imitation Learning with Simple Auxiliary Tasks

要約

敵対的模倣学習 (AIL) は、教師あり模倣学習による分布の変化を軽減する、教師あり模倣学習の代替として広く普及しています。
ただし、AIL では、オンライン強化学習フェーズでの効果的な探索が必要です。
この研究では、目的のタスクを完全に学習せずに、AIL で学習したポリシーがエキスパートの分布と十分に一致する場合、探索に対する標準的で単純なアプローチが最適ではない極大値として現れる可能性があることを示します。
これは、エキスパートと非エキスパートの状態とアクションのペアの違いが微妙であることが多い操作タスクでは特に致命的となる可能性があります。
私たちは、主要なタスクに加えて、複数の探索的で補助的なタスクの専門家によるデモンストレーションを活用するフレームワーク、Learning from Guided Play (LfGP) を紹介します。
これらの補助タスクを追加すると、エージェントは標準の AIL が無視することを学習する可能性のある状態とアクションを調査する必要があります。
さらに、この特定の定式化により、主要なタスク間でエキスパート データを再利用できるようになります。
困難なマルチタスクのロボット操作ドメインにおける私たちの実験結果は、LfGP が AIL と動作クローニングの両方を大幅に上回っていると同時に、これらのベースラインよりも専門的なサンプル効率が高いことを示しています。
このパフォーマンスのギャップを説明するために、極大値と不十分な探索の間の結合を強調するおもちゃの問題のさらなる分析を提供し、また、AIL と LfGP から学習されたモデル間の違いを視覚化します。

要約(オリジナル)

Adversarial imitation learning (AIL) has become a popular alternative to supervised imitation learning that reduces the distribution shift suffered by the latter. However, AIL requires effective exploration during an online reinforcement learning phase. In this work, we show that the standard, naive approach to exploration can manifest as a suboptimal local maximum if a policy learned with AIL sufficiently matches the expert distribution without fully learning the desired task. This can be particularly catastrophic for manipulation tasks, where the difference between an expert and a non-expert state-action pair is often subtle. We present Learning from Guided Play (LfGP), a framework in which we leverage expert demonstrations of multiple exploratory, auxiliary tasks in addition to a main task. The addition of these auxiliary tasks forces the agent to explore states and actions that standard AIL may learn to ignore. Additionally, this particular formulation allows for the reusability of expert data between main tasks. Our experimental results in a challenging multitask robotic manipulation domain indicate that LfGP significantly outperforms both AIL and behaviour cloning, while also being more expert sample efficient than these baselines. To explain this performance gap, we provide further analysis of a toy problem that highlights the coupling between a local maximum and poor exploration, and also visualize the differences between the learned models from AIL and LfGP.

arxiv情報

著者 Trevor Ablett,Bryan Chan,Jonathan Kelly
発行日 2023-10-12 21:47:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク