Watch and Match: Supercharging Imitation with Regularized Optimal Transport

要約

模倣学習は、複雑な意思決定の問題に対して効率的にポリシーを学習する上で非常に有望です。
現在の最先端のアルゴリズムは、逆強化学習(IRL)を使用することが多く、一連の専門家によるデモンストレーションが与えられると、エージェントは代わりに報酬関数と関連する最適なポリシーを推測します。
ただし、このようなIRLアプローチでは、複雑な制御の問題に対して、かなりのオンライン操作が必要になることがよくあります。
この作業では、最適なトランスポートベースの軌道マッチングの最近の進歩に基づいた新しい模倣学習アルゴリズムであるRegularized Optimal Transport(ROT)を紹介します。
私たちの重要な技術的洞察は、軌道マッチングの報酬と行動のクローン作成を適応的に組み合わせることで、ほんの数回のデモン​​ストレーションでも模倣を大幅に加速できるということです。
DeepMind Control Suite、OpenAI Robotics Suite、およびMeta-World Benchmark全体での20の視覚的制御タスクに関する実験では、従来の最先端の方法と比較して、専門家のパフォーマンスの90%に到達するための平均7.8倍の高速模倣が実証されています。

実際のロボット操作では、1回のデモン​​ストレーションと1時間のオンライントレーニングで、ROTは14のタスクで平均90.1%の成功率を達成します。

要約(オリジナル)

Imitation learning holds tremendous promise in learning policies efficiently for complex decision making problems. Current state-of-the-art algorithms often use inverse reinforcement learning (IRL), where given a set of expert demonstrations, an agent alternatively infers a reward function and the associated optimal policy. However, such IRL approaches often require substantial online interactions for complex control problems. In this work, we present Regularized Optimal Transport (ROT), a new imitation learning algorithm that builds on recent advances in optimal transport based trajectory-matching. Our key technical insight is that adaptively combining trajectory-matching rewards with behavior cloning can significantly accelerate imitation even with only a few demonstrations. Our experiments on 20 visual control tasks across the DeepMind Control Suite, the OpenAI Robotics Suite, and the Meta-World Benchmark demonstrate an average of 7.8X faster imitation to reach 90% of expert performance compared to prior state-of-the-art methods. On real-world robotic manipulation, with just one demonstration and an hour of online training, ROT achieves an average success rate of 90.1% across 14 tasks.

arxiv情報

著者 Siddhant Haldar,Vaibhav Mathur,Denis Yarats,Lerrel Pinto
発行日 2022-06-30 17:58:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク