Human-in-the-Loop Task and Motion Planning for Imitation Learning

要約

人間のデモンストレーションから模倣学習を行うことで、ロボットに複雑な操作スキルを教えることができますが、時間と労力がかかります。
対照的に、タスク アンド モーション プランニング (TAMP) システムは自動化されており、長期にわたるタスクの解決に優れていますが、接触の多いタスクに適用するのは困難です。
この論文では、両方のアプローチの利点を活用する新しいシステムであるヒューマンインザループ タスクおよびモーション プランニング (HITL-TAMP) を紹介します。
このシステムは、人間の遠隔操作者に選択的に制御を与えたり、遠隔操作者から制御を奪ったりする、TAMP ゲート制御メカニズムを採用しています。
これにより、人間の遠隔操作者がロボット群を管理できるようになり、データ収集効率が最大化されます。
次に、収集された人間のデータを模倣学習フレームワークと組み合わせて TAMP ゲート ポリシーをトレーニングすることで、完全なタスクのデモンストレーションでのトレーニングと比較して優れたパフォーマンスを実現します。
私たちは HITL-TAMP を従来の遠隔操作システムと比較しました。同じ時間の予算を与えられた場合、ユーザーは 3 倍以上の数のデモを集めました。
さらに、熟練したエージェント (成功率 75%+) は、わずか 10 分間の非専門家による遠隔操作データからトレーニングできます。
最後に、コンタクトが豊富で長期にわたる 12 のタスクにわたって HITL-TAMP を使用して 2.1K のデモを収集し、システムがほぼ完璧に近いエージェントを生成することが多いことを示しました。
ビデオと追加の結果は https://hitltamp.github.io にあります。

要約(オリジナル)

Imitation learning from human demonstrations can teach robots complex manipulation skills, but is time-consuming and labor intensive. In contrast, Task and Motion Planning (TAMP) systems are automated and excel at solving long-horizon tasks, but they are difficult to apply to contact-rich tasks. In this paper, we present Human-in-the-Loop Task and Motion Planning (HITL-TAMP), a novel system that leverages the benefits of both approaches. The system employs a TAMP-gated control mechanism, which selectively gives and takes control to and from a human teleoperator. This enables the human teleoperator to manage a fleet of robots, maximizing data collection efficiency. The collected human data is then combined with an imitation learning framework to train a TAMP-gated policy, leading to superior performance compared to training on full task demonstrations. We compared HITL-TAMP to a conventional teleoperation system — users gathered more than 3x the number of demos given the same time budget. Furthermore, proficient agents (75\%+ success) could be trained from just 10 minutes of non-expert teleoperation data. Finally, we collected 2.1K demos with HITL-TAMP across 12 contact-rich, long-horizon tasks and show that the system often produces near-perfect agents. Videos and additional results at https://hitltamp.github.io .

arxiv情報

著者 Ajay Mandlekar,Caelan Garrett,Danfei Xu,Dieter Fox
発行日 2023-10-24 17:15:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク