One-Shot Imitation Learning with Invariance Matching for Robotic Manipulation

要約

多様な操作タスクを実行できる単一の普遍的なポリシーを学習することは、ロボット工学における有望な新しい方向性です。
しかし、既存の手法は、トレーニング中に遭遇するタスクのみを実行できる学習ポリシーに限定されており、新しいタスクを学習するには多数のデモンストレーションが必要です。
一方、人間は、注釈のない単一のデモンストレーションから新しいタスクを学習できることがよくあります。
この研究では、Invariance-Matching One-shot Policy Learning (IMOP) アルゴリズムを提案します。
エンドエフェクターの姿勢を直接学習する標準的な手法とは対照的に、IMOP はまず特定のタスクの状態空間の不変領域を学習し、次にデモンストレーションとテスト シーンの間で不変領域を照合することでエンドエフェクターの姿勢を計算します。
18 個の RLBench タスクでトレーニングされた IMOP は、18 個のタスク全体で平均 4.5% という、常に最新技術を上回る成功率を達成します。
さらに重要なことは、IMOP は、微調整を行わずに、注釈なしの 1 つのデモンストレーションから新しいタスクを学習でき、9 つのタスクから選択された 22 の新しいタスクで、最先端のものと比べて平均成功率 $11.5\%$ の向上を達成していることです。
カテゴリー。
IMOP は、新しい形状に一般化して、デモンストレーションのものとは異なるオブジェクトの操作方法を学習することもできます。
さらに、IMOP は、単一のリアルロボットのデモンストレーションを使用して、ワンショットの sim-to-real 転送を実行できます。

要約(オリジナル)

Learning a single universal policy that can perform a diverse set of manipulation tasks is a promising new direction in robotics. However, existing techniques are limited to learning policies that can only perform tasks that are encountered during training, and require a large number of demonstrations to learn new tasks. Humans, on the other hand, often can learn a new task from a single unannotated demonstration. In this work, we propose the Invariance-Matching One-shot Policy Learning (IMOP) algorithm. In contrast to the standard practice of learning the end-effector’s pose directly, IMOP first learns invariant regions of the state space for a given task, and then computes the end-effector’s pose through matching the invariant regions between demonstrations and test scenes. Trained on the 18 RLBench tasks, IMOP achieves a success rate that outperforms the state-of-the-art consistently, by 4.5% on average over the 18 tasks. More importantly, IMOP can learn a novel task from a single unannotated demonstration, and without any fine-tuning, and achieves an average success rate improvement of $11.5\%$ over the state-of-the-art on 22 novel tasks selected across nine categories. IMOP can also generalize to new shapes and learn to manipulate objects that are different from those in the demonstration. Further, IMOP can perform one-shot sim-to-real transfer using a single real-robot demonstration.

arxiv情報

著者 Xinyu Zhang,Abdeslam Boularias
発行日 2024-06-05 01:11:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク