SKIL: Semantic Keypoint Imitation Learning for Generalizable Data-efficient Manipulation

要約

衣服の操作やテーブルの再配置などの現実世界のタスクでは、ロボットが汎用性があり、高精度で長期的なアクションを実行することが求められます。
模倣学習はロボットに新しいスキルを教えるための効果的なアプローチであることが証明されていますが、これらの複雑なタスクには依然として大量の専門家によるデモンストレーション データが不可欠であり、その結果、サンプルが非常に複雑になり、データ収集にコストがかかります。
これに対処するために、ビジョン基盤モデルの助けを借りてセマンティック キーポイントを自動的に取得し、サンプルの複雑さを大幅に低減して複雑なロボット タスクの効率的な模倣学習を可能にするセマンティック キーポイントの記述子を形成するフレームワークであるセマンティック キーポイント模倣学習 (SKIL) を提案します。
実際の実験では、SKIL はカップやマウスを選ぶなどのタスクでベースライン手法のパフォーマンスを 2 倍にし、物体の変化、環境の変化、気を散らすものに対する優れた堅牢性を実証します。
以前の方法では完全に失敗したラックにタオルを掛けるなど、長期にわたるタスクの場合、SKIL はわずか 30 回のデモン​​ストレーションで 70\% の平均成功率を達成しました。
さらに、SKIL はセマンティック キーポイントの抽象化により、クロスボディ学習を自然にサポートします。私たちの実験では、人間のビデオでも学習パフォーマンスに大幅な改善をもたらすことが実証されています。
これらすべての結果は、SKIL がデータ効率の高い一般化可能なロボット学習を達成する上で大きな成功を収めたことを示しています。
ビジュアライゼーションとコードは https://skil-robotics.github.io/SKIL-robotics/ から入手できます。

要約(オリジナル)

Real-world tasks such as garment manipulation and table rearrangement demand robots to perform generalizable, highly precise, and long-horizon actions. Although imitation learning has proven to be an effective approach for teaching robots new skills, large amounts of expert demonstration data are still indispensible for these complex tasks, resulting in high sample complexity and costly data collection. To address this, we propose Semantic Keypoint Imitation Learning (SKIL), a framework which automatically obtain semantic keypoints with help of vision foundation models, and forms the descriptor of semantic keypoints that enables effecient imitation learning of complex robotic tasks with significantly lower sample complexity. In real world experiments, SKIL doubles the performance of baseline methods in tasks such as picking a cup or mouse, while demonstrating exceptional robustness to variations in objects, environmental changes, and distractors. For long-horizon tasks like hanging a towel on a rack where previous methods fail completely, SKIL achieves a mean success rate of 70\% with as few as 30 demonstrations. Furthermore, SKIL naturally supports cross-embodiment learning due to its semantic keypoints abstraction, our experiments demonstrate that even human videos bring considerable improvement to the learning performance. All these results demonstrate the great success of SKIL in achieving data-efficint generalizable robotic learning. Visualizations and code are available at: https://skil-robotics.github.io/SKIL-robotics/.

arxiv情報

著者 Shengjie Wang,Jiacheng You,Yihang Hu,Jiongye Li,Yang Gao
発行日 2025-01-24 11:11:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク