XSkill: Cross Embodiment Skill Discovery

要約

人間によるデモンストレーション ビデオは、ロボット学習用の広く利用可能なデータ ソースであり、望ましい動作を表現するための直感的なユーザー インターフェイスです。
しかし、構造化されていない人間のビデオから再利用可能なロボット操作スキルを直接抽出することは、大きな実施形態の違いと観察されていないアクションパラメータのため困難です。
この実施形態のギャップを埋めるために、この論文では、模倣学習フレームワークである XSkill を紹介します。このフレームワークは、1) ラベルのない人間とロボットの操作ビデオから純粋にスキル プロトタイプと呼ばれる実施形態間表現を発見し、2) 条件付き拡散ポリシーを使用してスキル表現をロボットのアクションに転送します。
そして最後に、3) 人間のプロンプトビデオによって指定された目に見えないタスクを達成するために学習したスキルを構成します。
シミュレーション環境と現実世界の環境での私たちの実験は、発見されたスキルのプロトタイプがスキルの伝達と目に見えないタスクの構成の両方を促進し、その結果、より一般的でスケーラブルな模倣学習フレームワークが得られることを示しています。
XSkill のパフォーマンスは、匿名 Web サイト https://xskillcorl.github.io から最もよく理解できます。

要約(オリジナル)

Human demonstration videos are a widely available data source for robot learning and an intuitive user interface for expressing desired behavior. However, directly extracting reusable robot manipulation skills from unstructured human videos is challenging due to the big embodiment difference and unobserved action parameters. To bridge this embodiment gap, this paper introduces XSkill, an imitation learning framework that 1) discovers a cross-embodiment representation called skill prototypes purely from unlabeled human and robot manipulation videos, 2) transfers the skill representation to robot actions using conditional diffusion policy, and finally, 3) composes the learned skill to accomplish unseen tasks specified by a human prompt video. Our experiments in simulation and real-world environments show that the discovered skill prototypes facilitate both skill transfer and composition for unseen tasks, resulting in a more general and scalable imitation learning framework. The performance of XSkill is best understood from the anonymous website: https://xskillcorl.github.io.

arxiv情報

著者 Mengda Xu,Zhenjia Xu,Cheng Chi,Manuela Veloso,Shuran Song
発行日 2023-07-19 12:51:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク