Imitation Learning with Precisely Labeled Human Demonstrations

要約

模倣学習パラダイム内では、トレーニングジェネラリストロボットには、多様なキュレーションによってのみ取得できる大規模なデータセットが必要です。
収集が比較的容易なため、適切に組み込まれた場合、人間のデモは貴重な追加になります。
ただし、人間のデモを利用する既存の方法は、正確なアクションの推測、具体化のギャップを改善し、フロンティアジェネラリストのロボットトレーニングパイプラインと融合する際に課題に直面しています。
この作業では、効率的なデータ収集のためにハンドヘルドグリッパーを使用することの実行可能性を実証する以前の研究に基づいて、グリッパーの外観に対するユーザーの制御を活用します。特に、ユニークで簡単にセグメント可能な色を割り当てることにより – ランサックおよびICP登録法のシンプルで信頼できるアプリケーションを正確にエンドエフェクターポーズ推定に加えます。
シミュレーションでは、独自の人間のデモンストレーションが正確にラベル付けされたことで、ポリシーがロボットデモンストレーションの使用のパフォーマンスの平均88.1%に達し、固有の具体化ギャップにもかかわらず、ロボットのデモンストレーションと組み合わせるとポリシーのパフォーマンスを高めることができることを示しています。

要約(オリジナル)

Within the imitation learning paradigm, training generalist robots requires large-scale datasets obtainable only through diverse curation. Due to the relative ease to collect, human demonstrations constitute a valuable addition when incorporated appropriately. However, existing methods utilizing human demonstrations face challenges in inferring precise actions, ameliorating embodiment gaps, and fusing with frontier generalist robot training pipelines. In this work, building on prior studies that demonstrate the viability of using hand-held grippers for efficient data collection, we leverage the user’s control over the gripper’s appearance–specifically by assigning it a unique, easily segmentable color–to enable simple and reliable application of the RANSAC and ICP registration method for precise end-effector pose estimation. We show in simulation that precisely labeled human demonstrations on their own allow policies to reach on average 88.1% of the performance of using robot demonstrations, and boost policy performance when combined with robot demonstrations, despite the inherent embodiment gap.

arxiv情報

著者 Yilong Song
発行日 2025-04-18 17:12:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク