要約
人間が身体的スキルを学ぶとき(例:テニスを学ぶとき)、まず専門家が何をしているのかを観察して学ぶ傾向があります。
しかし、これでは不十分なことがよくあります。
したがって、私たちはその後、専門家の真似をする実践に取り組みます。
この観察からインスピレーションを得て、Combining IMitation and Emulation for Motion Refinement (CIMER) を導入します。これは、状態のみの観察から器用な把握操作スキルを学習するための 2 段階のフレームワークです。
CIMER の最初の段階には模倣が含まれます。つまり、構造化された力学システム内のロボット ハンドと物体の複雑な相互依存動作を同時にエンコードします。
これにより、合理的なモーションを事前に提供する反応的なモーション生成ポリシーが作成されますが、アクション ラベルがないため、接触効果について推論する機能が欠如しています。
第 2 段階にはエミュレーションが含まれます。つまり、目的のオブジェクトの動きが再現されるように、ロボット ハンドの前の動きを調整するための動きの調整ポリシーを学習します。
CIMER は、タスクに依存しない (タスク固有の報酬設計や形成が不要) かつ介入不要 (追加の遠隔操作やラベル付きデモンストレーションが不要) の両方を備えています。
詳細な実験により、i) 模倣だけでは不十分だが、エミュレーションを追加するとパフォーマンスが大幅に向上する、ii) CIMER はサンプル効率と現実的で安定した動きを生成する能力の点で既存の方法を上回っている、iii) CIMER はゼロショット一般化または学習が可能であることが明らかになりました。
YCB データセットからの新しいオブジェクトに適応し、ほとんどの場合、アクション ラベルでトレーニングされたエキスパート ポリシーを上回るパフォーマンスを発揮します。
要約(オリジナル)
When humans learn physical skills (e.g., learn to play tennis), we tend to first observe and learn what an expert is doing. But this is often insufficient. Therefore, we subsequently engage in practice, where we try to emulate the expert. Inspired by this observation, we introduce Combining IMitation and Emulation for Motion Refinement (CIMER) — a two-stage framework to learn dexterous prehensile manipulation skills from state-only observations. CIMER’s first stage involves imitation: simultaneously encode the complex interdependent motions of the robot hand and the object in a structured dynamical system. This results in a reactive motion generation policy that provides a reasonable motion prior, but lacks the ability to reason about contact effects due to the lack of action labels. The second stage involves emulation: learn a motion refinement policy to make adjustments to the motion prior of the robot hand such that the desired object motion is reenacted. CIMER is both task-agnostic (no task-specific reward design or shaping) and intervention-free (no need for additional teleoperated or labeled demonstrations). Detailed experiments reveal that i) Imitation alone is insufficient, but adding emulation drastically improves performance, ii) CIMER outperforms existing methods in terms of sample efficiency and the ability to generate realistic and stable motions, iii) CIMER can either zero-shot generalize or learn to adapt to novel objects from the YCB dataset, even outperforming expert policies trained with action labels in most cases.
arxiv情報
著者 | Yunhai Han,Zhenyang Chen,Harish Ravichandar |
発行日 | 2024-04-08 14:57:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google