Learning Prehensile Dexterity by Imitating and Emulating State-only Observations

要約

人間が専門家から身体的なスキル(例:テニス)を習得するとき、私たちは最初は単に専門家を観察することから学ぶ傾向があります。
しかし、これでは不十分なことがよくあります。
それから私たちは実践に取り組み、専門家の真似をして、私たちの行動が環境に同様の影響を与えることを確認します。
この観察からインスピレーションを得て、Combining IMitation and Emulation for Motion Refinement (CIMER) を導入します。これは、状態のみの観察から器用な把握操作スキルを学習するための 2 段階のフレームワークです。
CIMER の最初の段階には模倣が含まれます。つまり、構造化された力学システム内のロボット ハンドと物体の複雑な相互依存動作を同時にエンコードします。
これにより、合理的なモーションを事前に提供する反応的なモーション生成ポリシーが作成されますが、アクション ラベルがないため、接触効果について推論する機能が欠如しています。
第 2 段階にはエミュレーションが含まれます。つまり、目的のオブジェクトの動きが再現されるように事前にロボット ハンドの動きを調整する強化を介して、動きの改良ポリシーを学習します。
CIMER は、タスクに依存しない (タスク固有の報酬設計や形成を行わない) だけでなく、介入も不要 (追加の遠隔操作やラベル付きのデモンストレーションも行わない) の両方を備えています。
把握力を備えた詳細な実験により、i) 模倣だけでは不十分だが、エミュレーションを追加するとパフォーマンスが大幅に向上する、ii) CIMER はサンプル効率と現実的で安定した動きを生成する能力の点で既存の方法を上回っている、iii) CIMER はゼロショットのいずれも実行できることが明らかになりました。
YCB データセットからの新しいオブジェクトを一般化または適応する方法を学習し、ほとんどの場合、アクション ラベルでトレーニングされた専門家のポリシーを上回るパフォーマンスを発揮します。
ソース コードとビデオは https://sites.google.com/view/cimer-2024/ で入手できます。

要約(オリジナル)

When human acquire physical skills (e.g., tennis) from experts, we tend to first learn from merely observing the expert. But this is often insufficient. We then engage in practice, where we try to emulate the expert and ensure that our actions produce similar effects on our environment. Inspired by this observation, we introduce Combining IMitation and Emulation for Motion Refinement (CIMER) — a two-stage framework to learn dexterous prehensile manipulation skills from state-only observations. CIMER’s first stage involves imitation: simultaneously encode the complex interdependent motions of the robot hand and the object in a structured dynamical system. This results in a reactive motion generation policy that provides a reasonable motion prior, but lacks the ability to reason about contact effects due to the lack of action labels. The second stage involves emulation: learn a motion refinement policy via reinforcement that adjusts the robot hand’s motion prior such that the desired object motion is reenacted. CIMER is both task-agnostic (no task-specific reward design or shaping) and intervention-free (no additional teleoperated or labeled demonstrations). Detailed experiments with prehensile dexterity reveal that i) imitation alone is insufficient, but adding emulation drastically improves performance, ii) CIMER outperforms existing methods in terms of sample efficiency and the ability to generate realistic and stable motions, iii) CIMER can either zero-shot generalize or learn to adapt to novel objects from the YCB dataset, even outperforming expert policies trained with action labels in most cases. Source code and videos are available at https://sites.google.com/view/cimer-2024/.

arxiv情報

著者 Yunhai Han,Zhenyang Chen,Harish Ravichandar
発行日 2024-04-12 04:24:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク