Data Efficient Behavior Cloning for Fine Manipulation via Continuity-based Corrective Labels

要約

私たちは、専門家のデモンストレーションのみにアクセスして模倣学習を検討しますが、その現実世界への応用は、実行中の複合誤差による共変量シフトによって制限されることがよくあります。
私たちは、現実世界の微細操作タスクにおけるこの問題を軽減するための、模倣学習のための連続性ベースの修正ラベル (CCIL) フレームワークの有効性を調査します。
CCIL は、デモンストレーションから局所連続ダイナミクス モデルを学習することで修正ラベルを生成し、エージェントをエキスパート状態に戻すように導きます。
ペグの挿入と細かい把握に関する広範な実験を通じて、接触が多い操作に不連続性が存在するにもかかわらず、CCIL が模倣学習のパフォーマンスを大幅に向上させることができるという最初の経験的検証を提供します。
その結果、(1) 現実世界の操作は CCIL を適用するのに十分な局所的な滑らかさを示し、(2) 生成された修正ラベルは低データ領域で最も有益であり、(3) 推定されたダイナミクス モデル誤差に基づくラベル フィルタリングによりパフォーマンスが向上することがわかりました。
CCIL をロボット ドメインに効果的に適用するために、フレームワークの実用的なインスタンス化と、設計の選択とハイパーパラメーターの選択に関する洞察を提供します。
私たちの研究は、物理的なロボットでの模倣学習における複合エラーを軽減するための CCIL の実用性を実証しています。

要約(オリジナル)

We consider imitation learning with access only to expert demonstrations, whose real-world application is often limited by covariate shift due to compounding errors during execution. We investigate the effectiveness of the Continuity-based Corrective Labels for Imitation Learning (CCIL) framework in mitigating this issue for real-world fine manipulation tasks. CCIL generates corrective labels by learning a locally continuous dynamics model from demonstrations to guide the agent back toward expert states. Through extensive experiments on peg insertion and fine grasping, we provide the first empirical validation that CCIL can significantly improve imitation learning performance despite discontinuities present in contact-rich manipulation. We find that: (1) real-world manipulation exhibits sufficient local smoothness to apply CCIL, (2) generated corrective labels are most beneficial in low-data regimes, and (3) label filtering based on estimated dynamics model error enables performance gains. To effectively apply CCIL to robotic domains, we offer a practical instantiation of the framework and insights into design choices and hyperparameter selection. Our work demonstrates CCIL’s practicality for alleviating compounding errors in imitation learning on physical robots.

arxiv情報

著者 Abhay Deshpande,Liyiming Ke,Quinn Pfeifer,Abhishek Gupta,Siddhartha S. Srinivasa
発行日 2024-06-03 20:42:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク