要約
デモンストレーションからの学習は視覚運動ポリシーを獲得するのに強力ですが、大規模なデモンストレーション データセットを使用せずに高性能の模倣を行うことは、正確で長期的な操作を必要とするタスクにとって依然として困難です。
この論文では、少ない人間による実証予算で模倣学習のパフォーマンスを向上させるためのパイプラインを提案します。
当社は、長期にわたる複数の作業段階にわたって、複数の部品を正確に把握し、方向を変え、挿入する必要がある組み立て作業にこのアプローチを適用します。
当社のパイプラインは、表現力豊かなポリシー アーキテクチャと、データセット拡張およびシミュレーション ベースのデータ拡張のためのさまざまな技術を組み合わせています。
これらは、データセットのサポートを拡張し、高精度を必要とするボトルネック領域付近の局所的な修正アクションでモデルを監視するのに役立ちます。
シミュレーションで 4 つの家具組み立てタスクに関するパイプラインを実証し、マニピュレーターが RGB 画像から直接、ほぼ 2500 タイム ステップにわたって最大 5 つのパーツを組み立てることを可能にし、模倣およびデータ拡張ベースラインを上回るパフォーマンスを発揮します。
要約(オリジナル)
While learning from demonstrations is powerful for acquiring visuomotor policies, high-performance imitation without large demonstration datasets remains challenging for tasks requiring precise, long-horizon manipulation. This paper proposes a pipeline for improving imitation learning performance with a small human demonstration budget. We apply our approach to assembly tasks that require precisely grasping, reorienting, and inserting multiple parts over long horizons and multiple task phases. Our pipeline combines expressive policy architectures and various techniques for dataset expansion and simulation-based data augmentation. These help expand dataset support and supervise the model with locally corrective actions near bottleneck regions requiring high precision. We demonstrate our pipeline on four furniture assembly tasks in simulation, enabling a manipulator to assemble up to five parts over nearly 2500 time steps directly from RGB images, outperforming imitation and data augmentation baselines.
arxiv情報
著者 | Lars Ankile,Anthony Simeonov,Idan Shenfeld,Pulkit Agrawal |
発行日 | 2024-04-04 18:00:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google