要約
家庭や工場環境における複雑な操作タスクを解決することは、長期的な推論、きめの細かいインタラクション、幅広いオブジェクトとシーンの多様性により、依然として困難です。
デモンストレーションからスキルを学ぶことは効果的な戦略となり得ますが、そのような方法は多くの場合、トレーニング データを超える一般化可能性が限られており、長期的なタスクを解決するのに苦労します。
これを克服するために、一般化可能なオブジェクト中心の機能を生成するニューラル オブジェクト記述子 (NOD) と、複数ステップのタスクを解決するための短期スキルを連鎖させるタスク アンド モーション プランニング (TAMP) フレームワークという 2 つのパラダイムを相乗的に組み合わせることを提案します。
NOD-TAMP は、少数の人によるデモンストレーションから短い操作軌跡を抽出し、NOD 機能を使用してこれらの軌跡を適応させ、広範囲にわたる長期にわたる接触の多いタスクを解決するためにそれらを合成する、TAMP ベースのフレームワークです。
NOD-TAMP は、少数のデモンストレーションで既存の操作ベンチマークを解決し、多様な一般化を必要とする新しい卓上操作タスクにおいて、以前の NOD ベースのアプローチを大幅に上回ります。
最後に、ツールの使用や高精度の挿入など、多くの実世界のタスクに NOD-TAMP を導入します。
詳細については、https://nodtamp.github.io/ をご覧ください。
要約(オリジナル)
Solving complex manipulation tasks in household and factory settings remains challenging due to long-horizon reasoning, fine-grained interactions, and broad object and scene diversity. Learning skills from demonstrations can be an effective strategy, but such methods often have limited generalizability beyond training data and struggle to solve long-horizon tasks. To overcome this, we propose to synergistically combine two paradigms: Neural Object Descriptors (NODs) that produce generalizable object-centric features and Task and Motion Planning (TAMP) frameworks that chain short-horizon skills to solve multi-step tasks. We introduce NOD-TAMP, a TAMP-based framework that extracts short manipulation trajectories from a handful of human demonstrations, adapts these trajectories using NOD features, and composes them to solve broad long-horizon, contact-rich tasks. NOD-TAMP solves existing manipulation benchmarks with a handful of demonstrations and significantly outperforms prior NOD-based approaches on new tabletop manipulation tasks that require diverse generalization. Finally, we deploy NOD-TAMP on a number of real-world tasks, including tool-use and high-precision insertion. For more details, please visit https://nodtamp.github.io/.
arxiv情報
著者 | Shuo Cheng,Caelan Garrett,Ajay Mandlekar,Danfei Xu |
発行日 | 2024-07-17 06:41:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google