Open-vocabulary Pick and Place via Patch-level Semantic Maps

要約

オープンボキャブラリーのシナリオでの自然言語命令を通じてロボットを制御することは、人間とロボットのコラボレーションと複雑なロボットの動作の合成を強化するために極めて重要です。
ただし、限られたデータから幅広いタスクや環境に汎用化できるシステムが必要なため、この機能を実現するには大きな課題が生じます。
既存の手法は大規模で高価なデータセットに依存しており、一般化に苦労しています。
この論文では、事前トレーニングされた視覚言語モデルと幾何学的対称性の生成機能を活用して、オープンボキャブラリーのロボット操作タスクの少数ショットおよびゼロショット学習を促進する新しいアプローチであるグラウンデッド等変操作 (GEM) を紹介します。
私たちの実験は、シミュレーションと現実世界の実験の両方で、GEM の高いサンプル効率と多様なピックアンドプレイスタスクにわたる優れた一般化を実証し、最小限のデータ要件で新しい命令や目に見えないオブジェクトに適応する能力を示しています。
GEM は、言語条件付きロボット制御の分野で重要な一歩を前進させ、ロボット システムにおける意味理解とアクション生成の間のギャップを橋渡しします。

要約(オリジナル)

Controlling robots through natural language instructions in open-vocabulary scenarios is pivotal for enhancing human-robot collaboration and complex robot behavior synthesis. However, achieving this capability poses significant challenges due to the need for a system that can generalize from limited data to a wide range of tasks and environments. Existing methods rely on large, costly datasets and struggle with generalization. This paper introduces Grounded Equivariant Manipulation (GEM), a novel approach that leverages the generative capabilities of pre-trained vision-language models and geometric symmetries to facilitate few-shot and zero-shot learning for open-vocabulary robot manipulation tasks. Our experiments demonstrate GEM’s high sample efficiency and superior generalization across diverse pick-and-place tasks in both simulation and real-world experiments, showcasing its ability to adapt to novel instructions and unseen objects with minimal data requirements. GEM advances a significant step forward in the domain of language-conditioned robot control, bridging the gap between semantic understanding and action generation in robotic systems.

arxiv情報

著者 Mingxi Jia,Haojie Huang,Zhewen Zhang,Chenghao Wang,Linfeng Zhao,Dian Wang,Jason Xinyu Liu,Robin Walters,Robert Platt,Stefanie Tellex
発行日 2024-06-21 22:49:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク