A Joint Modeling of Vision-Language-Action for Target-oriented Grasping in Clutter

要約

我々は、ロボットが言語命令に基づいて対象物を把握することを想定した言語条件付き把持のタスクに焦点を当てています。
以前の作品は、ターゲット オブジェクトをローカライズし、そのオブジェクトの把握を生成するために視覚的なグラウンディングを個別に実行します。
ただし、これらの作業には、グラウンディングのためのオブジェクト ラベルまたは視覚的属性が必要です。これにより、Planner で手作りのルールが必要になり、言語指示の範囲が制限されます。
この論文では、オブジェクト中心の表現でビジョン、言語、行動を共同でモデル化することを提案します。
私たちの方法は、より柔軟な言語の指示の下で適用でき、視覚的な接地エラーに制限されません。
さらに、事前トレーニング済みのマルチモーダル モデルと把握モデルからの強力な事前確率を利用することで、サンプル効率が効果的に向上し、転送用の追加データなしで sim2real 問題が再現されます。
シミュレーションと現実の世界で行われた一連の実験は、より柔軟な言語指示の下で、より少ない動作回数でより高いタスク成功率を達成できることを示しています。
さらに、私たちの方法は、目に見えないオブジェクトと言語命令を含むシナリオをより一般化することができます。

要約(オリジナル)

We focus on the task of language-conditioned grasping in clutter, in which a robot is supposed to grasp the target object based on a language instruction. Previous works separately conduct visual grounding to localize the target object, and generate a grasp for that object. However, these works require object labels or visual attributes for grounding, which calls for handcrafted rules in planner and restricts the range of language instructions. In this paper, we propose to jointly model vision, language and action with object-centric representation. Our method is applicable under more flexible language instructions, and not limited by visual grounding error. Besides, by utilizing the powerful priors from the pre-trained multi-modal model and grasp model, sample efficiency is effectively improved and the sim2real problem is relived without additional data for transfer. A series of experiments carried out in simulation and real world indicate that our method can achieve better task success rate by less times of motion under more flexible language instructions. Moreover, our method is capable of generalizing better to scenarios with unseen objects and language instructions.

arxiv情報

著者 Kechun Xu,Shuqi Zhao,Zhongxiang Zhou,Zizhang Li,Huaijin Pi,Yifeng Zhu,Yue Wang,Rong Xiong
発行日 2023-02-24 12:54:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク