GraspGPT: Leveraging Semantic Knowledge from a Large Language Model for Task-Oriented Grasping

要約

タスク指向把握 (TOG) とは、後続の操作タスクを可能にするオブジェクトの把握を予測する問題を指します。
オブジェクト、タスク、把握の間の複雑な関係をモデル化するために、既存の方法では意味論的な知識を事前情報として TOG パイプラインに組み込んでいます。
ただし、既存の意味知識は通常、閉じた世界の概念セットに基づいて構築されており、事前定義されたセットから新しい概念への一般化が制限されています。
この問題に対処するために、我々は、LLM からのオープンエンドの意味論的知識を活用して、新しい概念へのゼロショット一般化を達成する、大規模言語モデル (LLM) ベースの TOG フレームワークである GraspGPT を提案します。
私たちは、Language Augmented TaskGrasp (LA-TaskGrasp) データセットで実験を実施し、トレーニング セットから新しい概念に一般化する場合、GraspGPT がさまざまな保持設定で既存の TOG メソッドよりも優れたパフォーマンスを発揮することを実証します。
GraspGPT の有効性は、実際のロボット実験でさらに検証されています。
コード、データ、付録、ビデオは https://sites.google.com/view/graspgpt/ で公開されています。

要約(オリジナル)

Task-oriented grasping (TOG) refers to the problem of predicting grasps on an object that enable subsequent manipulation tasks. To model the complex relationships between objects, tasks, and grasps, existing methods incorporate semantic knowledge as priors into TOG pipelines. However, the existing semantic knowledge is typically constructed based on closed-world concept sets, restraining the generalization to novel concepts out of the pre-defined sets. To address this issue, we propose GraspGPT, a large language model (LLM) based TOG framework that leverages the open-end semantic knowledge from an LLM to achieve zero-shot generalization to novel concepts. We conduct experiments on Language Augmented TaskGrasp (LA-TaskGrasp) dataset and demonstrate that GraspGPT outperforms existing TOG methods on different held-out settings when generalizing to novel concepts out of the training set. The effectiveness of GraspGPT is further validated in real-robot experiments. Our code, data, appendix, and video are publicly available at https://sites.google.com/view/graspgpt/.

arxiv情報

著者 Chao Tang,Dehao Huang,Wenqi Ge,Weiyu Liu,Hong Zhang
発行日 2023-09-20 13:55:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク