Lan-grasp: Using Large Language Models for Semantic Object Grasping

要約

本稿では、より適切な意味把握に向けた新しいアプローチである Lan-grasp を提案します。
私たちは基礎モデルを使用して、ロボットにオブジェクト、オブジェクトを掴む適切な場所、さらには避けるべき部分についてのより深い理解を提供します。
これにより、ロボットはより有意義かつ安全な方法で物体を把握し、利用できるようになります。
大規模言語モデル、ビジョン言語モデル、および従来の把握プランナーの組み合わせを活用して、オブジェクトのより深い意味的理解を示す把握を生成します。
まず、オブジェクトのどの部分が把握に適しているかについて大規模言語モデルに指示します。
次に、視覚言語モデルはオブジェクト画像内の対応する部分を識別します。
最後に、ビジョン言語モデルによって提案された領域で把握提案を生成します。
基礎モデルに基づいて構築することで、さらなるトレーニングや微調整を必要とせずに幅広いオブジェクトを処理できるゼロショット把握方法が提供されます。
カスタム オブジェクト データ セットに対する実際の実験でメソッドを評価しました。
把握に適した対象部位を選択してもらうアンケートの結果を紹介します。
結果は、私たちの方法によって生成された把握は、従来の把握プランナーや最近の意味的把握アプローチによって生成された把握よりも、参加者によって一貫して上位にランク付けされていることを示しています。
さらに、複雑なシナリオでの把握の実現可能性を評価するための視覚的思考連鎖フィードバック ループを提案します。
このメカニズムにより、動的な推論が可能になり、必要に応じて代替の把握戦略が生成され、より安全で効果的な把握の結果が保証されます。

要約(オリジナル)

In this paper, we propose Lan-grasp, a novel approach towards more appropriate semantic grasping. We use foundation models to provide the robot with a deeper understanding of the objects, the right place to grasp an object, or even the parts to avoid. This allows our robot to grasp and utilize objects in a more meaningful and safe manner. We leverage the combination of a Large Language Model, a Vision Language Model, and a traditional grasp planner to generate grasps demonstrating a deeper semantic understanding of the objects. We first prompt the Large Language Model about which object part is appropriate for grasping. Next, the Vision Language Model identifies the corresponding part in the object image. Finally, we generate grasp proposals in the region proposed by the Vision Language Model. Building on foundation models provides us with a zero-shot grasp method that can handle a wide range of objects without the need for further training or fine-tuning. We evaluated our method in real-world experiments on a custom object data set. We present the results of a survey that asks the participants to choose an object part appropriate for grasping. The results show that the grasps generated by our method are consistently ranked higher by the participants than those generated by a conventional grasping planner and a recent semantic grasping approach. In addition, we propose a Visual Chain-of-Thought feedback loop to assess grasp feasibility in complex scenarios. This mechanism enables dynamic reasoning and generates alternative grasp strategies when needed, ensuring safer and more effective grasping outcomes.

arxiv情報

著者 Reihaneh Mirjalili,Michael Krawez,Simone Silenzi,Yannik Blei,Wolfram Burgard
発行日 2024-12-11 16:50:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク