Towards Open-World Grasping with Large Vision-Language Models

要約

無制限の言語命令から自然界の物体を把握する能力は、ロボット工学における基本的な課題を構成します。
オープンワールド把握システムは、任意のシナリオに適用できるように、高レベルの文脈推論と低レベルの物理幾何学的推論を組み合わせることができなければなりません。
最近の研究では、大規模言語モデル (LLM) に固有の Web スケールの知識を活用して、ロボットのコンテキストで計画と推論を行いますが、そのような知識を環境に根付かせ、作動をパラメータ化するために外部のビジョンとアクション モデルに依存しています。
この設定には 2 つの大きなボトルネックがあります。a) LLM の推論能力は視覚的根拠の質によって制限され、b) LLM には、接触が多いシナリオで把握するために不可欠な世界の低レベルの空間理解を含んでいません。
この研究では、現代のビジョン言語モデル (VLM) が暗黙的に根拠があり、意味論と幾何学について共同で推論できるため、そのような制限に取り組むことができることを実証します。
私たちは、VLM とセグメンテーションおよび把握合成モデルを組み合わせたオープンワールド把握パイプラインである OWG を提案します。これにより、オープンエンドの参照セグメンテーション、接地された把握計画、および接触推論による把握ランキングの 3 つの段階で、根拠のある世界の理解を解き放つことができます。これらはすべて適用可能です。
適切な視覚的プロンプトメカニズムを介したゼロショット。
私たちは、乱雑な屋内シーン データセットで広範な評価を実施し、オープンエンド言語からのグラウンディングにおける OWG の堅牢性を実証するとともに、シミュレーションとハードウェアの両方でオープンワールド ロボットによる把握実験を行い、以前の教師ありゼロショット LLM ベースと比較して優れたパフォーマンスを実証しました。
メソッド。

要約(オリジナル)

The ability to grasp objects in-the-wild from open-ended language instructions constitutes a fundamental challenge in robotics. An open-world grasping system should be able to combine high-level contextual with low-level physical-geometric reasoning in order to be applicable in arbitrary scenarios. Recent works exploit the web-scale knowledge inherent in large language models (LLMs) to plan and reason in robotic context, but rely on external vision and action models to ground such knowledge into the environment and parameterize actuation. This setup suffers from two major bottlenecks: a) the LLM’s reasoning capacity is constrained by the quality of visual grounding, and b) LLMs do not contain low-level spatial understanding of the world, which is essential for grasping in contact-rich scenarios. In this work we demonstrate that modern vision-language models (VLMs) are capable of tackling such limitations, as they are implicitly grounded and can jointly reason about semantics and geometry. We propose OWG, an open-world grasping pipeline that combines VLMs with segmentation and grasp synthesis models to unlock grounded world understanding in three stages: open-ended referring segmentation, grounded grasp planning and grasp ranking via contact reasoning, all of which can be applied zero-shot via suitable visual prompting mechanisms. We conduct extensive evaluation in cluttered indoor scene datasets to showcase OWG’s robustness in grounding from open-ended language, as well as open-world robotic grasping experiments in both simulation and hardware that demonstrate superior performance compared to previous supervised and zero-shot LLM-based methods.

arxiv情報

著者 Georgios Tziafas,Hamidreza Kasaei
発行日 2024-06-26 19:42:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク