GLOVER: Generalizable Open-Vocabulary Affordance Reasoning for Task-Oriented Grasping

要約

人間の仕様に基づいて任意のオブジェクトの手頃な(つまり、把握可能な)部分を推測することは、オープンな語彙操作に向けて進歩するロボットにとって不可欠です。
しかし、現在の把握プランナーは、限られた視覚言語理解と時間のかかる 3D 放射輝度モデリングによって妨げられており、オブジェクトとのリアルタイムでオープンな語彙の対話が制限されています。
これらの制限に対処するために、私たちは統合された一般化可能なオープン語彙アフォーダンス推論フレームワークである GLOVER を提案します。これは、RGB 特徴空間内の把握可能なオブジェクト部分の視覚的アフォーダンスを予測するために大規模言語モデル (LLM) を微調整します。
私たちは、人間と物体の相互作用から得た 10,000 枚を超える画像のデータセットをコンパイルし、統合された視覚的および言語的アフォーダンス ラベルで注釈を付け、マルチモーダルな微調整を可能にします。
GLOVER は、LLM から世界の知識と常識的な推論を継承し、よりきめ細かいオブジェクトの理解と洗練されたツール使用の推論を容易にします。
効果的な現実世界への展開を可能にするために、アフォーダンス データから導出された超二次曲面とグリッパーのポーズを位置合わせするノンパラメトリック把握プランナーであるアフォーダンス認識把握推定 (AGE) を紹介します。
30 の現実世界のシーンにわたる評価において、GLOVER は部分識別で 86.0%、把握で 76.3% の成功率を達成し、アフォーダンス推論で約 330 倍、把握姿勢推定で約 40 倍の速度を達成しました。
-美術。

要約(オリジナル)

Inferring affordable (i.e., graspable) parts of arbitrary objects based on human specifications is essential for robots advancing toward open-vocabulary manipulation. Current grasp planners, however, are hindered by limited vision-language comprehension and time-consuming 3D radiance modeling, restricting real-time, open-vocabulary interactions with objects. To address these limitations, we propose GLOVER, a unified Generalizable Open-Vocabulary Affordance Reasoning framework, which fine-tunes the Large Language Models (LLMs) to predict visual affordance of graspable object parts within RGB feature space. We compile a dataset of over 10,000 images from human-object interactions, annotated with unified visual and linguistic affordance labels, to enable multi-modal fine-tuning. GLOVER inherits world knowledge and common-sense reasoning from LLMs, facilitating more fine-grained object understanding and sophisticated tool-use reasoning. To enable effective real-world deployment, we present Affordance-Aware Grasping Estimation (AGE), a non-parametric grasp planner that aligns the gripper pose with a superquadric surface derived from affordance data. In evaluations across 30 real-world scenes, GLOVER achieves success rates of 86.0% in part identification and 76.3% in grasping, with speeds approximately 330 times faster in affordance reasoning and 40 times faster in grasping pose estimation than the previous state-of-the-art.

arxiv情報

著者 Teli Ma,Zifan Wang,Jiaming Zhou,Mengmeng Wang,Junwei Liang
発行日 2024-11-19 07:12:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク