要約
人間の仕様に基づいた任意のオブジェクトの手頃な価格の(すなわち、把持可能な)部分を推測することは、外的操作に向けて前進するロボットに不可欠です。
ただし、現在の把握プランナーは、限られた視覚言語の理解と時間のかかる3D放射輝度モデリングによって妨げられ、オブジェクトとのリアルタイムのオープンボキャブラリー相互作用を制限します。
これらの制限に対処するために、RGB特徴空間内の把持可能なオブジェクトパーツの視覚的なアフォーダンスを予測するために、大規模な言語モデル(LLMS)を微調整する統一された一般化可能なオープンボキャブラリーアフォーダンス推論フレームワークであるGloverを提案します。
マルチモーダルの微調整を可能にするために、統一された視覚的および言語的なアフォーダンスラベルと注釈が付けられた、人間とオブジェクトの相互作用から10,000を超える画像のデータセットをコンパイルします。
Gloverは、LLMSからの世界の知識と常識的な推論を継承し、より微細なオブジェクトの理解と洗練されたツール使用推論を促進します。
効果的な現実世界の展開を可能にするために、グリッパーポーズをアフォーダンスデータに由来するスーパークアドリックな表面に合わせたノンパラメトリックグラスプランナーであるアフォーダンスを認識しているグレーズ推定(AGE)を提示します。
30のテーブルトップの実世界のシーンでの評価では、Gloverはパートの識別で86.0%、把握で76.3%の成功率を達成し、アフォーダンス推論では約29倍高速で、以前の最先端よりも把握ポーズ推定で40倍高速になります。
また、実施形態を介した一般化を検証し、巧妙な手を持つヒューマノイドロボットの有効性を示しています。
要約(オリジナル)
Inferring affordable (i.e., graspable) parts of arbitrary objects based on human specifications is essential for robots advancing toward open-vocabulary manipulation. Current grasp planners, however, are hindered by limited vision-language comprehension and time-consuming 3D radiance modeling, restricting real-time, open-vocabulary interactions with objects. To address these limitations, we propose GLOVER, a unified Generalizable Open-Vocabulary Affordance Reasoning framework, which fine-tunes the Large Language Models (LLMs) to predict the visual affordance of graspable object parts within RGB feature space. We compile a dataset of over 10,000 images from human-object interactions, annotated with unified visual and linguistic affordance labels, to enable multi-modal fine-tuning. GLOVER inherits world knowledge and common-sense reasoning from LLMs, facilitating more fine-grained object understanding and sophisticated tool-use reasoning. To enable effective real-world deployment, we present Affordance-Aware Grasping Estimation (AGE), a non-parametric grasp planner that aligns the gripper pose with a superquadric surface derived from affordance data. In evaluations across 30 table-top real-world scenes, GLOVER achieves success rates of 86.0% in part identification and 76.3% in grasping, with speeds approximately 29 times faster in affordance reasoning and 40 times faster in grasping pose estimation than the previous state-of-the-art. We also validate the generalization across embodiments, showing effectiveness in humanoid robots with dexterous hands.
arxiv情報
著者 | Teli Ma,Zifan Wang,Jiaming Zhou,Mengmeng Wang,Junwei Liang |
発行日 | 2025-05-01 09:13:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google