Task-Aware Robotic Grasping by evaluating Quality Diversity Solutions through Foundation Models


タスクを考慮したロボット把持は、意味理解と幾何学的推論の統合を必要とする困難な問題である。本論文では、大規模言語モデル(Large Language Models: LLM)と品質多様性(Quality Diversity: QD)アルゴリズムを活用し、ゼロショットのタスク条件付き把持合成を可能にする新しいフレームワークを提案する。このフレームワークは、オブジェクトを意味のあるサブパーツに分割し、各サブパーツに意味的なラベルを付けることで、LLMを促すために使用できる構造化表現を作成する。物体の構造に関する意味的な表現と幾何学的な表現を結びつけることで、LLMが持つタスクやどの部分を把持するかに関する知識を、物理的な世界で応用することができます。QDが生成する把持アーカイブは多様な把持の集合を提供し、タスクに基づいて最適な把持を選択することを可能にする。提案手法をFranka Emikaロボットを用いてYCBデータセットのサブセットで評価した。タスクに特化した把持領域の統合されたグランドトゥルースを調査により確立する。65のタスクとオブジェクトの組み合わせにおいて、タスク条件付き把持領域の予測において73.6%の重み付きIoU(weighted intersection over union)を達成した。さらに、より少ないサブセットを対象としたエンド・ツー・エンド検証研究により、我々のアプローチの有効性が確認され、88%の回答がタスクを考慮した把持領域を対照群よりも支持した。二項検定の結果、参加者は有意にタスクを意識した把持を好むことがわかった。


Task-aware robotic grasping is a challenging problem that requires the integration of semantic understanding and geometric reasoning. This paper proposes a novel framework that leverages Large Language Models (LLMs) and Quality Diversity (QD) algorithms to enable zero-shot task-conditioned grasp synthesis. The framework segments objects into meaningful subparts and labels each subpart semantically, creating structured representations that can be used to prompt an LLM. By coupling semantic and geometric representations of an object’s structure, the LLM’s knowledge about tasks and which parts to grasp can be applied in the physical world. The QD-generated grasp archive provides a diverse set of grasps, allowing us to select the most suitable grasp based on the task. We evaluated the proposed method on a subset of the YCB dataset with a Franka Emika robot. A consolidated ground truth for task-specific grasp regions is established through a survey. Our work achieves a weighted intersection over union (IoU) of 73.6% in predicting task-conditioned grasp regions in 65 task-object combinations. An end-to-end validation study on a smaller subset further confirms the effectiveness of our approach, with 88% of responses favoring the task-aware grasp over the control group. A binomial test shows that participants significantly prefer the task-aware grasp.


著者 Aurel X. Appius,Emiland Garrabe,Francois Helenon,Mahdi Khoramshahi,Mohamed Chetouani,Stephane Doncieux
発行日 2025-03-01 22:48:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO パーマリンク