要約
ホームアシスタントロボットには、一般化可能な多関節オブジェクトの操作が不可欠です。
最近の取り組みは、デモンストレーションからの模倣学習やシミュレーションでの強化学習に焦点を当てていますが、実世界のデータ収集と正確なオブジェクトのシミュレーションには法外なコストがかかるため、これらの研究が多様な関節オブジェクトにわたって広範な適応性を達成することは依然として困難です。
最近、大規模言語モデル (LLM) の強力なコンテキスト内学習能力を利用して汎用化可能なロボット操作を実現しようとする研究が数多く行われていますが、これらの研究のほとんどは高レベルのタスク計画に焦点を当てており、低レベルのロボット制御は脇に置かれています。
この研究では、オブジェクトの運動学的構造がオブジェクトをどのように操作できるかを決定するという考えに基づいて、オブジェクトの運動学的知識を持つ LLM に、さまざまなオブジェクトをサポートする低レベルの運動軌道ウェイポイントを生成するように促す、運動学を意識したプロンプト フレームワークを提案します。
操作。
さまざまなオブジェクトの運動学的構造を LLM に効果的に促すために、統合された運動学的知識パーサーを設計します。これは、さまざまな関節で表現されたオブジェクトを、運動学的ジョイントと接触位置を含む統一されたテキスト記述として表現します。
この統一された記述に基づいて、設計された運動学を意識した思考連鎖プロンプト方法を介して正確な 3D 操作ウェイポイントを生成する運動学を意識したプランナー モデルが提案されています。
私たちの評価は 16 の異なるカテゴリにわたる 48 のインスタンスに及び、私たちのフレームワークが 8 つの目に見えるカテゴリで従来の手法を上回るだけでなく、8 つの目に見えない多関節オブジェクト カテゴリに対して強力なゼロショット機能も示していることが明らかになりました。
さらに、7 つの異なるオブジェクト カテゴリに関する実際の実験により、実際のシナリオにおけるフレームワークの適応性が証明されています。
コードは https://github.com/GeWu-Lab/LLM_articulated_object_manipulation/tree/main でリリースされています。
要約(オリジナル)
Generalizable articulated object manipulation is essential for home-assistant robots. Recent efforts focus on imitation learning from demonstrations or reinforcement learning in simulation, however, due to the prohibitive costs of real-world data collection and precise object simulation, it still remains challenging for these works to achieve broad adaptability across diverse articulated objects. Recently, many works have tried to utilize the strong in-context learning ability of Large Language Models (LLMs) to achieve generalizable robotic manipulation, but most of these researches focus on high-level task planning, sidelining low-level robotic control. In this work, building on the idea that the kinematic structure of the object determines how we can manipulate it, we propose a kinematic-aware prompting framework that prompts LLMs with kinematic knowledge of objects to generate low-level motion trajectory waypoints, supporting various object manipulation. To effectively prompt LLMs with the kinematic structure of different objects, we design a unified kinematic knowledge parser, which represents various articulated objects as a unified textual description containing kinematic joints and contact location. Building upon this unified description, a kinematic-aware planner model is proposed to generate precise 3D manipulation waypoints via a designed kinematic-aware chain-of-thoughts prompting method. Our evaluation spanned 48 instances across 16 distinct categories, revealing that our framework not only outperforms traditional methods on 8 seen categories but also shows a powerful zero-shot capability for 8 unseen articulated object categories. Moreover, the real-world experiments on 7 different object categories prove our framework’s adaptability in practical scenarios. Code is released at https://github.com/GeWu-Lab/LLM_articulated_object_manipulation/tree/main.
arxiv情報
著者 | Wenke Xia,Dong Wang,Xincheng Pang,Zhigang Wang,Bin Zhao,Di Hu,Xuelong Li |
発行日 | 2024-02-19 08:26:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google