GeoManip: Geometric Constraints as General Interfaces for Robot Manipulation

要約

我々は、汎用ロボットがオブジェクトと部品の関係から導き出される必須条件を幾何学的制約としてロボット操作に活用できるようにするフレームワークである GeoManip を紹介します。
たとえば、ニンジンを切るには、ナイフの刃がニンジンの方向に対して垂直である必要があるという幾何学的制約に従う必要があります。
GeoManip は、記号言語表現を通じてこれらの制約を解釈し、低レベルのアクションに変換することで、自然言語とロボット実行の間のギャップを埋め、目に見えない多様なタスク、オブジェクト、シナリオにわたる汎用性を高めます。
広範なトレーニングを必要とする視覚・言語・行動モデルとは異なり、ステージ固有の幾何学的制約を予測する制約生成モジュールと、これらの制約に関係するオブジェクト部分を識別する幾何学パーサーといった大規模な基礎モデルを利用することで、トレーニング不要で動作します。
次に、ソルバーは、タスクの説明とシーンから推測される制約を満たすように軌道を最適化します。
さらに、GeoManip はコンテキスト内で学習し、5 つの魅力的な人間とロボットの対話機能を提供します。つまり、オンザフライのポリシー適応、人間のデモンストレーションからの学習、失敗事例からの学習、長期的な行動計画、模倣学習のための効率的なデータ収集です。
シミュレーションと現実世界のシナリオの両方に関する広範な評価により、コストのかかるモデル トレーニングを回避しながら、優れた分布外一般化を実現する GeoManip の最先端のパフォーマンスが実証されています。

要約(オリジナル)

We present GeoManip, a framework to enable generalist robots to leverage essential conditions derived from object and part relationships, as geometric constraints, for robot manipulation. For example, cutting the carrot requires adhering to a geometric constraint: the blade of the knife should be perpendicular to the carrot’s direction. By interpreting these constraints through symbolic language representations and translating them into low-level actions, GeoManip bridges the gap between natural language and robotic execution, enabling greater generalizability across diverse even unseen tasks, objects, and scenarios. Unlike vision-language-action models that require extensive training, operates training-free by utilizing large foundational models: a constraint generation module that predicts stage-specific geometric constraints and a geometry parser that identifies object parts involved in these constraints. A solver then optimizes trajectories to satisfy inferred constraints from task descriptions and the scene. Furthermore, GeoManip learns in-context and provides five appealing human-robot interaction features: on-the-fly policy adaptation, learning from human demonstrations, learning from failure cases, long-horizon action planning, and efficient data collection for imitation learning. Extensive evaluations on both simulations and real-world scenarios demonstrate GeoManip’s state-of-the-art performance, with superior out-of-distribution generalization while avoiding costly model training.

arxiv情報

著者 Weiliang Tang,Jia-Hui Pan,Yun-Hui Liu,Masayoshi Tomizuka,Li Erran Li,Chi-Wing Fu,Mingyu Ding
発行日 2025-01-16 18:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク