要約
多関節物体の一般化可能な操作は、物体の構造、機能、目標が多様であることから、多くの実世界シナリオにおいて依然として困難な問題である。このようなタスクでは、意味的解釈と物理的妥当性の両方が、ポリシーを成功させるために極めて重要である。この問題に対処するために、我々はSAGEを提案する。SAGEは、言語指示の下で一般化可能な操作を実現するために、多関節物体の意味的な部分と行動可能な部分の理解を橋渡しする新しいフレームワークである。自然言語で指定された操作目標が与えられると、まず大規模言語モデル(Large Language Models: LLM)を持つ命令インタープリタが、オブジェクトの意味的部分に対するプログラム的アクションに変換する。このプロセスには、視覚入力を理解するためのシーンコンテキストパーサも含まれ、これは、汎化された視覚言語モデル(VLM)とドメインに特化したパーツ知覚モデルの力を合わせることで、豊富な情報と正確なインタラクション関連事実を含むシーン記述を生成するように設計されている。さらに、アクションプログラムを実行可能なポリシーに変換するために、パーツグラウンディングモジュールが、命令インタプリタによって提案されたオブジェクト意味パーツを、いわゆる一般化可能なアクション可能パーツ(GAParts)にマッピングする。最後に、故障に対応するために対話的フィードバックモジュールが組み込まれ、フレームワーク全体のロバスト性を大幅に向上させる。シミュレーション環境と実際のロボットの両方における実験により、我々のフレームワークが、多様な言語指示目標を持つ多種多様な多関節オブジェクトを扱えることが示された。また、現実的なシナリオにおける言語誘導多関節物体操作の新しいベンチマークを提供する。
要約(オリジナル)
Generalizable manipulation of articulated objects remains a challenging problem in many real-world scenarios, given the diverse object structures, functionalities, and goals. In these tasks, both semantic interpretations and physical plausibilities are crucial for a policy to succeed. To address this problem, we propose SAGE, a novel framework that bridges the understanding of semantic and actionable parts of articulated objects to achieve generalizable manipulation under language instructions. Given a manipulation goal specified by natural language, an instruction interpreter with Large Language Models (LLMs) first translates them into programmatic actions on the object’s semantic parts. This process also involves a scene context parser for understanding the visual inputs, which is designed to generate scene descriptions with both rich information and accurate interaction-related facts by joining the forces of generalist Visual-Language Models (VLMs) and domain-specialist part perception models. To further convert the action programs into executable policies, a part grounding module then maps the object semantic parts suggested by the instruction interpreter into so-called Generalizable Actionable Parts (GAParts). Finally, an interactive feedback module is incorporated to respond to failures, which greatly increases the robustness of the overall framework. Experiments both in simulation environments and on real robots show that our framework can handle a large variety of articulated objects with diverse language-instructed goals. We also provide a new benchmark for language-guided articulated-object manipulation in realistic scenarios.
arxiv情報
| 著者 | Haoran Geng,Songlin Wei,Congyue Deng,Bokui Shen,He Wang,Leonidas Guibas | 
| 発行日 | 2023-12-03 07:22:42+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
