SAGE: Bridging Semantic and Actionable Parts for GEneralizable Manipulation of Articulated Objects

要約

さまざまな構造や機能を持つ日常生活の関節オブジェクトと対話するには、オブジェクトの部分を理解することが、ユーザーの指示の理解とタスクの実行の両方において中心的な役割を果たします。
ただし、パーツの意味論的な意味と物理的機能の間に不一致がある可能性があるため、一般的なシステムを設計する際に課題が生じます。
この問題に対処するために、我々は、自然言語命令の下で一般化可能な操作を実現するために、多関節オブジェクトの意味部分と実行可能な部分を橋渡しする新しいフレームワークである SAGE を提案します。
より具体的には、表現されたオブジェクトが与えられた場合、まずそのオブジェクトのすべての意味部分を観察し、それに基づいて命令インタープリターが自然言語命令を具体化する可能なアクション プログラムを提案します。
次に、パーツ グラウンディング モジュールが、セマンティック パーツを、パーツの動きに関する情報を本質的に保持する、いわゆる Generalizable Actionable Parts (GAPart) にマッピングします。
エンドエフェクターの軌道は GAPart 上で予測され、アクション プログラムとともに実行可能なポリシーを形成します。
さらに、障害に対応するために対話型フィードバック モジュールが組み込まれており、これによりループが閉じられ、フレームワーク全体の堅牢性が向上します。
私たちのフレームワークの成功の鍵は、コンテキスト理解と部分認識の両方のための大規模なビジョン言語モデル (VLM) と小さな領域固有のモデルの間の共同提案と知識の融合です。前者は一般的な直観を提供し、後者は次のような役割を果たします。
専門家の事実。
シミュレーションと実際のロボット実験の両方で、言語で指示された多様な目標を持つ多種多様な多関節オブジェクトを処理する際の有効性が示されています。

要約(オリジナル)

To interact with daily-life articulated objects of diverse structures and functionalities, understanding the object parts plays a central role in both user instruction comprehension and task execution. However, the possible discordance between the semantic meaning and physics functionalities of the parts poses a challenge for designing a general system. To address this problem, we propose SAGE, a novel framework that bridges semantic and actionable parts of articulated objects to achieve generalizable manipulation under natural language instructions. More concretely, given an articulated object, we first observe all the semantic parts on it, conditioned on which an instruction interpreter proposes possible action programs that concretize the natural language instruction. Then, a part-grounding module maps the semantic parts into so-called Generalizable Actionable Parts (GAParts), which inherently carry information about part motion. End-effector trajectories are predicted on the GAParts, which, together with the action program, form an executable policy. Additionally, an interactive feedback module is incorporated to respond to failures, which closes the loop and increases the robustness of the overall framework. Key to the success of our framework is the joint proposal and knowledge fusion between a large vision-language model (VLM) and a small domain-specific model for both context comprehension and part perception, with the former providing general intuitions and the latter serving as expert facts. Both simulation and real-robot experiments show our effectiveness in handling a large variety of articulated objects with diverse language-instructed goals.

arxiv情報

著者 Haoran Geng,Songlin Wei,Congyue Deng,Bokui Shen,He Wang,Leonidas Guibas
発行日 2024-03-30 10:46:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク