要約
大規模言語モデル (LLM) は、推論と計画の形でロボット操作のために抽出できる実用的な知識を豊富に備えていることが示されています。
進歩にもかかわらず、ほとんどは環境との物理的な相互作用を実行するために依然として事前定義されたモーション プリミティブに依存しており、これが依然として大きなボトルネックとなっています。
この研究では、オープンセットの命令とオープンセットのオブジェクトを与えられた多種多様な操作タスクのために、ロボットの軌道、つまり 6-DoF エンドエフェクターウェイポイントの密なシーケンスを合成することを目的としています。
これは、LLM が自由形式の言語命令を与えられた場合のアフォーダンスと制約の推論に優れていることを最初に観察することで達成されます。
さらに重要なのは、コード作成機能を活用することで、ビジョン言語モデル (VLM) と対話して 3D 値マップを作成し、エージェントの観察空間に知識を定着させることができます。
合成された値マップは、モデルベースの計画フレームワークで使用され、動的摂動に対する堅牢性を備えた閉ループ ロボットの軌道をゼロショットで合成します。
さらに、接触の多いインタラクションを伴うシーンのダイナミクス モデルを効率的に学習することで、提案されたフレームワークがオンライン エクスペリエンスからどのように恩恵を受けるかを示します。
我々は、シミュレーション環境と実際のロボット環境の両方で、提案された方法の大規模な研究を提示し、自由形式の自然言語で指定された多種多様な日常操作タスクを実行できることを示します。
ビデオとコードは https://voxposer.github.io にあります
要約(オリジナル)
Large language models (LLMs) are shown to possess a wealth of actionable knowledge that can be extracted for robot manipulation in the form of reasoning and planning. Despite the progress, most still rely on pre-defined motion primitives to carry out the physical interactions with the environment, which remains a major bottleneck. In this work, we aim to synthesize robot trajectories, i.e., a dense sequence of 6-DoF end-effector waypoints, for a large variety of manipulation tasks given an open-set of instructions and an open-set of objects. We achieve this by first observing that LLMs excel at inferring affordances and constraints given a free-form language instruction. More importantly, by leveraging their code-writing capabilities, they can interact with a vision-language model (VLM) to compose 3D value maps to ground the knowledge into the observation space of the agent. The composed value maps are then used in a model-based planning framework to zero-shot synthesize closed-loop robot trajectories with robustness to dynamic perturbations. We further demonstrate how the proposed framework can benefit from online experiences by efficiently learning a dynamics model for scenes that involve contact-rich interactions. We present a large-scale study of the proposed method in both simulated and real-robot environments, showcasing the ability to perform a large variety of everyday manipulation tasks specified in free-form natural language. Videos and code at https://voxposer.github.io
arxiv情報
著者 | Wenlong Huang,Chen Wang,Ruohan Zhang,Yunzhu Li,Jiajun Wu,Li Fei-Fei |
発行日 | 2023-11-02 06:53:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google