要約
オープンな語彙の一般化には、複雑で多様な環境とタスクの目標を伴うタスクを実行するロボット システムが必要です。
ビジョン言語モデル (VLM) の最近の進歩は、目に見えない問題を解決する前例のない機会をもたらしていますが、その新たな機能を物理世界でロボットを制御するためにどのように利用するかは未解決の問題のままです。
この論文では、自由形式の言語記述で指定されたロボット操作タスクを解決するために VLM を使用するアプローチである MOKA (Marking Open-vocabulary Keypoint Affordances) を紹介します。
私たちのアプローチの中心となるのは、RGB 画像上の VLM の予測と物理世界におけるロボットの動きを橋渡しする、アフォーダンスと動きのコンパクトなポイントベースの表現です。
インターネット規模のデータで事前トレーニングされた VLM を促すことで、私たちのアプローチはアフォーダンスを予測し、幅広いソースからの概念の理解と常識的な知識を活用して対応するモーションを生成します。
ゼロショットで VLM の推論を足場にするために、画像上のマークに注釈を付け、キーポイントとウェイポイントの予測を VLM が解決可能な一連の視覚的な質問応答問題に変換する視覚的なプロンプト手法を提案します。
このようにして収集されたロボットのエクスペリエンスを使用して、コンテキスト内学習とポリシーの抽出を通じてパフォーマンスをブートストラップする方法をさらに調査します。
私たちは、ツールの使用、変形可能なボディの操作、オブジェクトの再配置など、自由形式の言語記述で指定されたさまざまな操作タスクにおける MOKA のパフォーマンスを評価および分析します。
要約(オリジナル)
Open-vocabulary generalization requires robotic systems to perform tasks involving complex and diverse environments and task goals. While the recent advances in vision language models (VLMs) present unprecedented opportunities to solve unseen problems, how to utilize their emergent capabilities to control robots in the physical world remains an open question. In this paper, we present MOKA (Marking Open-vocabulary Keypoint Affordances), an approach that employs VLMs to solve robotic manipulation tasks specified by free-form language descriptions. At the heart of our approach is a compact point-based representation of affordance and motion that bridges the VLM’s predictions on RGB images and the robot’s motions in the physical world. By prompting a VLM pre-trained on Internet-scale data, our approach predicts the affordances and generates the corresponding motions by leveraging the concept understanding and commonsense knowledge from broad sources. To scaffold the VLM’s reasoning in zero-shot, we propose a visual prompting technique that annotates marks on the images, converting the prediction of keypoints and waypoints into a series of visual question answering problems that are feasible for the VLM to solve. Using the robot experiences collected in this way, we further investigate ways to bootstrap the performance through in-context learning and policy distillation. We evaluate and analyze MOKA’s performance on a variety of manipulation tasks specified by free-form language descriptions, such as tool use, deformable body manipulation, and object rearrangement.
arxiv情報
著者 | Fangchen Liu,Kuan Fang,Pieter Abbeel,Sergey Levine |
発行日 | 2024-03-05 18:08:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google