MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual Prompting

要約

オープンワールドの一般化では、ロボット システムが物理世界とユーザーのコマンドを深く理解し、多様で複雑なタスクを解決する必要があります。
最近のビジョン言語モデル (VLM) の進歩により、オープンワールドの問題を解決する前例のない機会が提供されましたが、その機能を活用してロボットを制御する方法は依然として大きな課題です。
この論文では、自由形式の言語命令で指定されたロボット操作タスクを解決するために VLM を使用するアプローチである MOKA (Marking Open-vocabulary Keypoint Affordances) を紹介します。
私たちのアプローチの中心となるのは、アフォーダンスのコンパクトなポイントベースの表現です。これは、観察された画像に対する VLM の予測と物理世界でのロボットの動作を橋渡しします。
事前トレーニングされた VLM を促すことで、私たちのアプローチは、幅広いデータ ソースから取得した VLM の常識的な知識と概念理解を利用して、アフォーダンスを予測し、モーションを生成します。
ゼロショットおよび少数ショット方式で VLM の推論を容易にするために、画像上にマークに注釈を付け、アフォーダンス推論を VLM によって解決可能な一連の視覚的な質問応答問題に変換する視覚的プロンプト手法を提案します。
さらに、コンテキスト内学習とポリシー抽出を通じて MOKA によって収集されたロボット エクスペリエンスを使用してパフォーマンスを向上させる方法を探索します。
私たちは、ツールの使用、変形可能な身体の操作、オブジェクトの再配置など、さまざまな卓上操作タスクにおける MOKA のパフォーマンスを評価および分析します。

要約(オリジナル)

Open-world generalization requires robotic systems to have a profound understanding of the physical world and the user command to solve diverse and complex tasks. While the recent advancement in vision-language models (VLMs) has offered unprecedented opportunities to solve open-world problems, how to leverage their capabilities to control robots remains a grand challenge. In this paper, we present MOKA (Marking Open-vocabulary Keypoint Affordances), an approach that employs VLMs to solve robotic manipulation tasks specified by free-form language instructions. Central to our approach is a compact point-based representation of affordance, which bridges the VLM’s predictions on observed images and the robot’s actions in the physical world. By prompting the pre-trained VLM, our approach utilizes the VLM’s commonsense knowledge and concept understanding acquired from broad data sources to predict affordances and generate motions. To facilitate the VLM’s reasoning in zero-shot and few-shot manners, we propose a visual prompting technique that annotates marks on images, converting affordance reasoning into a series of visual question-answering problems that are solvable by the VLM. We further explore methods to enhance performance with robot experiences collected by MOKA through in-context learning and policy distillation. We evaluate and analyze MOKA’s performance on various table-top manipulation tasks including tool use, deformable body manipulation, and object rearrangement.

arxiv情報

著者 Fangchen Liu,Kuan Fang,Pieter Abbeel,Sergey Levine
発行日 2024-08-19 21:47:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク