VLMbench: A Compositional Benchmark for Vision-and-Language Manipulation

要約

言語の柔軟性と構成性の恩恵を受けて、人間は言語を使用して、ナビゲーションやオブジェクト操作などの複雑なタスクを具体化されたエージェントに命令することを自然に意図します。
この作業では、具体化されたエージェントの最後の 1 マイルの空白を埋めることを目指しています。たとえば、「赤いマグカップを直立させたまま、ボックスの横に移動する」などの人間のガイダンスに従うオブジェクト操作です。
この目的のために、自動操作ソルバー (AMSolver) システムを導入し、それに基づいて、分類されたロボット操作タスクに関するさまざまな言語命令を含む、視覚と言語操作のベンチマーク (VLMbench) を構築します。
具体的には、モジュラー ルール ベースのタスク テンプレートが作成され、さまざまなオブジェクトの形状と外観、アクション タイプ、およびモーションの制約で構成される、言語命令を使用してロボットのデモンストレーションが自動的に生成されます。
また、キーポイントベースのモデル 6D-CLIPort を開発して、マルチビュー観察と言語入力を処理し、6 つの自由度 (DoF) アクションのシーケンスを出力します。
新しいシミュレーターとベンチマークが、言語誘導ロボット操作に関する将来の研究を促進することを願っています。

要約(オリジナル)

Benefiting from language flexibility and compositionality, humans naturally intend to use language to command an embodied agent for complex tasks such as navigation and object manipulation. In this work, we aim to fill the blank of the last mile of embodied agents — object manipulation by following human guidance, e.g., ‘move the red mug next to the box while keeping it upright.’ To this end, we introduce an Automatic Manipulation Solver (AMSolver) system and build a Vision-and-Language Manipulation benchmark (VLMbench) based on it, containing various language instructions on categorized robotic manipulation tasks. Specifically, modular rule-based task templates are created to automatically generate robot demonstrations with language instructions, consisting of diverse object shapes and appearances, action types, and motion constraints. We also develop a keypoint-based model 6D-CLIPort to deal with multi-view observations and language input and output a sequence of 6 degrees of freedom (DoF) actions. We hope the new simulator and benchmark will facilitate future research on language-guided robotic manipulation.

arxiv情報

著者 Kaizhi Zheng,Xiaotong Chen,Odest Chadwicke Jenkins,Xin Eric Wang
発行日 2022-08-17 17:18:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.RO パーマリンク