ClevrSkills: Compositional Language and Visual Reasoning in Robotics

要約

ロボットのタスクは本質的に高度に構成的です。
たとえば、テーブルの掃除などの高レベルのタスクを実行するには、ロボットはエフェクタをテーブル上のオブジェクトに移動し、それらを拾い上げてテーブルから 1 つずつ移動するという低レベルの機能を使用する必要があります。
その結果、プロセス内の動的シナリオを再評価します。
大規模ビジョン言語モデル (VLM) が、高度な人間のような推論を必要とする多くのタスクで進歩を示していることを考えると、モデルに必要な低レベルの機能を教え込んだ場合、モデルは新しい方法でモデルを構成できるかという質問をします。
明示的に教えられなくても、テーブルの掃除などの興味深い高レベルのタスクを達成できるでしょうか?
この目的を達成するために、ロボット工学における構成推論のためのベンチマーク スイートである ClvrSkills を紹介します。
ClvrSkills は、ManiSkill2 シミュレーターと付随するデータセット上に開発された環境スイートです。
データセットには、言語および視覚的な注釈、およびタスク仕様としてのマルチモーダル プロンプトを備えた、さまざまなロボット タスクで生成された軌跡が含まれています。
このスイートには、基本的な運動能力を必要とする単純なタスクから始まる、構成的理解の 3 つのレベルを備えたタスクのカリキュラムが含まれています。
ClvrSkills で複数の異なる VLM ベースラインをベンチマークし、多数のタスクで事前トレーニングされた後でも、これらのモデルがロボット タスクの構成推論で失敗することを示しました。

要約(オリジナル)

Robotics tasks are highly compositional by nature. For example, to perform a high-level task like cleaning the table a robot must employ low-level capabilities of moving the effectors to the objects on the table, pick them up and then move them off the table one-by-one, while re-evaluating the consequently dynamic scenario in the process. Given that large vision language models (VLMs) have shown progress on many tasks that require high level, human-like reasoning, we ask the question: if the models are taught the requisite low-level capabilities, can they compose them in novel ways to achieve interesting high-level tasks like cleaning the table without having to be explicitly taught so? To this end, we present ClevrSkills – a benchmark suite for compositional reasoning in robotics. ClevrSkills is an environment suite developed on top of the ManiSkill2 simulator and an accompanying dataset. The dataset contains trajectories generated on a range of robotics tasks with language and visual annotations as well as multi-modal prompts as task specification. The suite includes a curriculum of tasks with three levels of compositional understanding, starting with simple tasks requiring basic motor skills. We benchmark multiple different VLM baselines on ClevrSkills and show that even after being pre-trained on large numbers of tasks, these models fail on compositional reasoning in robotics tasks.

arxiv情報

著者 Sanjay Haresh,Daniel Dijkman,Apratim Bhattacharyya,Roland Memisevic
発行日 2024-11-13 22:15:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク