Robotic Skill Acquisition via Instruction Augmentation with Vision-Language Models

要約

近年、自然言語の指示に従うロボット操作方針の学習において、多くの進歩が見られる。このような手法は、一般的に、特定のタスクを念頭に収集されたロボット言語データのコーパスから学習するか、後知恵で豊富な言語記述を用いて人間によって高価に再ラベル化されたものである。最近では、CLIPやViLDのような大規模な事前学習済み視覚言語モデル(VLM)が、表現とシーン記述子を学習するためにロボティクスに適用されている。これらの事前訓練されたモデルは、ロボットデータの自動ラベラーとして機能し、インターネットスケールの知識を既存のデータセットに効果的にインポートすることで、グランドトゥルースのアノテーションに反映されていないタスクに対しても有用になるのだろうか?これを達成するために、我々は、言語条件付き制御のためのデータ駆動型命令拡張(DIAL)を導入する:我々は、CLIPの意味理解を活用した半教師付き言語ラベルを利用して、ラベル付けされていないデモデータの大規模データセットに知識を伝播し、次に、拡張されたデータセット上で言語条件付きポリシーを学習する。この方法によって、高価な人間のラベルと比較して、有用な言語記述を安価に取得することができ、大規模データセットのより効率的なラベルカバレッジが可能になる。我々は、80,000のデモの96.5%がクラウドソースによる言語アノテーションを含まない、困難な実世界のロボット操作領域にDIALを適用する。DIALは、模倣学習方針が新たな能力を獲得し、元のデータセットでは見られなかった60の新規な命令に汎化することを可能にする。

要約(オリジナル)

In recent years, much progress has been made in learning robotic manipulation policies that follow natural language instructions. Such methods typically learn from corpora of robot-language data that was either collected with specific tasks in mind or expensively re-labelled by humans with rich language descriptions in hindsight. Recently, large-scale pretrained vision-language models (VLMs) like CLIP or ViLD have been applied to robotics for learning representations and scene descriptors. Can these pretrained models serve as automatic labelers for robot data, effectively importing Internet-scale knowledge into existing datasets to make them useful even for tasks that are not reflected in their ground truth annotations? To accomplish this, we introduce Data-driven Instruction Augmentation for Language-conditioned control (DIAL): we utilize semi-supervised language labels leveraging the semantic understanding of CLIP to propagate knowledge onto large datasets of unlabelled demonstration data and then train language-conditioned policies on the augmented datasets. This method enables cheaper acquisition of useful language descriptions compared to expensive human labels, allowing for more efficient label coverage of large-scale datasets. We apply DIAL to a challenging real-world robotic manipulation domain where 96.5% of the 80,000 demonstrations do not contain crowd-sourced language annotations. DIAL enables imitation learning policies to acquire new capabilities and generalize to 60 novel instructions unseen in the original dataset.

arxiv情報

著者 Ted Xiao,Harris Chan,Pierre Sermanet,Ayzaan Wahid,Anthony Brohan,Karol Hausman,Sergey Levine,Jonathan Tompson
発行日 2023-07-01 05:38:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク