Goal Representations for Instruction Following: A Semi-Supervised Language Interface to Control

要約

私たちの目標は、ロボットが「タオルを電子レンジの隣に置いてください」などの自然言語の指示に従うことです。
しかし、大量のラベル付きデータ、つまり、言語命令でラベル付けされたタスクのデモンストレーションを含むデータを取得するのは、法外なコストです。
対照的に、イメージ目標に対応するポリシーを取得することははるかに簡単です。なぜなら、自律的なトライアルやデモンストレーションは後から考えて、最終状態を目標としてラベル付けできるからです。
この研究では、少量の言語データのみを使用して、言語を使用してイメージと目標を条件付けした共同ポリシーを活用する方法を提供します。
これまでの研究では、ビジョン言語モデルを使用するか、言語目標条件付きポリシーを共同トレーニングすることによってこの点で進歩しましたが、これまでのところ、どちらの方法も人間による重要な注釈なしでは現実世界のロボットタスクに効果的に拡張できませんでした。
私たちの方法は、言語を目標画像ではなく、命令が対応する開始画像と目標画像の間の望ましい変化に位置合わせする埋め込みをラベル付きデータから学習することで、現実世界で堅牢なパフォーマンスを実現します。
次に、この埋め込みに基づいてポリシーをトレーニングします。ポリシーはすべてのラベルなしデータから恩恵を受けますが、調整された埋め込みは、ポリシーを制御するための言語のインターフェイスを提供します。
ラベル付きデータの外部の言語命令を一般化して、さまざまなシーンでのさまざまな操作タスクにわたる命令を示します。
私たちのアプローチのビデオとコードは、Web サイト https://rail-berkeley.github.io/grif/ でご覧いただけます。

要約(オリジナル)

Our goal is for robots to follow natural language instructions like ‘put the towel next to the microwave.’ But getting large amounts of labeled data, i.e. data that contains demonstrations of tasks labeled with the language instruction, is prohibitive. In contrast, obtaining policies that respond to image goals is much easier, because any autonomous trial or demonstration can be labeled in hindsight with its final state as the goal. In this work, we contribute a method that taps into joint image- and goal- conditioned policies with language using only a small amount of language data. Prior work has made progress on this using vision-language models or by jointly training language-goal-conditioned policies, but so far neither method has scaled effectively to real-world robot tasks without significant human annotation. Our method achieves robust performance in the real world by learning an embedding from the labeled data that aligns language not to the goal image, but rather to the desired change between the start and goal images that the instruction corresponds to. We then train a policy on this embedding: the policy benefits from all the unlabeled data, but the aligned embedding provides an interface for language to steer the policy. We show instruction following across a variety of manipulation tasks in different scenes, with generalization to language instructions outside of the labeled data. Videos and code for our approach can be found on our website: https://rail-berkeley.github.io/grif/ .

arxiv情報

著者 Vivek Myers,Andre He,Kuan Fang,Homer Walke,Philippe Hansen-Estruch,Ching-An Cheng,Mihai Jalobeanu,Andrey Kolobov,Anca Dragan,Sergey Levine
発行日 2023-08-18 00:47:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク