RoboCLIP: One Demonstration is Enough to Learn Robot Policies

要約

報酬の仕様は、強化学習における難しい問題として悪名高く、堅牢な報酬関数を設計するには広範な専門家の監督が必要です。
模倣学習 (IL) 手法は、専門家のデモンストレーションを利用してこれらの問題を回避しようとしますが、通常は多数のドメイン内の専門家のデモンストレーションが必要です。
ビデオと言語モデル (VLM) の分野の進歩に触発され、ビデオ デモンストレーションまたはテキストによる説明の形で (大規模なデータ要件を克服して) 1 つのデモンストレーションを使用するオンライン模倣学習方法である RoboCLIP を紹介します。
手動の報酬関数設計を行わずに報酬を生成するタスク。
さらに、RoboCLIP は、報酬を生成するタスクを人間が解決するビデオなど、ドメイン外のデモンストレーションを利用することもでき、同じデモンストレーション ドメインとデプロイメント ドメインを必要とする必要がなくなります。
RoboCLIP は、報酬生成のための微調整を行わずに、事前トレーニングされた VLM を利用します。
RoboCLIP の報酬でトレーニングされた強化学習エージェントは、1 つのビデオ/テキスト デモンストレーションのみを使用して、下流のロボット操作タスクで競合する模倣学習手法よりも 2 ~ 3 倍高いゼロショット パフォーマンスを示します。

要約(オリジナル)

Reward specification is a notoriously difficult problem in reinforcement learning, requiring extensive expert supervision to design robust reward functions. Imitation learning (IL) methods attempt to circumvent these problems by utilizing expert demonstrations but typically require a large number of in-domain expert demonstrations. Inspired by advances in the field of Video-and-Language Models (VLMs), we present RoboCLIP, an online imitation learning method that uses a single demonstration (overcoming the large data requirement) in the form of a video demonstration or a textual description of the task to generate rewards without manual reward function design. Additionally, RoboCLIP can also utilize out-of-domain demonstrations, like videos of humans solving the task for reward generation, circumventing the need to have the same demonstration and deployment domains. RoboCLIP utilizes pretrained VLMs without any finetuning for reward generation. Reinforcement learning agents trained with RoboCLIP rewards demonstrate 2-3 times higher zero-shot performance than competing imitation learning methods on downstream robot manipulation tasks, doing so using only one video/text demonstration.

arxiv情報

著者 Sumedh A Sontakke,Jesse Zhang,Sébastien M. R. Arnold,Karl Pertsch,Erdem Bıyık,Dorsa Sadigh,Chelsea Finn,Laurent Itti
発行日 2023-10-11 21:10:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク