Learning Reward Functions for Robotic Manipulation by Observing Humans

要約

人間が物体を操作する様子を観察することは、ロボットの方針を学習するための豊富でスケーラブルかつ安価なデータ源となります。しかし、人間の動画からロボットのマニピュレータにスキルを転送することは、行動空間と観察空間の違いを始めとするいくつかの課題を提起する。本研究では、様々な操作タスクをこなす人間のラベルなし動画を用いて、ロボット操作ポリシーのためのタスクに依存しない報酬関数を学習する。この学習データの多様性のおかげで、学習された報酬関数は、以前に見たことのないロボットの体型や環境からの画像観察に十分に一般化し、強化学習における指示探索のための有意義な事前情報を提供することができる。目標画像に対する状態のスコアリングには、直接的な時間回帰と、時間対比学習で得られる埋め込み空間の距離による2つの方法を提案する。目標画像に関数を条件付けることで、1つのモデルを様々なタスクで再利用することが可能である。人間の映像を利用してロボットを教育する先行研究とは異なり、我々の手法であるHuman Offline Learned Distances(HOLD)は、ロボット環境からの先行データも、タスク固有の人間のデモンストレーションのセットも、形態間の対応についての定義済みの概念も必要としないが、タスク完了から得られる疎な報酬のみを用いる場合と比較して、模擬ロボットアームのいくつかの操作タスクの訓練を加速することができる。

要約(オリジナル)

Observing a human demonstrator manipulate objects provides a rich, scalable and inexpensive source of data for learning robotic policies. However, transferring skills from human videos to a robotic manipulator poses several challenges, not least a difference in action and observation spaces. In this work, we use unlabeled videos of humans solving a wide range of manipulation tasks to learn a task-agnostic reward function for robotic manipulation policies. Thanks to the diversity of this training data, the learned reward function sufficiently generalizes to image observations from a previously unseen robot embodiment and environment to provide a meaningful prior for directed exploration in reinforcement learning. We propose two methods for scoring states relative to a goal image: through direct temporal regression, and through distances in an embedding space obtained with time-contrastive learning. By conditioning the function on a goal image, we are able to reuse one model across a variety of tasks. Unlike prior work on leveraging human videos to teach robots, our method, Human Offline Learned Distances (HOLD) requires neither a priori data from the robot environment, nor a set of task-specific human demonstrations, nor a predefined notion of correspondence across morphologies, yet it is able to accelerate training of several manipulation tasks on a simulated robot arm compared to using only a sparse reward obtained from task completion.

arxiv情報

著者 Minttu Alakuijala,Gabriel Dulac-Arnold,Julien Mairal,Jean Ponce,Cordelia Schmid
発行日 2023-03-07 16:29:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク