要約
タイトル:ロッシーなアフォーダンスを利用したジェネラリゼーション:広範なオフラインデータを活用したビジュオモータータスクの学習
要約:
– 広範なデータセットの活用は、様々な分野においてジェネラリゼーションにとって重要であることが証明されている。
– しかし、多様なマルチタスクデータを新しいダウンストリームタスクのために効果的に活用する方法は、ロボティクスにおいてまだ大きな課題の一つである。
– この課題に対処するために、私たちは、オフライン強化学習を広範なデータに対して行い、学習したロッシー表現空間のサブゴールによってガイドされたオンラインファインチューニングと組み合わせて、未知の時間的に拡張されたタスクに対するゴール条件つきポリシーを獲得するフレームワークを提案している。
– 新しいタスクゴールに直面した場合、フレームワークはアフォーダンスモデルを使用して、元のタスクをより簡単な問題に分解するサブゴールの一連のロッシー表現を計画する。
– 広範なデータから学習したロッシー表現は、一般化を妨げる重複する文脈を抽象化し、状態とゴールに関するタスクに関連する情報を強調するように設計されているため、未知のタスクに対するサブゴールの計画を可能にし、ポリシーへのコンパクトな入力を提供し、ファインチューニングの報酬形成を容易にする。
– 私たちは、私たちのフレームワークが、視覚的入力だけで手動報酬工学を行わずに、以前の研究からのロボットの経験の大規模なデータセットで事前学習され、新しいタスクの効率的なファインチューニングが可能であることを示している。
要約(オリジナル)
The utilization of broad datasets has proven to be crucial for generalization for a wide range of fields. However, how to effectively make use of diverse multi-task data for novel downstream tasks still remains a grand challenge in robotics. To tackle this challenge, we introduce a framework that acquires goal-conditioned policies for unseen temporally extended tasks via offline reinforcement learning on broad data, in combination with online fine-tuning guided by subgoals in learned lossy representation space. When faced with a novel task goal, the framework uses an affordance model to plan a sequence of lossy representations as subgoals that decomposes the original task into easier problems. Learned from the broad data, the lossy representation emphasizes task-relevant information about states and goals while abstracting away redundant contexts that hinder generalization. It thus enables subgoal planning for unseen tasks, provides a compact input to the policy, and facilitates reward shaping during fine-tuning. We show that our framework can be pre-trained on large-scale datasets of robot experiences from prior work and efficiently fine-tuned for novel tasks, entirely from visual inputs without any manual reward engineering.
arxiv情報
著者 | Kuan Fang,Patrick Yin,Ashvin Nair,Homer Walke,Gengchen Yan,Sergey Levine |
発行日 | 2023-04-18 07:10:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI