要約
教師なし事前トレーニングは、多くの教師ありドメインで変革をもたらしました。
ただし、このようなアイデアを強化学習 (RL) に適用すると、微調整にはタスク固有のデータを模倣するのではなく、反復的な自己改善を通じて解決策を探索して特定する必要があるという点で、独特の課題が生じます。
この研究では、ラベルのない以前の軌道データを効率的な探索戦略を学習するためにどのように活用できるかを研究します。
以前のデータは、一連の低レベルのスキルを事前トレーニングするために使用したり、オンライン RL の追加のポリシー外データとして使用したりできますが、オンライン探索のためにこれらのアイデアを効果的に組み合わせる方法は不明でした。
私たちの手法である SUPE (Skills from Unlabeled Prior data for Exploration) は、これらのアイデアを慎重に組み合わせることで利点がさらに高まることを示しています。
私たちの手法では、まず変分オートエンコーダー (VAE) を使用して低レベルのスキルを抽出し、次に楽観的報酬モデルを使用してラベルのない軌跡を擬似的に再ラベルし、以前のデータを高レベルのタスク関連のサンプルに変換します。
最後に、SUPE は、これらの変換されたサンプルをオンライン RL の追加のオフポリシー データとして使用し、効率的に調査するための事前トレーニング済みの低レベル スキルを構成する高レベルのポリシーを学習します。
私たちは、SUPE が以前の戦略を確実に上回り、長期にわたる報酬の少ない一連のタスクを首尾よく解決することを経験的に示しています。
コード: https://github.com/rail-berkeley/supe。
要約(オリジナル)
Unsupervised pretraining has been transformative in many supervised domains. However, applying such ideas to reinforcement learning (RL) presents a unique challenge in that fine-tuning does not involve mimicking task-specific data, but rather exploring and locating the solution through iterative self-improvement. In this work, we study how unlabeled prior trajectory data can be leveraged to learn efficient exploration strategies. While prior data can be used to pretrain a set of low-level skills, or as additional off-policy data for online RL, it has been unclear how to combine these ideas effectively for online exploration. Our method SUPE (Skills from Unlabeled Prior data for Exploration) demonstrates that a careful combination of these ideas compounds their benefits. Our method first extracts low-level skills using a variational autoencoder (VAE), and then pseudo-relabels unlabeled trajectories using an optimistic reward model, transforming prior data into high-level, task-relevant examples. Finally, SUPE uses these transformed examples as additional off-policy data for online RL to learn a high-level policy that composes pretrained low-level skills to explore efficiently. We empirically show that SUPE reliably outperforms prior strategies, successfully solving a suite of long-horizon, sparse-reward tasks. Code: https://github.com/rail-berkeley/supe.
arxiv情報
著者 | Max Wilcoxson,Qiyang Li,Kevin Frans,Sergey Levine |
発行日 | 2024-12-06 16:57:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google