D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning

要約

オフライン強化学習アルゴリズムは、コストがかかる、または危険な現実世界の探索を必要とせず、事前に収集された大規模なデータセットから恩恵を受ける、データ駆動型の RL 手法を可能にする可能性を秘めています。
これにより、現実世界への応用が促進されるだけでなく、RL 研究へのより標準化されたアプローチも促進されます。
さらに、オフライン RL メソッドは、オンライン微調整のための効果的な初期化を提供し、探索に関する課題を克服できます。
ただし、オフライン RL アルゴリズムの進捗状況を評価するには、現実世界のタスクの特性を捉え、さまざまなタスクの困難を提供し、ドメインのパラメーター (例:
地平線、報酬のまばらさ)とデータのパラメーター(例:狭い実証データまたは広い探索データ)。
近年のオフライン RL は、より単純なベンチマーク タスクによって大幅な進歩を遂げてきましたが、最も広く使用されているデータセットのパフォーマンスはますます飽和しており、現実的なタスクの特性を反映できていない可能性があります。
私たちは、現実世界のロボット システムのモデルに基づいて、スクリプト化されたデータや人間の遠隔操作者によって収集されたプレイ スタイル データなどのさまざまなデータ ソースで構成される、ロボットの操作と移動環境の現実的なシミュレーションに焦点を当てた、オフライン RL の新しいベンチマークを提案します。
、およびその他のデータ ソース。
私たちが提案するベンチマークは、状態ベースと画像ベースのドメインをカバーしており、オフライン RL とオンライン微調整評価の両方をサポートしており、一部のタスクは事前トレーニングと微調整の両方を必要とするように特別に設計されています。
私たちが提案したベンチマークによって、オフライン RL とアルゴリズムの微調整の両方でさらなる進歩が促進されることを期待しています。
コード、例、タスク、データを含むウェブサイトは、\url{https://sites.google.com/view/d5rl/} から入手できます。

要約(オリジナル)

Offline reinforcement learning algorithms hold the promise of enabling data-driven RL methods that do not require costly or dangerous real-world exploration and benefit from large pre-collected datasets. This in turn can facilitate real-world applications, as well as a more standardized approach to RL research. Furthermore, offline RL methods can provide effective initializations for online finetuning to overcome challenges with exploration. However, evaluating progress on offline RL algorithms requires effective and challenging benchmarks that capture properties of real-world tasks, provide a range of task difficulties, and cover a range of challenges both in terms of the parameters of the domain (e.g., length of the horizon, sparsity of rewards) and the parameters of the data (e.g., narrow demonstration data or broad exploratory data). While considerable progress in offline RL in recent years has been enabled by simpler benchmark tasks, the most widely used datasets are increasingly saturating in performance and may fail to reflect properties of realistic tasks. We propose a new benchmark for offline RL that focuses on realistic simulations of robotic manipulation and locomotion environments, based on models of real-world robotic systems, and comprising a variety of data sources, including scripted data, play-style data collected by human teleoperators, and other data sources. Our proposed benchmark covers state-based and image-based domains, and supports both offline RL and online fine-tuning evaluation, with some of the tasks specifically designed to require both pre-training and fine-tuning. We hope that our proposed benchmark will facilitate further progress on both offline RL and fine-tuning algorithms. Website with code, examples, tasks, and data is available at \url{https://sites.google.com/view/d5rl/}

arxiv情報

著者 Rafael Rafailov,Kyle Hatch,Anikait Singh,Laura Smith,Aviral Kumar,Ilya Kostrikov,Philippe Hansen-Estruch,Victor Kolev,Philip Ball,Jiajun Wu,Chelsea Finn,Sergey Levine
発行日 2024-08-15 22:27:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク