Robotic Manipulation Datasets for Offline Compositional Reinforcement Learning

要約

オフライン強化学習 (RL) は、RL エージェントが大規模なデータセットで事前トレーニングできるようにする有望な方向性であり、高価なデータ収集の再発を回避します。
この分野を発展させるには、大規模なデータセットを生成することが重要です。
構成的 RL は、1) 少数のコンポーネントから多くのタスクを作成できる、2) タスク構造により、訓練されたエージェントが関連する学習したコンポーネントを組み合わせて新しいタスクを解決できる可能性がある、3) 構成的 RL は、このような大規模なデータセットを生成する場合に特に魅力的です。
ディメンションはタスクの関連性の概念を提供します。
この論文では、CompoSuite の $256$ タスクを使用して作成された、ロボット操作をシミュレートするための 4 つのオフライン RL データセットを提供します [Mendez al., 2022a]。
各データセットは、さまざまなレベルのパフォーマンスを持つエージェントから収集され、2 億 5,600 万ドルのトランジションで構成されています。
構成的なタスク ポリシーを学習するエージェントの能力を評価するためのトレーニングと評価の設定を提供します。
私たちのベンチマーク実験では、現在のオフライン RL 手法がトレーニング タスクをある程度学習でき、構成手法が非構成手法よりも優れていることが示されています。
しかし、現在の方法では、構成構造を抽出して目に見えないタスクに一般化することができず、オフライン構成 RL における将来の研究の必要性が浮き彫りになっています。

要約(オリジナル)

Offline reinforcement learning (RL) is a promising direction that allows RL agents to pre-train on large datasets, avoiding the recurrence of expensive data collection. To advance the field, it is crucial to generate large-scale datasets. Compositional RL is particularly appealing for generating such large datasets, since 1)~it permits creating many tasks from few components, 2)~the task structure may enable trained agents to solve new tasks by combining relevant learned components, and 3)~the compositional dimensions provide a notion of task relatedness. This paper provides four offline RL datasets for simulated robotic manipulation created using the $256$ tasks from CompoSuite [Mendez at al., 2022a]. Each dataset is collected from an agent with a different degree of performance, and consists of $256$ million transitions. We provide training and evaluation settings for assessing an agent’s ability to learn compositional task policies. Our benchmarking experiments show that current offline RL methods can learn the training tasks to some extent and that compositional methods outperform non-compositional methods. Yet current methods are unable to extract the compositional structure to generalize to unseen tasks, highlighting a need for future research in offline compositional RL.

arxiv情報

著者 Marcel Hussing,Jorge A. Mendez,Anisha Singrodia,Cassandra Kent,Eric Eaton
発行日 2024-07-15 17:21:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク