Benchmarking Offline Reinforcement Learning on Real-Robot Hardware

要約

オンライン学習は実行不可能な場合が多いため、以前に記録されたデータからポリシーを学習することは、現実世界のロボット工学タスクにとって有望な方向性です。
特に器用な操作は、一般的な形では未解決の問題のままです。
しかし、オフライン強化学習と大規模で多様なデータセットの組み合わせは、近年の教師あり学習の急速な進歩と同様に、この困難な領域にブレークスルーをもたらす可能性を秘めています。
この問題への取り組みに向けた研究コミュニティの取り組みを調整するために、私たちは以下を含むベンチマークを提案します。 i) シミュレーションで訓練された有能な RL エージェントで取得された、2 つのタスクに関する器用な操作プラットフォームからのオフライン学習用の大規模なデータのコレクション。
ii) 学習したポリシーを実世界のロボット システム上で実行するオプションと、効率的なデバッグのためのシミュレーション。
私たちは、データセット上で著名なオープンソースのオフライン強化学習アルゴリズムを評価し、実際のシステム上でオフライン強化学習のための再現可能な実験セットアップを提供します。

要約(オリジナル)

Learning policies from previously recorded data is a promising direction for real-world robotics tasks, as online learning is often infeasible. Dexterous manipulation in particular remains an open problem in its general form. The combination of offline reinforcement learning with large diverse datasets, however, has the potential to lead to a breakthrough in this challenging domain analogously to the rapid progress made in supervised learning in recent years. To coordinate the efforts of the research community toward tackling this problem, we propose a benchmark including: i) a large collection of data for offline learning from a dexterous manipulation platform on two tasks, obtained with capable RL agents trained in simulation; ii) the option to execute learned policies on a real-world robotic system and a simulation for efficient debugging. We evaluate prominent open-sourced offline reinforcement learning algorithms on the datasets and provide a reproducible experimental setup for offline reinforcement learning on real systems.

arxiv情報

著者 Nico Gürtler,Sebastian Blaes,Pavel Kolev,Felix Widmaier,Manuel Wüthrich,Stefan Bauer,Bernhard Schölkopf,Georg Martius
発行日 2023-07-28 17:29:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク