要約
実際のロボットの実験には時間とコストがかかります。
このため、強化学習 (RL) コミュニティの大部分は、アルゴリズムの開発とベンチマークにシミュレーターを使用しています。
ただし、特に環境との複雑な相互作用を伴うタスクの場合、シミュレーションで得られた洞察が必ずしも実際のロボットに反映されるわけではありません。
したがって、リアル ロボット チャレンジ 2022 は、参加者がシミュレーションと同じくらい簡単に本物のロボットをリモートで実験できるようにすることで、RL とロボット工学コミュニティの間の架け橋としての役割を果たしました。
ここ数年で、オフライン強化学習は、事前に収集されたデータセットから学習するための有望なパラダイムに成熟し、高価なオンライン インタラクションへの依存を軽減しました。
そこで私たちは参加者に、提供された実際のロボットのデータセットから、押す、握る、手の向きを変えるという 2 つの器用な操作タスクを学習するよう依頼しました。
広範なソフトウェアドキュメントと実際のセットアップのシミュレーションに基づいた初期段階により、コンテストは特に参加しやすくなりました。
7 つの同一の本物の TriFinger プラットフォームのクラスター上でオフラインで学習したポリシーを評価するための十分なアクセス予算を各チームに与えることで、機械学習者とロボット技術者にとって同様にエキサイティングなコンテストを組織しました。
この研究では、競争のルールを述べ、優勝チームが使用した手法を示し、その結果をチャレンジ データセット上の最先端のオフライン RL アルゴリズムのベンチマークと比較します。
要約(オリジナル)
Experimentation on real robots is demanding in terms of time and costs. For this reason, a large part of the reinforcement learning (RL) community uses simulators to develop and benchmark algorithms. However, insights gained in simulation do not necessarily translate to real robots, in particular for tasks involving complex interactions with the environment. The Real Robot Challenge 2022 therefore served as a bridge between the RL and robotics communities by allowing participants to experiment remotely with a real robot – as easily as in simulation. In the last years, offline reinforcement learning has matured into a promising paradigm for learning from pre-collected datasets, alleviating the reliance on expensive online interactions. We therefore asked the participants to learn two dexterous manipulation tasks involving pushing, grasping, and in-hand orientation from provided real-robot datasets. An extensive software documentation and an initial stage based on a simulation of the real set-up made the competition particularly accessible. By giving each team plenty of access budget to evaluate their offline-learned policies on a cluster of seven identical real TriFinger platforms, we organized an exciting competition for machine learners and roboticists alike. In this work we state the rules of the competition, present the methods used by the winning teams and compare their results with a benchmark of state-of-the-art offline RL algorithms on the challenge datasets.
arxiv情報
著者 | Nico Gürtler,Felix Widmaier,Cansu Sancaktar,Sebastian Blaes,Pavel Kolev,Stefan Bauer,Manuel Wüthrich,Markus Wulfmeier,Martin Riedmiller,Arthur Allshire,Qiang Wang,Robert McCarthy,Hangyeol Kim,Jongchan Baek Pohang,Wookyong Kwon,Shanliang Qian,Yasunori Toshimitsu,Mike Yan Michelis,Amirhossein Kazemipour,Arman Raayatsanati,Hehui Zheng,Barnabasa Gavin Cangan,Bernhard Schölkopf,Georg Martius |
発行日 | 2023-08-15 12:40:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google