要約
エージェントが自己生成したデータのみからの強化学習は、必要なデータ量の関係で、実際のロボットでの学習には実行不可能であると考えられています。
ただし、正しく行われれば、実際のデータから学習するエージェントは、以前に収集された次善のデータを再利用することで驚くほど効率的になる可能性があります。
この論文では、ポリシー外の学習方法の理解を深め、それをオンライン/オフラインの反復スキーム (「収集と推論」) に組み込むことで、収集されたすべての経験を使用してデータ効率が大幅に向上し、学習が強化される方法を示します。
実際のロボットの経験のみに基づいています。
さらに、結果として得られるポリシーは、最近提案された実際のロボット操作ベンチマークの最先端技術よりも大幅に改善されています。
私たちのアプローチは、ピクセルから直接エンドツーエンドで学習し、シミュレーターやデモンストレーションなどの追加の人間の領域知識に依存しません。
要約(オリジナル)
Reinforcement learning solely from an agent’s self-generated data is often believed to be infeasible for learning on real robots, due to the amount of data needed. However, if done right, agents learning from real data can be surprisingly efficient through re-using previously collected sub-optimal data. In this paper we demonstrate how the increased understanding of off-policy learning methods and their embedding in an iterative online/offline scheme (“collect and infer”) can drastically improve data-efficiency by using all the collected experience, which empowers learning from real robot experience only. Moreover, the resulting policy improves significantly over the state of the art on a recently proposed real robot manipulation benchmark. Our approach learns end-to-end, directly from pixels, and does not rely on additional human domain knowledge such as a simulator or demonstrations.
arxiv情報
著者 | Thomas Lampe,Abbas Abdolmaleki,Sarah Bechtle,Sandy H. Huang,Jost Tobias Springenberg,Michael Bloesch,Oliver Groth,Roland Hafner,Tim Hertweck,Michael Neunert,Markus Wulfmeier,Jingwei Zhang,Francesco Nori,Nicolas Heess,Martin Riedmiller |
発行日 | 2023-12-18 17:38:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google