要約
近年、ロボット強化学習(RL)の分野で大きな進歩が遂げられ、複雑な画像観測を処理し、現実の世界で訓練し、デモや以前の経験などの補助データを組み込む方法を可能にします。
ただし、これらの進歩にもかかわらず、ロボットRLは使用が難しいままです。
実務家の間では、これらのアルゴリズムの特定の実装の詳細は、アルゴリズムの選択と同じくらいパフォーマンスにとって重要であることが多いことが認められています。
ロボットRLの広範な採用に対する重要な課題と、ロボットRLメソッドのさらなる開発は、そのような方法の比較可能性であると仮定します。
この課題に対処するために、報酬を計算し、環境をリセットする方法、広く採用されたロボット用の高品質のコントローラー、および多くの挑戦的な例タスクとともに、サンプル効率的なオフポリティディープRLメソッドを含む慎重に実装されたライブラリを開発しました。
このライブラリをコミュニティのリソースとして提供し、その設計の選択を説明し、実験結果を提示します。
おそらく驚くべきことに、私たちの実装は非常に効率的な学習を達成し、PCBボードアセンブリ、ケーブルルーティング、およびポリシーごとに25〜50分間のトレーニングの間のオブジェクトの移転を取得し、文献の同様のタスクで報告された最先端の結果よりも改善できることがわかりました。
これらのポリシーは、完全なまたはほぼ完璧な成功率、摂動下でも極端な堅牢性を達成し、緊急の回復と修正行動を示します。
これらの有望な結果と当社の高品質のオープンソース実装が、ロボットコミュニティがロボットRLのさらなる開発を促進するためのツールを提供することを願っています。
私たちのコード、ドキュメント、ビデオはhttps://serl-robot.github.io/にあります
要約(オリジナル)
In recent years, significant progress has been made in the field of robotic reinforcement learning (RL), enabling methods that handle complex image observations, train in the real world, and incorporate auxiliary data, such as demonstrations and prior experience. However, despite these advances, robotic RL remains hard to use. It is acknowledged among practitioners that the particular implementation details of these algorithms are often just as important (if not more so) for performance as the choice of algorithm. We posit that a significant challenge to widespread adoption of robotic RL, as well as further development of robotic RL methods, is the comparative inaccessibility of such methods. To address this challenge, we developed a carefully implemented library containing a sample efficient off-policy deep RL method, together with methods for computing rewards and resetting the environment, a high-quality controller for a widely-adopted robot, and a number of challenging example tasks. We provide this library as a resource for the community, describe its design choices, and present experimental results. Perhaps surprisingly, we find that our implementation can achieve very efficient learning, acquiring policies for PCB board assembly, cable routing, and object relocation between 25 to 50 minutes of training per policy on average, improving over state-of-the-art results reported for similar tasks in the literature. These policies achieve perfect or near-perfect success rates, extreme robustness even under perturbations, and exhibit emergent recovery and correction behaviors. We hope that these promising results and our high-quality open-source implementation will provide a tool for the robotics community to facilitate further developments in robotic RL. Our code, documentation, and videos can be found at https://serl-robot.github.io/
arxiv情報
著者 | Jianlan Luo,Zheyuan Hu,Charles Xu,You Liang Tan,Jacob Berg,Archit Sharma,Stefan Schaal,Chelsea Finn,Abhishek Gupta,Sergey Levine |
発行日 | 2025-03-20 09:13:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google