要約
Rehnecortion Learning(RL)は、ロボットアプリケーションの複雑なタスクを解決することに成功したことで牽引力を獲得しています。
ただし、物理的なロボットへの展開は、安全リスクと比較的高いトレーニングコストのために依然として困難です。
これらの問題を回避するために、RLエージェントは多くの場合、シミュレーターでトレーニングされ、シミュレーションと現実のギャップに関連する新しい問題を導入します。
このペーパーでは、現実のギャップを削減し、実際のロボットシステムのRLポリシーの開発と展開を促進するために設計されたRLパイプラインを紹介します。
パイプラインは、RLトレーニングプロセスをシステム識別の初期ステップと、コアシミュレーショントレーニング、高忠実度シミュレーション、実世界の展開の3つのトレーニング段階に整理し、それぞれがSIMからリアルのギャップを減らすためのリアリズムのレベルを追加します。
各トレーニング段階は、入力ポリシーを採用し、改善し、改善されたポリシーを次の段階に渡すか、さらに改善するためにループします。
この反復プロセスは、ポリシーが望ましいパフォーマンスを達成するまで続きます。
パイプラインの有効性は、監視アプリケーションで使用されるボストンダイナミクススポットモバイルロボットを使用したケーススタディを通じて示されています。
ケーススタディでは、各パイプライン段階で行われたステップを提示して、RLエージェントを取得してロボットの位置と向きを制御します。
要約(オリジナル)
Reinforcement learning (RL) has gained traction for its success in solving complex tasks for robotic applications. However, its deployment on physical robots remains challenging due to safety risks and the comparatively high costs of training. To avoid these problems, RL agents are often trained on simulators, which introduces a new problem related to the gap between simulation and reality. This paper presents an RL pipeline designed to help reduce the reality gap and facilitate developing and deploying RL policies for real-world robotic systems. The pipeline organizes the RL training process into an initial step for system identification and three training stages: core simulation training, high-fidelity simulation, and real-world deployment, each adding levels of realism to reduce the sim-to-real gap. Each training stage takes an input policy, improves it, and either passes the improved policy to the next stage or loops it back for further improvement. This iterative process continues until the policy achieves the desired performance. The pipeline’s effectiveness is shown through a case study with the Boston Dynamics Spot mobile robot used in a surveillance application. The case study presents the steps taken at each pipeline stage to obtain an RL agent to control the robot’s position and orientation.
arxiv情報
著者 | Jefferson Silveira,Joshua A. Marshall,Sidney N. Givigi Jr |
発行日 | 2025-02-21 18:16:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google