Sim-to-real Transfer of Deep Reinforcement Learning Agents for Online Coverage Path Planning

要約

シミュレーションでトレーニングされたモデルを現実世界に展開する場合、シミュレーションからリアルへの転送には困難な課題が伴います。
2 つの設定間の分布の変化により、知覚される現実世界環境の偏った表現が生じ、最適とは言えない予測が行われます。
この研究では、カバレッジ パス プランニング (CPP) のための強化学習 (RL) エージェントのシムからリアルへの転送という課題に取り組みます。
CPP のタスクは、ロボットが限られたエリアのすべての点を訪れる経路を見つけることです。
具体的には、環境が不明であり、エージェントが環境をマッピングしながらオンラインでパスを計画する必要がある場合を考えます。
実際のロボットの運動学とリアルタイムの側面を含めながら、シミュレートされたセンサーと障害物を使用した半仮想環境を通じて、シミュレーションと現実のギャップを埋めます。
シミュレーションのみで訓練されたエージェントと比較して、現実的な設定に適応するにはどのレベルの微調整が必​​要かを調査します。
モデルの推論頻度を高くすれば、シミュレーションと実際のギャップを減らすには十分ですが、微調整すると最初はパフォーマンスが低下することがわかりました。
モデルをシミュレーションでトレーニングし、高い推論頻度でデプロイすることにより、最先端の結果をシミュレーションから実際の領域に転送します。そこでの直接学習には、手動操作を伴う数週間のオーダーがかかります。
完全に不可能です。

要約(オリジナル)

Sim-to-real transfer presents a difficult challenge, where models trained in simulation are to be deployed in the real world. The distribution shift between the two settings leads to biased representations of the perceived real-world environment, and thus to suboptimal predictions. In this work, we tackle the challenge of sim-to-real transfer of reinforcement learning (RL) agents for coverage path planning (CPP). In CPP, the task is for a robot to find a path that visits every point of a confined area. Specifically, we consider the case where the environment is unknown, and the agent needs to plan the path online while mapping the environment. We bridge the sim-to-real gap through a semi-virtual environment with a simulated sensor and obstacles, while including real robot kinematics and real-time aspects. We investigate what level of fine-tuning is needed for adapting to a realistic setting, comparing to an agent trained solely in simulation. We find that a high model inference frequency is sufficient for reducing the sim-to-real gap, while fine-tuning degrades performance initially. By training the model in simulation and deploying it at a high inference frequency, we transfer state-of-the-art results from simulation to the real domain, where direct learning would take in the order of weeks with manual interaction, i.e., would be completely infeasible.

arxiv情報

著者 Arvi Jonnarth,Ola Johansson,Michael Felsberg
発行日 2024-06-07 13:24:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY パーマリンク