Sim-to-Real Transfer of Deep Reinforcement Learning Agents for Online Coverage Path Planning

要約

シミュレーションでトレーニングされたモデルを現実世界に展開する場合、シミュレーションからリアルへの転送には困難な課題が伴います。
2 つの設定間の分布のシフトにより、ダイナミクスの偏った表現が生じ、現実世界の環境では次善の予測が行われます。
この研究では、カバレッジ パス プランニング (CPP) のための強化学習 (RL) エージェントのシムからリアルへの転送という課題に取り組みます。
CPP のタスクは、ロボットが限られた領域のすべての点をカバーする経路を見つけることです。
具体的には、環境が不明であり、エージェントが環境をマッピングしながらオンラインでパスを計画する必要がある場合を考えます。
私たちは、シミュレートされたセンサーと障害物を利用して環境のランダム化とエピソードの自動リセットを可能にしながら、実際のロボットとリアルタイムの側面を含む半仮想環境を通じてシミュレーションと現実のギャップを埋めます。
シミュレーションのみで訓練されたエージェントと比較して、現実的な設定に適応するにはどのレベルの微調整が必​​要かを調査します。
高い推論周波数により、一次マルコフ ポリシーをシミュレーションから直接転送できる一方で、高次のポリシーを微調整してシミュレーションと実際のギャップをさらに削減できることがわかりました。
さらに、より低い周波数で動作できるため、計算要件が軽減されます。
どちらの場合も、私たちのアプローチは最先端の結果をシミュレーションから実際の領域に転送しますが、手動による対話を伴う直接学習には数週間のオーダーがかかり、まったく実行不可能です。

要約(オリジナル)

Sim-to-real transfer presents a difficult challenge, where models trained in simulation are to be deployed in the real world. The distribution shift between the two settings leads to biased representations of the dynamics, and thus to suboptimal predictions in the real-world environment. In this work, we tackle the challenge of sim-to-real transfer of reinforcement learning (RL) agents for coverage path planning (CPP). In CPP, the task is for a robot to find a path that covers every point of a confined area. Specifically, we consider the case where the environment is unknown, and the agent needs to plan the path online while mapping the environment. We bridge the sim-to-real gap through a semi-virtual environment, including a real robot and real-time aspects, while utilizing a simulated sensor and obstacles to enable environment randomization and automated episode resetting. We investigate what level of fine-tuning is needed for adapting to a realistic setting, comparing to an agent trained solely in simulation. We find that a high inference frequency allows first-order Markovian policies to transfer directly from simulation, while higher-order policies can be fine-tuned to further reduce the sim-to-real gap. Moreover, they can operate at a lower frequency, thus reducing computational requirements. In both cases, our approaches transfer state-of-the-art results from simulation to the real domain, where direct learning would take in the order of weeks with manual interaction, that is, it would be completely infeasible.

arxiv情報

著者 Arvi Jonnarth,Ola Johansson,Michael Felsberg
発行日 2024-08-19 14:45:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY パーマリンク