Bypassing the Simulation-to-reality Gap: Online Reinforcement Learning using a Supervisor

要約

深層強化学習(DRL)は、ロボットの制御方針をデモンストレーションと経験のみから学習できる有望な手法です。
ロボットの動的動作全体をカバーするために、DRL トレーニングは、通常シミュレーション環境で実行されるアクティブな探索プロセスです。
このシミュレーション トレーニングは安価で高速ですが、DRL アルゴリズムを現実世界の設定に適用するのは困難です。
エージェントがシミュレーションで安全に実行されるまでトレーニングされた場合、シミュレーションのダイナミクスと物理ロボットの違いによって生じるシミュレーションと現実のギャップのため、エージェントを物理システムに転送することは困難です。
この論文では、モデルベースの安全スーパーバイザーを使用して、DRL エージェントが物理的な車両上で自律運転できるようにオンライン トレーニングする方法を紹介します。
当社のソリューションは、監視システムを使用して、エージェントが選択したアクションが安全か危険かをチェックし、安全なアクションが常に車両に実装されるようにします。
これにより、DRL アルゴリズムを安全、迅速、効率的にトレーニングしながら、sim-to-real 問題を回避できます。
私たちの方法を、シミュレーションおよび物理的な車両での従来の学習と比較します。
当社は、事前のシミュレーション トレーニングを必要とせずに、自動運転する小型車両をオンラインでトレーニングするさまざまな現実世界の実験を提供します。
評価結果は、私たちの方法がクラッシュすることなくサンプル効率を向上させてエージェントを訓練し、訓練されたエージェントがシミュレーションで訓練されたエージェントよりも優れた運転パフォーマンスを示すことを示しています。

要約(オリジナル)

Deep reinforcement learning (DRL) is a promising method to learn control policies for robots only from demonstration and experience. To cover the whole dynamic behaviour of the robot, DRL training is an active exploration process typically performed in simulation environments. Although this simulation training is cheap and fast, applying DRL algorithms to real-world settings is difficult. If agents are trained until they perform safely in simulation, transferring them to physical systems is difficult due to the sim-to-real gap caused by the difference between the simulation dynamics and the physical robot. In this paper, we present a method of online training a DRL agent to drive autonomously on a physical vehicle by using a model-based safety supervisor. Our solution uses a supervisory system to check if the action selected by the agent is safe or unsafe and ensure that a safe action is always implemented on the vehicle. With this, we can bypass the sim-to-real problem while training the DRL algorithm safely, quickly, and efficiently. We compare our method with conventional learning in simulation and on a physical vehicle. We provide a variety of real-world experiments where we train online a small-scale vehicle to drive autonomously with no prior simulation training. The evaluation results show that our method trains agents with improved sample efficiency while never crashing, and the trained agents demonstrate better driving performance than those trained in simulation.

arxiv情報

著者 Benjamin David Evans,Johannes Betz,Hongrui Zheng,Herman A. Engelbrecht,Rahul Mangharam,Hendrik W. Jordaan
発行日 2023-07-13 11:00:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク