Partial End-to-end Reinforcement Learning for Robustness Against Modelling Error in Autonomous Racing

要約

この論文では、実際の車両モデリング エラー (一般に \emph{モデルの不一致} として知られています) が存在する条件下でナビゲーションする場合の、自動運転レーシング カーの強化学習 (RL) ソリューションのパフォーマンスを向上させるという問題に取り組みます。
この課題に対処するために、計画タスクと制御タスクを分離する部分的なエンドツーエンド アルゴリズムを提案します。
このフレームワーク内で、RL エージェントは経路と速度を含む軌道を生成し、その後、それぞれ純粋追跡ステアリング コントローラーと比例速度コントローラーを使用して追跡されます。
対照的に、現在の多くの学習ベース (つまり、強化学習と模倣学習) アルゴリズムは、ディープ ニューラル ネットワークがセンサー データから制御コマンドに直接マッピングするエンドツーエンドのアプローチを利用しています。
古典的なコントローラーの堅牢性を活用することにより、部分的なエンドツーエンド駆動アルゴリズムは、標準のエンドツーエンド アルゴリズムよりもモデルの不一致に対して優れた堅牢性を示します。

要約(オリジナル)

In this paper, we address the issue of increasing the performance of reinforcement learning (RL) solutions for autonomous racing cars when navigating under conditions where practical vehicle modelling errors (commonly known as \emph{model mismatches}) are present. To address this challenge, we propose a partial end-to-end algorithm that decouples the planning and control tasks. Within this framework, an RL agent generates a trajectory comprising a path and velocity, which is subsequently tracked using a pure pursuit steering controller and a proportional velocity controller, respectively. In contrast, many current learning-based (i.e., reinforcement and imitation learning) algorithms utilise an end-to-end approach whereby a deep neural network directly maps from sensor data to control commands. By leveraging the robustness of a classical controller, our partial end-to-end driving algorithm exhibits better robustness towards model mismatches than standard end-to-end algorithms.

arxiv情報

著者 Andrew Murdoch,Johannes Cornelius Schoeman,Hendrik Willem Jordaan
発行日 2024-08-05 17:00:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク