Drive Fast, Learn Faster: On-Board RL for High Performance Autonomous Racing

要約

自律的なレースは、その非線形ダイナミクス、関係する高速、および動的かつ予測不可能な条件下でのリアルタイムの意思決定の重要な必要性により、ユニークな課題を提示します。
ほとんどの従来の強化学習(RL)アプローチは、広範なシミュレーションベースのプリトレーニングに依存しています。
このペーパーでは、シミュレーションベースのプリトレーニングへの依存を排除​​し、直接的な現実世界の適応を可能にするように設計された、自律レース用の堅牢なオンボードRLフレームワークを紹介します。
提案されたシステムは、洗練されたソフトアクタークリティック(SAC)アルゴリズムを導入し、残留RL構造を活用して、マルチステップ時間差(TD)学習、非同期トレーニングパイプライン、およびヒューリスティック遅延報酬調整(HDRA)を統合することにより、クラシックコントローラーをリアルタイムで強化し、サンプル効率とトレーニングの安定性を改善します。
このフレームワークは、F1tenthレーシングプラットフォームでの広範な実験を通じて検証されます。残りのRLコントローラーは、ベースラインコントローラーを常に上回り、最大のトレーニング(SOTA)と比較して最大11.5%のラップ時間を達成します。
さらに、ベースラインコントローラーなしで訓練されたエンドツーエンド(E2E)RLコントローラーは、持続的なオントラック学習で以前の最良の結果を上回ります。
これらの調査結果は、このフレームワークを、高性能の自律レースのための堅牢なソリューションと、他のリアルタイムで動的な自律システムの有望な方向性として位置付けています。

要約(オリジナル)

Autonomous racing presents unique challenges due to its non-linear dynamics, the high speed involved, and the critical need for real-time decision-making under dynamic and unpredictable conditions. Most traditional Reinforcement Learning (RL) approaches rely on extensive simulation-based pre-training, which faces crucial challenges in transfer effectively to real-world environments. This paper introduces a robust on-board RL framework for autonomous racing, designed to eliminate the dependency on simulation-based pre-training enabling direct real-world adaptation. The proposed system introduces a refined Soft Actor-Critic (SAC) algorithm, leveraging a residual RL structure to enhance classical controllers in real-time by integrating multi-step Temporal-Difference (TD) learning, an asynchronous training pipeline, and Heuristic Delayed Reward Adjustment (HDRA) to improve sample efficiency and training stability. The framework is validated through extensive experiments on the F1TENTH racing platform, where the residual RL controller consistently outperforms the baseline controllers and achieves up to an 11.5 % reduction in lap times compared to the State-of-the-Art (SotA) with only 20 min of training. Additionally, an End-to-End (E2E) RL controller trained without a baseline controller surpasses the previous best results with sustained on-track learning. These findings position the framework as a robust solution for high-performance autonomous racing and a promising direction for other real-time, dynamic autonomous systems.

arxiv情報

著者 Benedict Hildisch,Edoardo Ghignone,Nicolas Baumann,Cheng Hu,Andrea Carron,Michele Magno
発行日 2025-05-12 08:06:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク