TC-Driver: Trajectory Conditioned Driving for Robust Autonomous Racing — A Reinforcement Learning Approach

要約

自動レースは、知覚、計画、制御のアルゴリズムを限界まで押し上げることで、一般的な自動運転のテストとして学術界や業界の研究者の間で人気が高まっています。
MPC などの従来の制御方法は、車両の物理的制御性の限界で最適な制御シーケンスを生成できますが、これらの方法はモデリング パラメーターの精度に敏感です。
この論文では、自律走行レースにおけるロバストな制御のための RL アプローチである TC-Driver について説明します。
特に、TC-Driver エージェントは、任意の従来の高レベル プランナーによって生成された軌道によって条件付けされます。
提案された TC ドライバーは、階層制御構造における従来の計画手法の信頼性を活用しながら、RL のヒューリスティックな性質を活用することで、タイヤ パラメーターのモデリングの不正確さに対処します。
さまざまなタイヤ条件下でエージェントをトレーニングし、さまざまなモデル パラメーターに一般化できるようにし、実際のシステムのレーシング能力を向上させることを目指しています。
提案された RL 手法は、モデルの不一致設定において衝突率が 2.7 低く、非学習ベースの MPC よりも優れており、パラメーターの不一致に対する堅牢性が強調されています。
さらに、平均 RL 推論期間は 0.25 ミリ秒で、平均 MPC 解決時間は 11.5 ミリ秒であり、ほぼ 40 倍の速度向上が得られ、計算に制約のあるデバイスでの複雑な制御の展開が可能になります。
最後に、感覚入力から直接学習される制御ポリシーとして頻繁に利用されるエンドツーエンド RL アーキテクチャは、不一致の堅牢性のモデル化や一般化の追跡にはあまり適していないことを示します。
私たちの現実的なシミュレーションでは、モデルの不一致とトラックの一般化設定の下で TC ドライバーが 6.7 と 3 倍低い衝突率を達成すると同時に、エンドツーエンドのアプローチよりも低いラップタイムを達成することが示されており、TC ドライバーの堅牢な実行可能性が実証されています。
自律走行レース。

要約(オリジナル)

Autonomous racing is becoming popular for academic and industry researchers as a test for general autonomous driving by pushing perception, planning, and control algorithms to their limits. While traditional control methods such as MPC are capable of generating an optimal control sequence at the edge of the vehicles physical controllability, these methods are sensitive to the accuracy of the modeling parameters. This paper presents TC-Driver, a RL approach for robust control in autonomous racing. In particular, the TC-Driver agent is conditioned by a trajectory generated by any arbitrary traditional high-level planner. The proposed TC-Driver addresses the tire parameter modeling inaccuracies by exploiting the heuristic nature of RL while leveraging the reliability of traditional planning methods in a hierarchical control structure. We train the agent under varying tire conditions, allowing it to generalize to different model parameters, aiming to increase the racing capabilities of the system in practice. The proposed RL method outperforms a non-learning-based MPC with a 2.7 lower crash ratio in a model mismatch setting, underlining robustness to parameter discrepancies. In addition, the average RL inference duration is 0.25 ms compared to the average MPC solving time of 11.5 ms, yielding a nearly 40-fold speedup, allowing for complex control deployment in computationally constrained devices. Lastly, we show that the frequently utilized end-to-end RL architecture, as a control policy directly learned from sensory input, is not well suited to model mismatch robustness nor track generalization. Our realistic simulations show that TC-Driver achieves a 6.7 and 3-fold lower crash ratio under model mismatch and track generalization settings, while simultaneously achieving lower lap times than an end-to-end approach, demonstrating the viability of TC-driver to robust autonomous racing.

arxiv情報

著者 Edoardo Ghignone,Nicolas Baumann,Mike Boss,Michele Magno
発行日 2023-07-06 09:27:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク