要約
我々は、頭脳戦自律型レースのための階層型コントローラを開発する。まず、現実的な安全性と公平性のルールを持つレースゲームの定式化を導入する。高位プランナは、複雑な安全性と公平性のルールを容易に符号化するために、状態、制御、ダイナミクスを単純化した離散ゲームとして元の定式化を近似し、一連の目標ウェイポイントを計算する。低レベルコントローラは、結果として得られたウェイポイントを参照軌道とし、単純化された目的と制約を持つ別の定式化近似を解くことにより、高分解能の制御入力を計算する。我々は、低レベルプランナに対して2つのアプローチを検討し、2つの階層型コントローラを構築する。一つはマルチエージェント強化学習(MARL)を用いたアプローチであり、もう一つは線形二次ナッシュゲーム(LQNG)を解いて制御入力を生成するアプローチである。これらのコントローラを3つのベースライン(エンドツーエンドのMARLコントローラ、固定レーシングラインを追跡するMARLコントローラ、固定レーシングラインを追跡するLQNGコントローラ)と比較した。定量的な結果は、提案する階層的手法が、頭から頭までのレース勝利とルール遵守の点で、それぞれのベースライン手法を上回ることを示している。低レベル制御にMARLを用いた階層型コントローラは、頭対頭レースの90%以上で勝利し、複雑なレースルールをより一貫して遵守することで、他の全ての手法を一貫して上回った。定性的には、提案されたコントローラは、遮蔽/ブロック、追い越し、遅延優位のための長期計画など、熟練した人間のドライバーが行う行動を模倣していることが確認された。我々は、ゲーム理論的推論に基づく階層的プランニングが、複雑なルールや制約に直面した場合でも、競争力のある行動を生み出すことを示す。
要約(オリジナル)
We develop a hierarchical controller for head-to-head autonomous racing. We first introduce a formulation of a racing game with realistic safety and fairness rules. A high-level planner approximates the original formulation as a discrete game with simplified state, control, and dynamics to easily encode the complex safety and fairness rules and calculates a series of target waypoints. The low-level controller takes the resulting waypoints as a reference trajectory and computes high-resolution control inputs by solving an alternative formulation approximation with simplified objectives and constraints. We consider two approaches for the low-level planner, constructing two hierarchical controllers. One approach uses multi-agent reinforcement learning (MARL), and the other solves a linear-quadratic Nash game (LQNG) to produce control inputs. The controllers are compared against three baselines: an end-to-end MARL controller, a MARL controller tracking a fixed racing line, and an LQNG controller tracking a fixed racing line. Quantitative results show that the proposed hierarchical methods outperform their respective baseline methods in terms of head-to-head race wins and abiding by the rules. The hierarchical controller using MARL for low-level control consistently outperformed all other methods by winning over 90% of head-to-head races and more consistently adhered to the complex racing rules. Qualitatively, we observe the proposed controllers mimicking actions performed by expert human drivers such as shielding/blocking, overtaking, and long-term planning for delayed advantages. We show that hierarchical planning for game-theoretic reasoning produces competitive behavior even when challenged with complex rules and constraints.
arxiv情報
著者 | Rishabh Saumil Thakkar,Aryaman Singh Samyal,David Fridovich-Keil,Zhe Xu,Ufuk Topcu |
発行日 | 2024-02-05 04:41:28+00:00 |
arxivサイト | arxiv_id(pdf) |