要約
1対1の自律レース用の階層型コントローラーを開発します。
最初に、現実的な安全性と公平性のルールを備えたレーシング ゲームの定式化を紹介します。
高レベルのプランナーは、複雑な安全性と公平性のルールを簡単にエンコードし、一連のターゲット ウェイポイントを計算するために、簡素化された状態、制御、およびダイナミクスを使用して、元の定式化を個別のゲームとして近似します。
低レベル コントローラーは、結果のウェイポイントを基準軌道として取り、単純化された目的と制約を使用して代替定式化近似を解くことにより、高解像度の制御入力を計算します。
2 つの階層コントローラーを構築する低レベル プランナーの 2 つのアプローチを検討します。
1 つのアプローチはマルチエージェント強化学習 (MARL) を使用し、もう 1 つのアプローチは線形二次ナッシュ ゲーム (LQNG) を解いて制御入力を生成します。
コントローラーは、エンド ツー エンドの MARL コントローラー、固定レーシング ラインを追跡する MARL コントローラー、および固定レーシング ラインを追跡する LQNG コントローラーの 3 つのベースラインと比較されます。
定量的な結果は、提案された階層的方法が、直接対決のレースでの勝利とルールの順守に関して、それぞれのベースライン方法よりも優れていることを示しています。
低レベルの制御に MARL を使用する階層型コントローラーは、1 対 1 のレースの 90% 以上で勝利し、複雑なレース ルールをより一貫して順守することで、他のすべての方法よりも一貫して優れたパフォーマンスを発揮しました。
定性的には、提案されたコントローラーが、シールド/ブロック、追い越し、遅延アドバンテージの長期計画など、熟練した人間のドライバーによって実行されるアクションを模倣していることを観察します。
ゲーム理論的推論の階層的計画は、複雑なルールや制約に挑戦した場合でも競争行動を生み出すことを示しています。
要約(オリジナル)
We develop a hierarchical controller for head-to-head autonomous racing. We first introduce a formulation of a racing game with realistic safety and fairness rules. A high-level planner approximates the original formulation as a discrete game with simplified state, control, and dynamics to easily encode the complex safety and fairness rules and calculates a series of target waypoints. The low-level controller takes the resulting waypoints as a reference trajectory and computes high-resolution control inputs by solving an alternative formulation approximation with simplified objectives and constraints. We consider two approaches for the low-level planner, constructing two hierarchical controllers. One approach uses multi-agent reinforcement learning (MARL), and the other solves a linear-quadratic Nash game (LQNG) to produce control inputs. The controllers are compared against three baselines: an end-to-end MARL controller, a MARL controller tracking a fixed racing line, and an LQNG controller tracking a fixed racing line. Quantitative results show that the proposed hierarchical methods outperform their respective baseline methods in terms of head-to-head race wins and abiding by the rules. The hierarchical controller using MARL for low-level control consistently outperformed all other methods by winning over 90% of head-to-head races and more consistently adhered to the complex racing rules. Qualitatively, we observe the proposed controllers mimicking actions performed by expert human drivers such as shielding/blocking, overtaking, and long-term planning for delayed advantages. We show that hierarchical planning for game-theoretic reasoning produces competitive behavior even when challenged with complex rules and constraints.
arxiv情報
著者 | Rishabh Saumil Thakkar,Aryaman Singh Samyal,David Fridovich-Keil,Zhe Xu,Ufuk Topcu |
発行日 | 2023-02-24 02:33:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google