Learning from Demonstration with Hierarchical Policy Abstractions Toward High-Performance and Courteous Autonomous Racing

要約

完全自動運転のレースでは、高速走行だけでなく、公正かつ丁寧な操作が求められます。
この論文では、階層的なポリシーの抽象化を使用して、専門家のデモンストレーションから複雑なレース動作を学習する自律的なレース フレームワークを提案します。
軌道レベルでは、私たちのポリシー モデルは、オフライン デモンストレーションから学習された軌道の可能性を示す密集した分布マップを予測します。
次に、最尤軌道は制御レベルのポリシーに渡され、性能の限界での車両ダイナミクスを考慮して、残差方式で制御入力が生成されます。
私たちはフレームワークを忠実度の高いレーシング シミュレーターで評価し、マルチエージェントによる困難な敵対シナリオで競合するベースラインと比較します。
定量的および定性的な結果は、軌道計画ポリシーがベースラインを大幅に上回っており、残留制御ポリシーがラップタイムと追跡精度を向上させていることを示しています。
さらに、10 台の対戦相手による挑戦的な閉ループ実験では、私たちのフレームワークが微妙な相互作用を理解し、パフォーマンスとプロのドライバーのような礼儀正しさのバランスを効果的にとることによって他の車両を追い越せることが示されました。

要約(オリジナル)

Fully autonomous racing demands not only high-speed driving but also fair and courteous maneuvers. In this paper, we propose an autonomous racing framework that learns complex racing behaviors from expert demonstrations using hierarchical policy abstractions. At the trajectory level, our policy model predicts a dense distribution map indicating the likelihood of trajectories learned from offline demonstrations. The maximum likelihood trajectory is then passed to the control-level policy, which generates control inputs in a residual fashion, considering vehicle dynamics at the limits of performance. We evaluate our framework in a high-fidelity racing simulator and compare it against competing baselines in challenging multi-agent adversarial scenarios. Quantitative and qualitative results show that our trajectory planning policy significantly outperforms the baselines, and the residual control policy improves lap time and tracking accuracy. Moreover, challenging closed-loop experiments with ten opponents show that our framework can overtake other vehicles by understanding nuanced interactions, effectively balancing performance and courtesy like professional drivers.

arxiv情報

著者 Chanyoung Chung,Hyunki Seong,David Hyunchul Shim
発行日 2024-11-07 14:13:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク