Autonomous Vehicle Controllers From End-to-End Differentiable Simulation

要約

自動運転車 (AV) のコントローラーを学習する現在の方法は、動作の複製に焦点を当てています。
正確な履歴データのみに基づいてトレーニングされているため、結果として得られるエージェントは、新しいシナリオにあまり一般化できないことがよくあります。
シミュレータはオフライン データセットを超える機会を提供しますが、依然として複雑なブラック ボックスとして扱われ、グローバル シミュレーション状態を更新するためにのみ使用されます。
結果として、これらの RL アルゴリズムは遅く、サンプル効率が低く、事前認識がありません。
この研究では、微分可能シミュレーターを活用し、大規模な Waymo Open Motion データセット上で AV コントローラーをトレーニングするための分析ポリシー勾配 (APG) アプローチを設計します。
私たちが提案するフレームワークは、微分可能シミュレーターをエンドツーエンドのトレーニング ループに組み込み、環境ダイナミクスの勾配が、エージェントがより根拠のあるポリシーを学習するのに役立つ事前の有用な機能として機能します。
このセットアップを、シミュレートされた長い軌跡全体に時間情報を効率的に伝播できるリカレント アーキテクチャと組み合わせます。
この APG 手法を使用すると、希少な専門家のアクションではなく、広く利用可能な専門家の軌跡のみを必要としながら、堅牢で正確かつ迅速なポリシーを学習できます。
動作クローンと比較したところ、パフォーマンスとダイナミクスのノイズに対する堅牢性が大幅に向上し、全体的により直感的に人間に似た操作ができることがわかりました。

要約(オリジナル)

Current methods to learn controllers for autonomous vehicles (AVs) focus on behavioural cloning. Being trained only on exact historic data, the resulting agents often generalize poorly to novel scenarios. Simulators provide the opportunity to go beyond offline datasets, but they are still treated as complicated black boxes, only used to update the global simulation state. As a result, these RL algorithms are slow, sample-inefficient, and prior-agnostic. In this work, we leverage a differentiable simulator and design an analytic policy gradients (APG) approach to training AV controllers on the large-scale Waymo Open Motion Dataset. Our proposed framework brings the differentiable simulator into an end-to-end training loop, where gradients of the environment dynamics serve as a useful prior to help the agent learn a more grounded policy. We combine this setup with a recurrent architecture that can efficiently propagate temporal information across long simulated trajectories. This APG method allows us to learn robust, accurate, and fast policies, while only requiring widely-available expert trajectories, instead of scarce expert actions. We compare to behavioural cloning and find significant improvements in performance and robustness to noise in the dynamics, as well as overall more intuitive human-like handling.

arxiv情報

著者 Asen Nachkov,Danda Pani Paudel,Luc Van Gool
発行日 2024-09-12 11:50:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク