CtRL-Sim: Reactive and Controllable Driving Agents with Offline Reinforcement Learning

要約

シミュレーションで自律走行車スタック (AV) を評価するには、通常、現実世界で記録された交通からの運転ログを再生する必要があります。
ただし、オフライン データから再生されたエージェントは AV のアクションに反応せず、反事実のシナリオをシミュレートするためにエージェントの動作を簡単に制御することはできません。
既存のアプローチは、実世界のデータのヒューリスティックまたは学習された生成モデルに依存する方法を提案することで、これらの欠点に対処しようと試みてきましたが、これらのアプローチは現実性に欠けるか、生成された動作を制御するためにコストのかかる反復サンプリング手順を必要とします。
この研究では、代替アプローチを採用し、物理強化された Nocturne シミュレーター内でリターン条件付きオフライン強化学習を活用して、反応性が高く制御可能なトラフィック エージェントを効率的に生成する方法である CtRL-Sim を提案します。
具体的には、Nocturne シミュレーターを通じて現実世界の運転データを処理し、さまざまな報酬条件が注釈付けされた多様なオフライン強化学習データセットを生成します。
このデータセットを使用して、さまざまな報酬コンポーネントの望ましい収益を変更することで、エージェントの行動をきめ細かく操作できる、収益条件付きマルチエージェント行動モデルをトレーニングします。
この機能により、敵対的な行動を表すものも含め、初期データセットの範囲を超えた幅広い運転行動を生成できます。
CtRL-Sim が、エージェントの動作に対するきめ細かい制御を提供しながら、多様で現実的な安全性が重要なシナリオを効率的に生成できることを実証します。
さらに、モデルによって生成されたシミュレートされた安全性が重要なシナリオに基づいてモデルを微調整すると、この制御性が向上することを示します。

要約(オリジナル)

Evaluating autonomous vehicle stacks (AVs) in simulation typically involves replaying driving logs from real-world recorded traffic. However, agents replayed from offline data do not react to the actions of the AV, and their behaviour cannot be easily controlled to simulate counterfactual scenarios. Existing approaches have attempted to address these shortcomings by proposing methods that rely on heuristics or learned generative models of real-world data but these approaches either lack realism or necessitate costly iterative sampling procedures to control the generated behaviours. In this work, we take an alternative approach and propose CtRL-Sim, a method that leverages return-conditioned offline reinforcement learning within a physics-enhanced Nocturne simulator to efficiently generate reactive and controllable traffic agents. Specifically, we process real-world driving data through the Nocturne simulator to generate a diverse offline reinforcement learning dataset, annotated with various reward terms. With this dataset, we train a return-conditioned multi-agent behaviour model that allows for fine-grained manipulation of agent behaviours by modifying the desired returns for the various reward components. This capability enables the generation of a wide range of driving behaviours beyond the scope of the initial dataset, including those representing adversarial behaviours. We demonstrate that CtRL-Sim can efficiently generate diverse and realistic safety-critical scenarios while providing fine-grained control over agent behaviours. Further, we show that fine-tuning our model on simulated safety-critical scenarios generated by our model enhances this controllability.

arxiv情報

著者 Luke Rowe,Roger Girgis,Anthony Gosselin,Bruno Carrez,Florian Golemo,Felix Heide,Liam Paull,Christopher Pal
発行日 2024-03-29 02:10:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク