BehaviorGPT: Smart Agent Simulation for Autonomous Driving with Next-Patch Prediction

要約

自動運転システムの安全性を効率的に検証するには、交通エージェント間の現実的な対話をシミュレートすることが重要です。
既存の主要なシミュレータは、主にエンコーダ/デコーダ構造を使用して、将来のシミュレーションのために履歴軌跡をエンコードします。
ただし、このようなパラダイムはモデル アーキテクチャを複雑にし、履歴と将来の軌跡を手動で分離するとデータの使用率が低くなります。
これらの課題に対処するために、私たちは、複数のエージェントの連続動作をシミュレートするように設計されたデコーダー専用の自己回帰アーキテクチャである Behavior Generative Pre-trained Transformers (BehaviorGPT) を提案します。
重要なのは、私たちのアプローチは「歴史」と「将来」の間の従来の分離を捨て、各タイムステップを「現在」のステップとして扱い、その結果、データと計算にシームレスに拡張できる、よりシンプルでパラメータ効率とデータ効率の高い設計を実現します。
さらに、次パッチ予測パラダイム (NP3) を導入します。これにより、モデルが軌道のパッチ レベルで推論し、長距離の時空間相互作用をキャプチャできるようになります。
BehaviorGPT は、Waymo Sim Agents Benchmark のいくつかの指標で第 1 位にランクされ、マルチエージェントおよびエージェントマップのインタラクションにおける卓越したパフォーマンスを示しています。
リアリズム スコア 0.741 で最先端のモデルを上回り、minADE メトリクスを 1.540 に向上させ、モデル パラメーターを約 91.6% 削減しました。

要約(オリジナル)

Simulating realistic interactions among traffic agents is crucial for efficiently validating the safety of autonomous driving systems. Existing leading simulators primarily use an encoder-decoder structure to encode the historical trajectories for future simulation. However, such a paradigm complicates the model architecture, and the manual separation of history and future trajectories leads to low data utilization. To address these challenges, we propose Behavior Generative Pre-trained Transformers (BehaviorGPT), a decoder-only, autoregressive architecture designed to simulate the sequential motion of multiple agents. Crucially, our approach discards the traditional separation between ‘history’ and ‘future,’ treating each time step as the ‘current’ one, resulting in a simpler, more parameter- and data-efficient design that scales seamlessly with data and computation. Additionally, we introduce the Next-Patch Prediction Paradigm (NP3), which enables models to reason at the patch level of trajectories and capture long-range spatial-temporal interactions. BehaviorGPT ranks first across several metrics on the Waymo Sim Agents Benchmark, demonstrating its exceptional performance in multi-agent and agent-map interactions. We outperformed state-of-the-art models with a realism score of 0.741 and improved the minADE metric to 1.540, with an approximately 91.6% reduction in model parameters.

arxiv情報

著者 Zikang Zhou,Haibo Hu,Xinhong Chen,Jianping Wang,Nan Guan,Kui Wu,Yung-Hui Li,Yu-Kai Huang,Chun Jason Xue
発行日 2024-05-27 17:28:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク