要約
運転中の人間の推論を模倣するように設計された、新しい自動運転フレームワーク DualAD を紹介します。
DualAD は 2 つの層で構成されています。最下層のルールベースのモーション プランナーは最小限の推論を必要とする日常的な運転タスクを処理し、上位層は運転シナリオを絶対状態からテキスト記述に変換するルールベースのテキスト エンコーダーを備えています。
次に、このテキストは大規模言語モデル (LLM) によって処理され、運転上の決定が行われます。
潜在的な危険が検出された場合、上位層は下位層の決定に介入し、危機的な状況で人間の推論を模倣します。
閉ループ実験では、ゼロショットの事前トレーニング済みモデルを使用する DualAD が、推論能力のないルールベースのモーション プランナーよりも大幅に優れていることが実証されました。
私たちの実験では、モデルのシナリオ理解を大幅に強化するテキスト エンコーダーの有効性も強調しています。
さらに、統合された DualAD モデルは、より強力な LLM によって改善されており、フレームワークがさらに強化される可能性があることを示しています。
コードとベンチマークは公開されています。
要約(オリジナル)
We present a novel autonomous driving framework, DualAD, designed to imitate human reasoning during driving. DualAD comprises two layers: a rule-based motion planner at the bottom layer that handles routine driving tasks requiring minimal reasoning, and an upper layer featuring a rule-based text encoder that converts driving scenarios from absolute states into text description. This text is then processed by a large language model (LLM) to make driving decisions. The upper layer intervenes in the bottom layer’s decisions when potential danger is detected, mimicking human reasoning in critical situations. Closed-loop experiments demonstrate that DualAD, using a zero-shot pre-trained model, significantly outperforms rule-based motion planners that lack reasoning abilities. Our experiments also highlight the effectiveness of the text encoder, which considerably enhances the model’s scenario understanding. Additionally, the integrated DualAD model improves with stronger LLMs, indicating the framework’s potential for further enhancement. We make code and benchmarks publicly available.
arxiv情報
著者 | Dingrui Wang,Marc Kaufeld,Johannes Betz |
発行日 | 2024-09-26 16:58:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google