要約
マルチモーダル大規模言語モデル (MLLM) の優れた機能により、最近の研究では、大規模で動的な環境での自動運転に MLLM ベースのエージェントを採用することに重点が置かれています。
しかし、一般的なアプローチは、高レベルの命令を低レベルの車両制御信号に直接変換することが多く、MLLM に固有の言語生成パラダイムから逸脱し、MLLM の創発的な能力を十分に活用できません。
その結果、これらの手法の一般化可能性は、微調整中に使用される自動運転データセットによって大きく制限されます。
この課題に取り組むために、私たちは、高レベルの命令と低レベルの制御信号を、高レベルの命令よりも粒度が細かいが、制御信号よりも普遍的で説明可能な中レベルの言語駆動コマンドと接続することを提案します。
間のギャップを効果的に埋めることができます。
私たちは、高レベルの推論のための MLLM プランナーと低レベルの実行のための軽量コントローラーを含む、AD-H という名前の階層型マルチエージェント駆動システムを通じてこのアイデアを実装します。
階層設計により、MLLM は低レベルの制御信号のデコードから解放され、高レベルの認識、推論、計画における創発機能が完全に解放されます。
アクション階層アノテーションを含む新しいデータセットを構築します。
包括的な閉ループ評価により、私たちが提案する AD-H システムのいくつかの重要な利点が実証されています。
まず、AD-H は、卓越した走行性能を達成する点で最先端の手法を著しく上回る性能を発揮し、車両操作中に自己修正機能を発揮することさえありますが、これはトレーニング データセットでは遭遇しなかったシナリオです。
第二に、AD-H は長期的な命令と新しい環境条件下で優れた一般化を示し、現在の最先端の方法を大幅に上回ります。
データとコードは https://github.com/zhangzaibin/AD-H で公開します。
要約(オリジナル)
Due to the impressive capabilities of multimodal large language models (MLLMs), recent works have focused on employing MLLM-based agents for autonomous driving in large-scale and dynamic environments. However, prevalent approaches often directly translate high-level instructions into low-level vehicle control signals, which deviates from the inherent language generation paradigm of MLLMs and fails to fully harness their emergent powers. As a result, the generalizability of these methods is highly restricted by autonomous driving datasets used during fine-tuning. To tackle this challenge, we propose to connect high-level instructions and low-level control signals with mid-level language-driven commands, which are more fine-grained than high-level instructions but more universal and explainable than control signals, and thus can effectively bridge the gap in between. We implement this idea through a hierarchical multi-agent driving system named AD-H, including a MLLM planner for high-level reasoning and a lightweight controller for low-level execution. The hierarchical design liberates the MLLM from low-level control signal decoding and therefore fully releases their emergent capability in high-level perception, reasoning, and planning. We build a new dataset with action hierarchy annotations. Comprehensive closed-loop evaluations demonstrate several key advantages of our proposed AD-H system. First, AD-H can notably outperform state-of-the-art methods in achieving exceptional driving performance, even exhibiting self-correction capabilities during vehicle operation, a scenario not encountered in the training dataset. Second, AD-H demonstrates superior generalization under long-horizon instructions and novel environmental conditions, significantly surpassing current state-of-the-art methods. We will make our data and code publicly accessible at https://github.com/zhangzaibin/AD-H
arxiv情報
| 著者 | Zaibin Zhang,Shiyu Tang,Yuanhang Zhang,Talas Fu,Yifan Wang,Yang Liu,Dong Wang,Jing Shao,Lijun Wang,Huchuan Lu |
| 発行日 | 2024-06-05 17:25:46+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google