OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning


マルチモーダル大規模言語モデル (MLLM) の進歩により、強力な推論機能を活用する LLM ベースの自動運転エージェントへの関心が高まっています。
ただし、計画には 2D 推論を超えた完全な 3D 状況認識が必要であるため、MLLM の強力な推論能力を活用して計画行動を改善することは困難です。
この課題に対処するために、私たちの研究では、エージェント モデルと 3D 運転タスクを強力に連携させるための総合的なフレームワークを提案しています。
私たちのフレームワークは、スパース クエリを使用してビジュアル表現を 3D にリフトおよび圧縮してから、LLM にフィードする新しい 3D MLLM アーキテクチャから始まります。
このクエリベースの表現により、動的オブジェクトと静的な地図要素 (車線など) を共同でエンコードできるようになり、3D での知覚と行動の整合のための凝縮された世界モデルが提供されます。
さらに、OmniDrive-nuScenes を提案します。これは、シーンの説明、交通規制、3D 接地、反事実推論、意思決定、
広範な調査により、提案されたアーキテクチャの有効性と、複雑な 3D シーンでの推論と計画のための VQA タスクの重要性が示されています。


The advances in multimodal large language models (MLLMs) have led to growing interests in LLM-based autonomous driving agents to leverage their strong reasoning capabilities. However, capitalizing on MLLMs’ strong reasoning capabilities for improved planning behavior is challenging since planning requires full 3D situational awareness beyond 2D reasoning. To address this challenge, our work proposes a holistic framework for strong alignment between agent models and 3D driving tasks. Our framework starts with a novel 3D MLLM architecture that uses sparse queries to lift and compress visual representations into 3D before feeding them into an LLM. This query-based representation allows us to jointly encode dynamic objects and static map elements (e.g., traffic lanes), providing a condensed world model for perception-action alignment in 3D. We further propose OmniDrive-nuScenes, a new visual question-answering dataset challenging the true 3D situational awareness of a model with comprehensive visual question-answering (VQA) tasks, including scene description, traffic regulation, 3D grounding, counterfactual reasoning, decision making and planning. Extensive studies show the effectiveness of the proposed architecture as well as the importance of the VQA tasks for reasoning and planning in complex 3D scenes.


著者 Shihao Wang,Zhiding Yu,Xiaohui Jiang,Shiyi Lan,Min Shi,Nadine Chang,Jan Kautz,Ying Li,Jose M. Alvarez
発行日 2024-05-02 17:59:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク