要約
ビジョン言語モデル(VLM)の進歩により、強力な推論能力を活用するための自律運転への関心が高まっています。
ただし、これらの機能を2Dから完全な3D理解に拡張することは、実際のアプリケーションでは重要です。
この課題に対処するために、オムニドライブを提案します。これは、エージェントモデルを反事実的推論を通じて3D駆動タスクに合わせる全体的なビジョン言語データセットです。
このアプローチは、代替行動を検討している人間のドライバーと同様に、潜在的なシナリオとその結果を評価することにより、意思決定を強化します。
当社の反事実ベースの合成データアノテーションプロセスは、大規模で高品質のデータセットを生成し、ブリッジ計画の軌跡と言語ベースの推論を橋渡しする監督信号を提供します。
Futherでは、2つの高度なOmnidrive-Agent Framework、すなわちOmni-LとOmni-Qを調査して、視覚言語のアライメントと3D知覚の重要性を評価し、効果的なLLMエージェントの設計に関する重要な洞察を明らかにします。
Drivelm Q \&A BenchmarkとNuscenesのオープンループ計画の大幅な改善は、データセットとメソッドの有効性を示しています。
要約(オリジナル)
The advances in vision-language models (VLMs) have led to a growing interest in autonomous driving to leverage their strong reasoning capabilities. However, extending these capabilities from 2D to full 3D understanding is crucial for real-world applications. To address this challenge, we propose OmniDrive, a holistic vision-language dataset that aligns agent models with 3D driving tasks through counterfactual reasoning. This approach enhances decision-making by evaluating potential scenarios and their outcomes, similar to human drivers considering alternative actions. Our counterfactual-based synthetic data annotation process generates large-scale, high-quality datasets, providing denser supervision signals that bridge planning trajectories and language-based reasoning. Futher, we explore two advanced OmniDrive-Agent frameworks, namely Omni-L and Omni-Q, to assess the importance of vision-language alignment versus 3D perception, revealing critical insights into designing effective LLM-agents. Significant improvements on the DriveLM Q\&A benchmark and nuScenes open-loop planning demonstrate the effectiveness of our dataset and methods.
arxiv情報
著者 | Shihao Wang,Zhiding Yu,Xiaohui Jiang,Shiyi Lan,Min Shi,Nadine Chang,Jan Kautz,Ying Li,Jose M. Alvarez |
発行日 | 2025-04-16 15:00:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google