要約
基礎モデルの登場は、自然言語処理とコンピュータビジョンの分野に革命をもたらし、自律走行(AD)への応用に道を開いた。本サーベイでは、40以上の研究論文を包括的にレビューし、AD強化における基盤モデルの役割を示す。大規模な言語モデルは、特に推論、コード生成、翻訳における熟練度を通じて、ADにおけるプランニングとシミュレーションに貢献している。これと並行して、ビジョン基盤モデルは、シミュレーションやテストのための現実的な運転シナリオを作成するだけでなく、3Dオブジェクトの検出や追跡のような重要なタスクにますます適応されている。多様な入力を統合するマルチモーダルな基礎モデルは、エンドツーエンドのADにとって極めて重要な、卓越した視覚的理解と空間的推論を示す。本調査は、AD領域におけるモダリティと機能性に基づいて基礎モデルを分類し、構造化された分類法を提供するだけでなく、現在の研究で採用されている手法についても掘り下げる。既存の基礎モデルと最先端のADアプローチとの間のギャップを明らかにし、それによって将来の研究の方向性を描き、これらのギャップを埋めるためのロードマップを提案する。
要約(オリジナル)
The advent of foundation models has revolutionized the fields of natural language processing and computer vision, paving the way for their application in autonomous driving (AD). This survey presents a comprehensive review of more than 40 research papers, demonstrating the role of foundation models in enhancing AD. Large language models contribute to planning and simulation in AD, particularly through their proficiency in reasoning, code generation and translation. In parallel, vision foundation models are increasingly adapted for critical tasks such as 3D object detection and tracking, as well as creating realistic driving scenarios for simulation and testing. Multi-modal foundation models, integrating diverse inputs, exhibit exceptional visual understanding and spatial reasoning, crucial for end-to-end AD. This survey not only provides a structured taxonomy, categorizing foundation models based on their modalities and functionalities within the AD domain but also delves into the methods employed in current research. It identifies the gaps between existing foundation models and cutting-edge AD approaches, thereby charting future research directions and proposing a roadmap for bridging these gaps.
arxiv情報
著者 | Haoxiang Gao,Yaqian Li,Kaiwen Long,Ming Yang,Yiqing Shen |
発行日 | 2024-08-31 02:28:20+00:00 |
arxivサイト | arxiv_id(pdf) |