A Survey for Foundation Models in Autonomous Driving

要約

基礎モデルの出現により、自然言語処理とコンピューター ビジョンの分野に革命が起こり、自動運転 (AD) への応用への道が開かれました。
この調査は、40 を超える研究論文の包括的なレビューを提示し、AD の強化における基礎モデルの役割を実証しています。
大規模な言語モデルは、特に推論、コード生成、翻訳の習熟度を通じて、AD での計画とシミュレーションに貢献します。
並行して、ビジョン基盤モデルは、シミュレーションやテスト用の現実的な運転シナリオの作成だけでなく、3D オブジェクトの検出や追跡などの重要なタスクにもますます適応されています。
多様な入力を統合するマルチモーダル基礎モデルは、エンドツーエンドの AD にとって重要な、優れた視覚的理解と空間推論を示します。
この調査は、構造化された分類法を提供するだけでなく、AD ドメイン内のモダリティと機能に基づいて基礎モデルを分類するだけでなく、現在の研究で採用されている手法も掘り下げます。
既存の基盤モデルと最先端の AD アプローチとの間のギャップを特定し、それによって将来の研究の方向性を示し、これらのギャップを埋めるためのロードマップを提案します。

要約(オリジナル)

The advent of foundation models has revolutionized the fields of natural language processing and computer vision, paving the way for their application in autonomous driving (AD). This survey presents a comprehensive review of more than 40 research papers, demonstrating the role of foundation models in enhancing AD. Large language models contribute to planning and simulation in AD, particularly through their proficiency in reasoning, code generation and translation. In parallel, vision foundation models are increasingly adapted for critical tasks such as 3D object detection and tracking, as well as creating realistic driving scenarios for simulation and testing. Multi-modal foundation models, integrating diverse inputs, exhibit exceptional visual understanding and spatial reasoning, crucial for end-to-end AD. This survey not only provides a structured taxonomy, categorizing foundation models based on their modalities and functionalities within the AD domain but also delves into the methods employed in current research. It identifies the gaps between existing foundation models and cutting-edge AD approaches, thereby charting future research directions and proposing a roadmap for bridging these gaps.

arxiv情報

著者 Haoxiang Gao,Zhongruo Wang,Yaqian Li,Kaiwen Long,Ming Yang,Yiqing Shen
発行日 2024-08-21 17:02:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク