要約
自律運転、知覚、計画、および制御を包含する深い学習モデルは、高性能を達成するために広大なデータセットに依存します。
ただし、一般化はドメイン固有のデータ分布のためにしばしば苦しんでおり、多様なドメイン全体での信頼性を改善するために必要なサンプルの効果的なシーンベースの分類を行います。
手動のキャプションは、価値がありますが、労働集約的で時間がかかる両方であり、データアノテーションプロセスにボトルネックを作成します。
大規模な視覚言語モデル(LVLMS)は、多くの場合、新しいカテゴリの再訓練を必要とせずに、コンテキストクエリを通じて画像分析と分類を自動化することにより、説得力のあるソリューションを提示します。
この研究では、GPT-4やLlavaを含むLVLMSの機能を評価して、社内データセットとBDD100Kの両方で都市交通シーンを理解および分類します。
最先端のモデルを統合するスケーラブルなキャプションパイプラインを提案し、新しいデータセットで柔軟な展開を可能にします。
定量的メトリックと定性的洞察を組み合わせた分析は、都市交通シナリオを理解するためのLVLMSの有効性を示し、自律運転におけるデータ駆動型の進歩の効率的なツールとしての可能性を強調しています。
要約(オリジナル)
Deep learning models for autonomous driving, encompassing perception, planning, and control, depend on vast datasets to achieve their high performance. However, their generalization often suffers due to domain-specific data distributions, making an effective scene-based categorization of samples necessary to improve their reliability across diverse domains. Manual captioning, though valuable, is both labor-intensive and time-consuming, creating a bottleneck in the data annotation process. Large Visual Language Models (LVLMs) present a compelling solution by automating image analysis and categorization through contextual queries, often without requiring retraining for new categories. In this study, we evaluate the capabilities of LVLMs, including GPT-4 and LLaVA, to understand and classify urban traffic scenes on both an in-house dataset and the BDD100K. We propose a scalable captioning pipeline that integrates state-of-the-art models, enabling a flexible deployment on new datasets. Our analysis, combining quantitative metrics with qualitative insights, demonstrates the effectiveness of LVLMs to understand urban traffic scenarios and highlights their potential as an efficient tool for data-driven advancements in autonomous driving.
arxiv情報
著者 | Rivera Esteban,Lübberstedt Jannik,Nico Uhlemann,Markus Lienkamp |
発行日 | 2025-01-28 18:23:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google