LightEMMA: Lightweight End-to-End Multimodal Model for Autonomous Driving

要約

ビジョン言語モデル(VLM)は、エンドツーエンドの自律運転の重要な可能性を実証しています。
ただし、安全で信頼性の高い車両制御の能力を完全に活用することは、未解決の研究課題です。
運転タスクにおけるVLMの進歩と制限を体系的に調べるために、自律運転のための軽量のエンドツーエンドのマルチモードモデルであるLightemmaを紹介します。
Lightemmaは、アドホックなカスタマイズなしで統一されたVLMベースの自律運転フレームワークを提供し、進化する最先端の商業およびオープンソースモデルの簡単な統合と評価を可能にします。
さまざまなVLMを使用して12の自律駆動剤を構築し、ヌスセン予測タスクのパフォーマンスを評価し、推論時間、計算コスト、予測精度などのメトリックを包括的に評価します。
例示的な例は、強力なシナリオ解釈能力にもかかわらず、自律運転タスクにおけるVLMSの実用的なパフォーマンスが依然として、さらなる改善の必要性を強調していることを強調しています。
このコードは、https://github.com/michigan-traffic-lab/lightemmaで入手できます。

要約(オリジナル)

Vision-Language Models (VLMs) have demonstrated significant potential for end-to-end autonomous driving. However, fully exploiting their capabilities for safe and reliable vehicle control remains an open research challenge. To systematically examine advances and limitations of VLMs in driving tasks, we introduce LightEMMA, a Lightweight End-to-End Multimodal Model for Autonomous driving. LightEMMA provides a unified, VLM-based autonomous driving framework without ad hoc customizations, enabling easy integration and evaluation of evolving state-of-the-art commercial and open-source models. We construct twelve autonomous driving agents using various VLMs and evaluate their performance on the nuScenes prediction task, comprehensively assessing metrics such as inference time, computational cost, and predictive accuracy. Illustrative examples highlight that, despite their strong scenario interpretation capabilities, VLMs’ practical performance in autonomous driving tasks remains concerning, emphasizing the need for further improvements. The code is available at https://github.com/michigan-traffic-lab/LightEMMA.

arxiv情報

著者 Zhijie Qiao,Haowei Li,Zhong Cao,Henry X. Liu
発行日 2025-05-01 04:12:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク