Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases

要約

Large Vision-Language Model (LVLM) は、画像やビデオを理解する優れた視覚的推論能力により、自動運転分野で広く注目を集めており、解釈可能なエンドツーエンドの自動運転の開発を大幅に前進させます。
しかし、LVLM の現在の評価は、一般的なシナリオにおける多面的な機能に主に焦点を当てており、自動運転の状況における定量化可能な自動評価が欠けており、ましてや最先端の​​自動運転認識システムでも困難な厳しい道路コーナーのケースは言うまでもありません。
ハンドル。
この論文では、自動運転用の新しい視覚言語ベンチマークである CODA-LM を提案します。これは、一般的な認識、領域的な認識、および運転提案を含む、解釈可能な自動運転のための LVLM の最初の自動的かつ定量的な評価を提供します。
CODA-LM はテキストを利用して道路画像を記述し、画像入力のない強力なテキストのみの大規模言語モデル (LLM) を利用して自動運転シナリオにおける LVLM の機能を評価します。これにより、LVLM の判定者よりも人間の好みとの一致がより強いことが明らかになります。
実験では、GPT-4V のようなクローズドソースの商用 LVLM でさえ道路のコーナーケースにうまく対処できないことが実証されており、LVLM を活用した強力なインテリジェント運転エージェントにはまだ程遠いことが示唆されており、当社の CODA-LM がその触媒となることを期待しています。
将来の発展を促進します。

要約(オリジナル)

Large Vision-Language Models (LVLMs), due to the remarkable visual reasoning ability to understand images and videos, have received widespread attention in the autonomous driving domain, which significantly advances the development of interpretable end-to-end autonomous driving. However, current evaluations of LVLMs primarily focus on the multi-faceted capabilities in common scenarios, lacking quantifiable and automated assessment in autonomous driving contexts, let alone severe road corner cases that even the state-of-the-art autonomous driving perception systems struggle to handle. In this paper, we propose CODA-LM, a novel vision-language benchmark for self-driving, which provides the first automatic and quantitative evaluation of LVLMs for interpretable autonomous driving including general perception, regional perception, and driving suggestions. CODA-LM utilizes the texts to describe the road images, exploiting powerful text-only large language models (LLMs) without image inputs to assess the capabilities of LVLMs in autonomous driving scenarios, which reveals stronger alignment with human preferences than LVLM judges. Experiments demonstrate that even the closed-sourced commercial LVLMs like GPT-4V cannot deal with road corner cases well, suggesting that we are still far from a strong LVLM-powered intelligent driving agent, and we hope our CODA-LM can become the catalyst to promote future development.

arxiv情報

著者 Yanze Li,Wenhua Zhang,Kai Chen,Yanxin Liu,Pengxiang Li,Ruiyuan Gao,Lanqing Hong,Meng Tian,Xinhai Zhao,Zhenguo Li,Dit-Yan Yeung,Huchuan Lu,Xu Jia
発行日 2024-04-16 14:20:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク