Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases

要約

Large Vision-Language Model (LVLM) は、解釈可能な自動運転の進歩において広く注目を集めています。
LVLM の既存の評価は、主に自然環境における多面的な機能に焦点を当てており、過酷な道路コーナーの場合はもちろんのこと、自動運転に関する自動化された定量化可能な評価が欠けています。
この論文では、自動運転のコーナーケースに対する LVLM の自動評価のための最初のベンチマークである CODA-LM を提案します。
私たちは、強力な LVLM に複雑な運転シーンの分析を促し、人間のアノテーター向けに高品質の事前アノテーションを生成するための階層データ構造を採用しています。また、LVLM の評価では、テキストのみの大規模言語モデル (LLM) を審査員として使用することで、
LVLM の審査員よりも人間の好みによく一致しています。
さらに、CODA-LM を使用して、CODA-LM 上のすべてのオープンソース対応物を超える新しい駆動 LVLM である CODA-VLM を構築します。
当社の CODA-VLM は GPT-4V と同等のパフォーマンスを示し、地域認識タスクでは GPT-4V を +21.42% 上回っています。
CODA-LM が、LVLM による解釈可能な自動運転を促進する触媒となることを願っています。

要約(オリジナル)

Large Vision-Language Models (LVLMs) have received widespread attention in advancing the interpretable self-driving. Existing evaluations of LVLMs primarily focus on the multi-faceted capabilities in natural circumstances, lacking automated and quantifiable assessment for self-driving, let alone the severe road corner cases. In this paper, we propose CODA-LM, the very first benchmark for the automatic evaluation of LVLMs for self-driving corner cases. We adopt a hierarchical data structure to prompt powerful LVLMs to analyze complex driving scenes and generate high-quality pre-annotation for human annotators, and for LVLM evaluation, we show that using the text-only large language models (LLMs) as judges reveals even better alignment with human preferences than the LVLM judges. Moreover, with CODA-LM, we build CODA-VLM, a new driving LVLM surpassing all the open-sourced counterparts on CODA-LM. Our CODA-VLM performs comparably with GPT-4V, even surpassing GPT-4V by +21.42% on the regional perception task. We hope CODA-LM can become the catalyst to promote interpretable self-driving empowered by LVLMs.

arxiv情報

著者 Kai Chen,Yanze Li,Wenhua Zhang,Yanxin Liu,Pengxiang Li,Ruiyuan Gao,Lanqing Hong,Meng Tian,Xinhai Zhao,Zhenguo Li,Dit-Yan Yeung,Huchuan Lu,Xu Jia
発行日 2024-06-20 15:20:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク