要約
大規模なビジョン言語モデル(LVLMS)における事実上の精度の評価は、急速な発展に遅れをとっており、これらのモデルの知識能力と信頼性を完全に反映することが困難になっています。
この論文では、8つの主要なトピックと56のサブトピックにわたるLVLMSの視覚的事実性を評価することを目的とした中国語で、中国語で最初の事実に基づいた視覚的質問ベンチマークを紹介します。
このベンチマークの主な機能には、中国語に焦点を当て、多様な知識タイプ、マルチホップの質問構築、高品質のデータ、静的な一貫性、および短い回答を通じて簡単に評価できることが含まれます。
さらに、厳格なデータ構築パイプラインを提供し、視覚的事実を2つの部分に分離します。世界を見る(つまり、オブジェクト認識)と知識を発見します。
この分離により、LVLMSの機能境界と実行メカニズムを分析できます。
その後、34の高度なオープンソースとクローズドソースモデルを評価し、このフィールド内の重要なパフォーマンスギャップを明らかにします。
要約(オリジナル)
The evaluation of factual accuracy in large vision language models (LVLMs) has lagged behind their rapid development, making it challenging to fully reflect these models’ knowledge capacity and reliability. In this paper, we introduce the first factuality-based visual question-answering benchmark in Chinese, named ChineseSimpleVQA, aimed at assessing the visual factuality of LVLMs across 8 major topics and 56 subtopics. The key features of this benchmark include a focus on the Chinese language, diverse knowledge types, a multi-hop question construction, high-quality data, static consistency, and easy-to-evaluate through short answers. Moreover, we contribute a rigorous data construction pipeline and decouple the visual factuality into two parts: seeing the world (i.e., object recognition) and discovering knowledge. This decoupling allows us to analyze the capability boundaries and execution mechanisms of LVLMs. Subsequently, we evaluate 34 advanced open-source and closed-source models, revealing critical performance gaps within this field.
arxiv情報
著者 | Jihao Gu,Yingyao Wang,Pi Bu,Chen Wang,Ziming Wang,Tengtao Song,Donglai Wei,Jiale Yuan,Yingxiu Zhao,Yancheng He,Shilong Li,Jiaheng Liu,Meng Cao,Jun Song,Yingshui Tan,Xiang Li,Wenbo Su,Zhicheng Zheng,Xiaoyong Zhu,Bo Zheng |
発行日 | 2025-02-19 15:19:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google