要約
Large Vision-Language Model (LVLM) は、画像認識と言語理解において優れた能力を実証しています。
ただし、既存のマルチモーダル ベンチマークは、LVLM の包括的な機能を反映するには不十分な、主要な認識能力と常識的な知識に焦点を当てています。
中国大学入学試験(GAOKAO)をベースにしたマルチモーダルベンチマーク「GAOKAO-MM」を提案します。8科目と図、関数グラフ、地図、写真など12種類の画像から構成されます。
GAOKAO-MM はネイティブの中国語のコンテキストから派生し、知覚、理解、知識、推論などのモデルの能力に対する人間レベルの要件を設定します。
10 個の LVLM を評価したところ、GPT-4-Vison (48.1%)、Qwen-VL-Plus (41.2%)、Gemini-Pro-Vision (35.1%) の順で、それらすべての精度が 50% 未満であることがわかりました。
上位3位にいます。
私たちの多次元分析の結果は、LVLM が汎用人工知能 (AGI) に対して適度な距離を置いており、多言語 LVLM の開発を促進する洞察を提供することを示しています。
要約(オリジナル)
The Large Vision-Language Models (LVLMs) have demonstrated great abilities in image perception and language understanding. However, existing multimodal benchmarks focus on primary perception abilities and commonsense knowledge which are insufficient to reflect the comprehensive capabilities of LVLMs. We propose GAOKAO-MM, a multimodal benchmark based on the Chinese College Entrance Examination (GAOKAO), comprising of 8 subjects and 12 types of images, such as diagrams, function graphs, maps and photos. GAOKAO-MM derives from native Chinese context and sets human-level requirements for the model’s abilities, including perception, understanding, knowledge and reasoning. We evaluate 10 LVLMs and find that the accuracies of all of them are lower than 50%, with GPT-4-Vison (48.1%), Qwen-VL-Plus (41.2%) and Gemini-Pro-Vision (35.1%) ranking in the top three positions. The results of our multi-dimension analysis indicate that LVLMs have moderate distance towards Artificial General Intelligence (AGI) and provide insights facilitating the development of multilingual LVLMs.
arxiv情報
著者 | Yi Zong,Xipeng Qiu |
発行日 | 2024-08-06 15:28:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google