A Cognitive Evaluation Benchmark of Image Reasoning and Description for Large Vision Language Models

要約

Large Vision Language Model (LVLM) は、最近の成功にもかかわらず、その認知能力について包括的にテストされることはほとんどありません。
人間の認知テストにおける「Cookie Theft」タスクの一般的な使用に触発され、豊富なセマンティクスを持つ画像を使用して LVLM の高度な認知能力を評価するための新しい評価ベンチマークを提案します。
これは 8 つの推論機能を定義し、画像説明タスクと視覚的な質問応答タスクで構成されます。
有名な LVLM に関する私たちの評価では、LVLM と人間との間には認知能力に依然として大きなギャップがあることが示されています。

要約(オリジナル)

Large Vision Language Models (LVLMs), despite their recent success, are hardly comprehensively tested for their cognitive abilities. Inspired by the prevalent use of the ‘Cookie Theft’ task in human cognition test, we propose a novel evaluation benchmark to evaluate high-level cognitive ability of LVLMs using images with rich semantics. It defines eight reasoning capabilities and consists of an image description task and a visual question answering task. Our evaluation on well-known LVLMs shows that there is still a large gap in cognitive ability between LVLMs and humans.

arxiv情報

著者 Xiujie Song,Mengyue Wu,Kenny Q. Zhu,Chunhao Zhang,Yanyi Chen
発行日 2024-02-28 15:28:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク