LiveVQA: Live Visual Knowledge Seeking

要約

合成されたVQA問題を備えたインターネットからの最新の視覚知識の自動的に収集されたデータセットであるLiveVQAを紹介します。
LiveVQAは、14のニュースカテゴリにまたがる6つのニュースWebサイトからの3,602のシングルホップおよびマルチホップの視覚的質問で構成されており、高品質の画像テキストコヒーレンスと本物の情報を備えています。
15 MLLM(GPT-4O、GEMMA-3、QWEN-2.5-VLファミリーなど)にわたる評価は、より強力なモデルのパフォーマンスが全体的に優れていることを示しています。
テキストの問題に関する優れたパフォーマンスにもかかわらず、検索エンジンのようなツールを備えたモデルは、最新の視覚知識を必要とする視覚的な質問に対処し、将来の研究の重要な領域を強調している場合、依然として大きなギャップを示しています。

要約(オリジナル)

We introduce LiveVQA, an automatically collected dataset of latest visual knowledge from the Internet with synthesized VQA problems. LiveVQA consists of 3,602 single- and multi-hop visual questions from 6 news websites across 14 news categories, featuring high-quality image-text coherence and authentic information. Our evaluation across 15 MLLMs (e.g., GPT-4o, Gemma-3, and Qwen-2.5-VL family) demonstrates that stronger models perform better overall, with advanced visual reasoning capabilities proving crucial for complex multi-hop questions. Despite excellent performance on textual problems, models with tools like search engines still show significant gaps when addressing visual questions requiring latest visual knowledge, highlighting important areas for future research.

arxiv情報

著者 Mingyang Fu,Yuyang Peng,Benlin Liu,Yao Wan,Dongping Chen
発行日 2025-04-07 17:39:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク