MMCR: Benchmarking Cross-Source Reasoning in Scientific Papers

要約

機械による科学論文を完全に理解することは、高レベルの人工的な一般情報を反映しており、断片化された不均一な情報源を越えて推論する能力を必要とし、複雑で実質的に重要な課題を提示します。
ビジョン言語モデル(VLM)は、さまざまなタスク、特に単一の画像またはテキストページからの証拠ソースを使用した推論を含むさまざまなタスクで顕著な進歩を遂げていますが、推論にクロスソース情報を使用する能力は未解決の問題のままです。
この作業は、科学論文からのクロスソース情報を使用してVLMの能力を評価するために設計された高度なベンチマークであるMMCRを提示します。
ベンチマークは、7つの被験者と10のタスクタイプにわたって人間によって綿密に注釈が付けられた276の高品質の質問で構成されています。
18のVLMを使用した実験は、クロスソースの推論が既存のモデルにとって大きな課題であることを示しています。
特に、最高パフォーマンスモデルのGPT-4Oでさえ、全体的な精度は48.55%しか達成されず、マルチテーブル理解タスクの精度は20%しかありませんでしたが、2番目に良いモデルQWEN2.5-VL-72Bは39.86%の全体的な精度に達しました。
さらに、クロスソースの推論に対する考え方(COT)技術の影響を調査し、小さなモデルに有害な影響を観察しましたが、大きなモデルはパフォーマンスを大幅に向上させました。
これらの結果は、推論のためにクロスソース情報を効果的に利用できるVLMを開発する必要があることを強調しています。

要約(オリジナル)

Fully comprehending scientific papers by machines reflects a high level of Artificial General Intelligence, requiring the ability to reason across fragmented and heterogeneous sources of information, presenting a complex and practically significant challenge. While Vision-Language Models (VLMs) have made remarkable strides in various tasks, particularly those involving reasoning with evidence source from single image or text page, their ability to use cross-source information for reasoning remains an open problem. This work presents MMCR, a high-difficulty benchmark designed to evaluate VLMs’ capacity for reasoning with cross-source information from scientific papers. The benchmark comprises 276 high-quality questions, meticulously annotated by humans across 7 subjects and 10 task types. Experiments with 18 VLMs demonstrate that cross-source reasoning presents a substantial challenge for existing models. Notably, even the top-performing model, GPT-4o, achieved only 48.55% overall accuracy, with only 20% accuracy in multi-table comprehension tasks, while the second-best model, Qwen2.5-VL-72B, reached 39.86% overall accuracy. Furthermore, we investigated the impact of the Chain-of-Thought (CoT) technique on cross-source reasoning and observed a detrimental effect on small models, whereas larger models demonstrated substantially enhanced performance. These results highlight the pressing need to develop VLMs capable of effectively utilizing cross-source information for reasoning.

arxiv情報

著者 Yang Tian,Zheng Lu,Mingqi Gao,Zheng Liu,Bo Zhao
発行日 2025-03-21 05:02:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク