Every Part Matters: Integrity Verification of Scientific Figures Based on Multimodal Large Language Models

要約

この論文は、科学的数値の解釈における重要な問題、つまりテキストと図のきめ細かな位置合わせに取り組みます。
これは、主に棒グラフや円グラフなどの単純なデータ駆動型の視覚化を扱い、キャプションと分類を通じて図の基本的な理解を提供するだけだった従来の研究を超えて進歩しています。
私たちは、テキストの知識を科学図の視覚要素と一致させる技術の精度を評価するために設計された、図の完全性検証という新しいタスクを導入します。
これをサポートするために、このタスクのために特別に設計された大規模データセットである Figure-seg を構築するための半自動手法を開発しました。
さらに、私たちは革新的なフレームワークである Every Part Matters (EPM) を提案します。これは、マルチモーダル大規模言語モデル (MLLM) を活用して、テキストと図の整合性の調整と検証を段階的に改善するだけでなく、類推推論を通じて整合性を強化します。
私たちの包括的な実験は、これらの革新が既存の方法を大幅に改善し、複雑な科学的数値のより正確かつ徹底的な分析を可能にすることを示しています。
この進歩は、マルチモーダル技術への理解を高めるだけでなく、複雑な視覚データの正確な解釈を必要とする分野にわたるさらなる研究と実用化を刺激します。

要約(オリジナル)

This paper tackles a key issue in the interpretation of scientific figures: the fine-grained alignment of text and figures. It advances beyond prior research that primarily dealt with straightforward, data-driven visualizations such as bar and pie charts and only offered a basic understanding of diagrams through captioning and classification. We introduce a novel task, Figure Integrity Verification, designed to evaluate the precision of technologies in aligning textual knowledge with visual elements in scientific figures. To support this, we develop a semi-automated method for constructing a large-scale dataset, Figure-seg, specifically designed for this task. Additionally, we propose an innovative framework, Every Part Matters (EPM), which leverages Multimodal Large Language Models (MLLMs) to not only incrementally improve the alignment and verification of text-figure integrity but also enhance integrity through analogical reasoning. Our comprehensive experiments show that these innovations substantially improve upon existing methods, allowing for more precise and thorough analysis of complex scientific figures. This progress not only enhances our understanding of multimodal technologies but also stimulates further research and practical applications across fields requiring the accurate interpretation of complex visual data.

arxiv情報

著者 Xiang Shi,Jiawei Liu,Yinpeng Liu,Qikai Cheng,Wei Lu
発行日 2024-07-26 09:35:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.DL, cs.MM パーマリンク