SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers

要約

長い科学研究論文の中で疑問に対する答えを探すことは、読者が疑問に素早く対処するのに役立つ重要な研究分野です。
ただし、科学論文に基づく既存の質問応答 (QA) データセットは規模が限られており、テキスト コンテンツのみに焦点を当てています。
この制限に対処するために、コンピューター サイエンスのさまざまな領域にわたる科学研究論文のコンテキスト内で複雑な図や表を解釈するために特別に設計された初の大規模な QA データセットである SPIQA (Scientific Paper Image Question Answering) を導入します。
幅広い専門知識とマルチモーダル大規模言語モデル (MLLM) の図を理解する能力を活用して、自動および手動のキュレーションを使用してデータセットを作成します。
さまざまなプロット、チャート、表、概略図、結果の視覚化をカバーする複数の画像を含む情報探索タスクを作成します。
SPIQA は、トレーニング、検証、および 3 つの異なる評価分割に分かれた 270,000 の質問で構成されています。
12 の著名な基礎モデルを使用した広範な実験を通じて、研究論文の微妙な側面を理解する現在のマルチモーダル システムの能力を評価します。
さらに、きめ細かい段階的な評価を可能にし、モデルのパフォーマンスを向上させる、コンテキスト内検索を備えた思考連鎖 (CoT) 評価戦略を提案します。
さらに、追加のテキスト情報によるパフォーマンス向上の上限を調査し、将来の研究におけるその有望な可能性と、科学文献との関わり方に革命をもたらすデータセットの影響を強調します。

要約(オリジナル)

Seeking answers to questions within long scientific research articles is a crucial area of study that aids readers in quickly addressing their inquiries. However, existing question-answering (QA) datasets based on scientific papers are limited in scale and focus solely on textual content. To address this limitation, we introduce SPIQA (Scientific Paper Image Question Answering), the first large-scale QA dataset specifically designed to interpret complex figures and tables within the context of scientific research articles across various domains of computer science. Leveraging the breadth of expertise and ability of multimodal large language models (MLLMs) to understand figures, we employ automatic and manual curation to create the dataset. We craft an information-seeking task involving multiple images that cover a wide variety of plots, charts, tables, schematic diagrams, and result visualizations. SPIQA comprises 270K questions divided into training, validation, and three different evaluation splits. Through extensive experiments with 12 prominent foundational models, we evaluate the ability of current multimodal systems to comprehend the nuanced aspects of research articles. Additionally, we propose a Chain-of-Thought (CoT) evaluation strategy with in-context retrieval that allows fine-grained, step-by-step assessment and improves model performance. We further explore the upper bounds of performance enhancement with additional textual information, highlighting its promising potential for future research and the dataset’s impact on revolutionizing how we interact with scientific literature.

arxiv情報

著者 Shraman Pramanick,Rama Chellappa,Subhashini Venugopalan
発行日 2024-07-12 16:37:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク