要約
最近の大規模な言語モデル(LLM)には高度なテーブル理解機能がありますが、テーブルのテキストシーケンスに変換することに依存しています。
マルチモーダル大手言語モデル(MLLM)は直接的な視覚処理を可能にしますが、固定入力画像解像度と不十分な数値推論機能により、科学テーブルの処理において制限に直面します。
動的な入力画像解像度を使用したマルチモーダル科学テーブルの理解と推論のための包括的なフレームワークを紹介します。
私たちのフレームワークは、3つの重要なコンポーネントで構成されています(1)MMSCI-PRE、52K科学テーブル構造認識サンプルのドメイン固有のテーブル構造学習データセット、(2)MMSCI-IN
タスク、および(3)MMSCI-EVAL、数値推論機能を評価するために特別に設計された3,114のテストサンプルを備えたベンチマーク。
広範な実験は、52Kの科学テーブル画像を使用したドメイン固有のアプローチが、150kの一般ドメインテーブルと比較して優れた性能を達成し、量よりもデータ品質の重要性を強調することを示しています。
動的な入力解像度を備えた提案されたテーブルベースのMLLMは、一般的なテーブルの理解と数値推論能力の両方が大幅に改善されており、保留データセットに強力な一般化があります。
私たちのコードとデータは、https://github.com/bernard-yang/mmsci_tableで公開されています。
要約(オリジナル)
Recent large language models (LLMs) have advanced table understanding capabilities but rely on converting tables into text sequences. While multimodal large language models (MLLMs) enable direct visual processing, they face limitations in handling scientific tables due to fixed input image resolutions and insufficient numerical reasoning capabilities. We present a comprehensive framework for multimodal scientific table understanding and reasoning with dynamic input image resolutions. Our framework consists of three key components: (1) MMSci-Pre, a domain-specific table structure learning dataset of 52K scientific table structure recognition samples, (2) MMSci-Ins, an instruction tuning dataset with 12K samples across three table-based tasks, and (3) MMSci-Eval, a benchmark with 3,114 testing samples specifically designed to evaluate numerical reasoning capabilities. Extensive experiments demonstrate that our domain-specific approach with 52K scientific table images achieves superior performance compared to 150K general-domain tables, highlighting the importance of data quality over quantity. Our proposed table-based MLLMs with dynamic input resolutions show significant improvements in both general table understanding and numerical reasoning capabilities, with strong generalisation to held-out datasets. Our code and data are publicly available at https://github.com/Bernard-Yang/MMSci_Table.
arxiv情報
著者 | Bohao Yang,Yingji Zhang,Dong Liu,André Freitas,Chenghua Lin |
発行日 | 2025-02-25 16:41:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google